9 月 14 日消息,Stability AI 現(xiàn)已正式發(fā)布企業(yè)級(jí)音頻生成模型 Stable Audio 2.5,相對(duì)上一代主要圍繞音頻細(xì)節(jié)、生成速度方面進(jìn)行提升,號(hào)稱“僅需 2 秒鐘即可創(chuàng)建 3 分鐘音頻曲目”。
據(jù)介紹,Stable Audio 2.5 的核心改進(jìn)集中在音樂(lè)生成能力方面,號(hào)稱生成結(jié)果更加貼合實(shí)際編曲邏輯,可呈現(xiàn)前奏、發(fā)展與結(jié)尾等完整多段式結(jié)構(gòu)。同時(shí)新模型對(duì)提示詞的理解更為準(zhǔn)確,尤其在情緒描述和音樂(lè)風(fēng)格詞匯的把握上,響應(yīng)更符合預(yù)期。
此外,新版模型還顯著改進(jìn)了音頻生成速度,Stability AI 稱這主要得益于研發(fā)團(tuán)隊(duì)提出的后訓(xùn)練方法 ARC(IT之家注:Adversarial Relativistic-Contrastive),這一技術(shù)通過(guò)結(jié)合相對(duì)式對(duì)抗訓(xùn)練與對(duì)比判別器,加速擴(kuò)散模型的生成過(guò)程,可在保證音軌質(zhì)量的同時(shí)顯著降低 GPU 推理耗時(shí),從而實(shí)現(xiàn) 2 秒鐘生成長(zhǎng)達(dá) 3 分鐘的音頻內(nèi)容。
除此之外,Stable Audio 2.5 還新增了音頻修補(bǔ)能力,用戶可以導(dǎo)入自己的音頻文件,并指定“延展位置”,模型即可根據(jù)音頻前后內(nèi)容及整體曲風(fēng),將音頻一鍵“延長(zhǎng)”,特別適合剪輯等場(chǎng)景。
目前,Stable Audio 2.5 已可通過(guò) StableAudio 官網(wǎng)直接試用,同時(shí)支持本地化部署。不過(guò)官方規(guī)定,用戶上傳的音頻文件不得包含受版權(quán)保護(hù)的內(nèi)容,StableAudio 網(wǎng)站將利用自帶的內(nèi)容識(shí)別系統(tǒng)進(jìn)行檢測(cè),以確保不侵犯他人版權(quán)。