谷歌“狂飆”在生成式AI賽道最新模型可憑文字、圖片“創(chuàng)作”音樂
2024-11-22

MusicLM有何獨到之處?
它其實是一個分層的序列到序列(Sequence-to-Sequence)模型。根據(jù)人工智能科學(xué)家KeunwooChoi的說法,MusicLM結(jié)合了MuLan+AudioLM和MuLan+w2b-Bert+Soundstream等多個模型,可謂集大成者。
其中,AudioLM模型可視作MusicLM的前身,MusicLM就是利用了AudioLM的多階段自回歸建模作為生成條件,可以通過文本描述,以24kHz的頻率生成音樂,并在幾分鐘內(nèi)保持這個頻率。
相較而言,MusicLM的訓(xùn)練數(shù)據(jù)更多。研究團(tuán)隊引入了首個專門為文本-音樂生成任務(wù)評估數(shù)據(jù)MusicCaps來解決任務(wù)缺乏評估數(shù)據(jù)的問題。MusicCaps由專業(yè)人士共建,涵蓋5500個音樂-文本對。
基于此,谷歌用280000小時的音樂數(shù)據(jù)集訓(xùn)練出了MusicLM。
谷歌的實驗表明,MusicLM在音頻質(zhì)量和對文本描述的遵守方面都優(yōu)于以前的模型。
不過,MusicLM也有著所有生成式AI共同的風(fēng)險——技術(shù)不完善、素材侵權(quán)、道德爭議等。
對于技術(shù)問題,比方說當(dāng)要求MusicLM生成人聲時,技術(shù)上可行,但效果不佳,歌詞亂七八糟、意義不明的情況時有發(fā)生。MusicLM也會“偷懶”——起生成的音樂中,約有1%直接從訓(xùn)練集的歌曲中復(fù)制。
另外,由AI系統(tǒng)生成的音樂到底算不算原創(chuàng)作品?可以受到版權(quán)保護(hù)嗎?能不能和“人造音樂”同臺競技?相關(guān)爭議始終未有一致見解。
這些都是谷歌沒有對外發(fā)布MusicLM的原因。“我們承認(rèn)該模型有盜用創(chuàng)意內(nèi)容的潛在風(fēng)險,我們強(qiáng)調(diào),需要在未來開展更多工作來應(yīng)對這些與音樂生成相關(guān)的風(fēng)險。”谷歌發(fā)布的論文寫道。