Rapper 要醞釀一整天的歌詞,AI 大概幾分鐘就可以寫出來。
給您一段 Rap,您能看得出這是 AI 寫的嗎?
認(rèn)真品嘗,還能發(fā)覺這段詞中的美中不足之處,但這作詞程度可以說是不錯(cuò)的。
一樣的第一句,能夠疾速生成完整差別的段落:
人類Rapper的雙押,仍是更利害一點(diǎn):
只需要給定一句輸入,AI 就可以生成整首歌詞。由壓韻、流利度、節(jié)拍層面,根本不遜于人類 Rapper。
這項(xiàng)研討來源于港科大、清華、復(fù)旦等機(jī)構(gòu),正在這篇論文中,研討者提出了一個(gè)基于 Transformer 的 Rap 生成體系「DeepRapper」,該體系能夠與此同時(shí)摹擬 Rap 的韻律和節(jié)拍。
論文鏈接:

因?yàn)闆]有現(xiàn)成可以用的節(jié)拍對(duì)齊的 Rap 數(shù)據(jù)集,為了構(gòu)建這個(gè)體系,研究者設(shè)計(jì)了一個(gè)數(shù)據(jù)發(fā)掘 pipeline,并收集了一個(gè)大規(guī)模的 Rap 數(shù)據(jù)集舉行韻律建模。
一開始,研究者先從網(wǎng)上抓取了很多包羅歌詞和音頻的說唱歌曲,并對(duì)每一首抓取的說唱歌曲開展一系列數(shù)據(jù)預(yù)處理步調(diào)。為了更好地建模,研究者以自回歸的體式格局從右到左生成每一句 Rap,如許就能夠很容易地識(shí)別出一個(gè)句子的最終一些單詞 (即反向句子的第一個(gè)單詞) 來壓韻。
別的,為了進(jìn)一步進(jìn)步 Rap 的壓韻質(zhì)量,研究者正在言語模子中加入了一些壓韻表征,并正在推理過程中經(jīng)過壓韻束縛來進(jìn)步生成的 Rap 中的 N-gram 韻律。
研究者運(yùn)用一個(gè)特別的符號(hào) [ BEAT ] 來透露表現(xiàn)有節(jié)奏的節(jié)奏,并將其插入到相應(yīng)的詞之前的歌詞中。根據(jù)這類方法,能夠正在練習(xí)和生成層面根據(jù)歌詞的按次來模仿節(jié)奏。
受到預(yù)鍛煉言語模子的樂成啟示,研究者將預(yù)鍛煉歸入體系。為了得到大規(guī)模的預(yù)鍛煉數(shù)據(jù),研究者還使用了數(shù)據(jù)發(fā)掘 pipeline 收集了別的兩個(gè)數(shù)據(jù)集:
1)節(jié)奏對(duì)齊的非說唱歌曲,它能夠比說唱數(shù)據(jù)集更大,由于非說唱歌曲比說唱歌曲更通用; 2)純歌詞,一樣比非說唱歌曲數(shù)據(jù)集更大。
正在預(yù)鍛煉階段,研究者基于以上兩個(gè)數(shù)據(jù)集對(duì) DeepRapper 模子進(jìn)行了預(yù)鍛煉,然后調(diào)劑模子正在說唱歌曲取調(diào)劑節(jié)拍上的性能,微調(diào)模子即適用于終究的說唱發(fā)生。客觀評(píng)價(jià)和主觀評(píng)價(jià)的實(shí)驗(yàn)后果皆證明了 DeepRapper 正在生成壓韻和節(jié)拍的說唱歌詞方面的上風(fēng)。
Rap 數(shù)據(jù)集
從前適用于 rap 生成的作品(Potash 等人,2014 年;Liang 等人,2018 年;Nikolov 等人,2020 年)平常運(yùn)用只有歌詞的說唱數(shù)據(jù)集,而沒有斟酌節(jié)奏節(jié)奏信息。為了正在 rap 生成中建模節(jié)奏,說唱數(shù)據(jù)集該當(dāng)包羅具有對(duì)齊節(jié)奏節(jié)奏的歌詞。然而,節(jié)奏對(duì)齊很難實(shí)現(xiàn),由于它們的解釋需求專業(yè)音樂家來辨認(rèn)說唱歌曲中的重讀音節(jié)。
因而,為了辦理這個(gè)題目,研究者設(shè)計(jì)了一個(gè)數(shù)據(jù)發(fā)掘 pipeline 來主動(dòng)提取 beatlyric 對(duì)齊。
數(shù)據(jù)發(fā)掘 pipeline
下圖 1 展現(xiàn)了數(shù)據(jù)發(fā)掘 pipeline 的團(tuán)體框架,包括 5 個(gè)步調(diào):數(shù)據(jù)抓取、人聲(vocal)取伴奏別離、人聲取歌詞對(duì)齊、節(jié)奏檢驗(yàn)和歌詞取節(jié)奏對(duì)齊。
發(fā)掘數(shù)據(jù)集
基于上圖數(shù)據(jù)發(fā)掘 pipeline,研究者得到了一個(gè)具有對(duì)齊節(jié)奏的說唱歌詞(rap lyric)數(shù)據(jù)集,并命名為 D-RAP。該數(shù)據(jù)集知足了構(gòu)建具有韻律和節(jié)奏的 rap 生成體系的請(qǐng)求。他們以 4:1 的比例將 D-RAP 數(shù)據(jù)集劃分為鍛煉和考證集。
取一樣平常歌曲相比,說唱?dú)飧诺母枨鷶?shù)目常常較少,因而研究者發(fā)掘了別的兩個(gè)數(shù)據(jù)集,以利用雷同的發(fā)掘 pipeline 對(duì) DeepRapper 模子舉行預(yù)鍛煉,它們分別是具有對(duì)齊節(jié)奏的非說唱歌曲數(shù)據(jù)集 D-SONG 和沒有對(duì)齊節(jié)奏的純歌詞數(shù)據(jù)集 D-LYRIC。
研究者正在下表 1 中對(duì)這三個(gè)數(shù)據(jù)集包羅的歌曲數(shù)目和歌詞句子數(shù)目進(jìn)行了統(tǒng)計(jì)。
下圖 2 展現(xiàn)了 D-RAP 數(shù)據(jù)集合具有對(duì)齊節(jié)奏的說唱歌曲示例。
Rap 生成模子
如下圖 3 所示,研究者展現(xiàn)了 rap 生成模子的團(tuán)體架構(gòu)和韻律和節(jié)拍建模的細(xì)節(jié)。
詳細(xì)地,研究者運(yùn)用 Transformer 構(gòu)建了一個(gè)適用于 rap 生成的自回歸言語模子,并引入了以下一些新的對(duì)齊:
1)為了更好地建模韻律,該模子從左往右生成歌詞句子,這是由于壓韻字一般位于句子末端;
2)如前所述,節(jié)拍關(guān)于 rap 結(jié)果至關(guān)重要,因此插入了一個(gè)特別的 token [BEAT]來舉行顯式節(jié)拍建模;
3)取唯一詞嵌入和位置嵌入的原始 Transformer 分歧,研究者加加了多個(gè)分外嵌入以更好地建模韻律和節(jié)拍。
實(shí)驗(yàn)評(píng)價(jià)
下表 2 展現(xiàn)了 DeepRapper 的客觀取主觀評(píng)價(jià)后果,并取兩個(gè) baseline 進(jìn)行了對(duì)照。baseline 模子是一個(gè)尺度的自回歸言語模子,取 DeepRapper 的模子設(shè)置不異,但沒有本文提出的韻律模子(+PT 的意義是采用了預(yù)鍛煉)。客觀評(píng)價(jià)后果的維度包含 perplexity、韻律準(zhǔn)確性和韻密度;主觀評(píng)價(jià)維度包含主題、流通度、壓韻質(zhì)量和壓韻多樣性。
為了突出 DeepRapper 正在建模 N-gram 韻律中的上風(fēng),研究者運(yùn)用 Combo-N 來襟懷 DeepRapper 中每一個(gè)設(shè)計(jì)建模 N-gram 韻律的才能。后果如下表 4 所示:
為了更好地器量節(jié)奏質(zhì)量,研究者別離利用 DeepRapper 和具有節(jié)奏頻次操縱的 DeepRapper 隨機(jī)生成了約莫 5000 個(gè)樣本。他們提出了一階分布(First Order Distribution, FOD)和二階分布(Second Order Distribution, SOD),并器量了生成樣本取 DRAP 數(shù)據(jù)集之間分布的間隔。
研究者將當(dāng)前 [BEAT] 的隔斷界說為當(dāng)前 [BEAT] 取下個(gè) [BEAT] 之間的歌詞數(shù)目。是以,F(xiàn)OD 被界說為當(dāng)前 [BEAT]隔斷的分布,SOD 被界說為當(dāng)前 [BEAT]取下個(gè) [BEAT]之間隔斷差的分布。隔斷的數(shù)值區(qū)間為[0, 1],詳細(xì)成果如下表 5 所示:
下圖 6 中,研究者展現(xiàn)了生成的 rap 歌曲示例,能夠看得出 DeepRapper 的生成結(jié)果還不錯(cuò)。