Rapper 要醞釀一整天的歌詞,AI 大概幾分鐘就可以寫出來。
給您一段 Rap,您能看得出這是 AI 寫的嗎?
認真品嘗,還能發覺這段詞中的美中不足之處,但這作詞程度可以說是不錯的。
一樣的第一句,能夠疾速生成完整差別的段落:
人類Rapper的雙押,仍是更利害一點:
只需要給定一句輸入,AI 就可以生成整首歌詞。由壓韻、流利度、節拍層面,根本不遜于人類 Rapper。
這項研討來源于港科大、清華、復旦等機構,正在這篇論文中,研討者提出了一個基于 Transformer 的 Rap 生成體系「DeepRapper」,該體系能夠與此同時摹擬 Rap 的韻律和節拍。
論文鏈接:

因為沒有現成可以用的節拍對齊的 Rap 數據集,為了構建這個體系,研究者設計了一個數據發掘 pipeline,并收集了一個大規模的 Rap 數據集舉行韻律建模。
一開始,研究者先從網上抓取了很多包羅歌詞和音頻的說唱歌曲,并對每一首抓取的說唱歌曲開展一系列數據預處理步調。為了更好地建模,研究者以自回歸的體式格局從右到左生成每一句 Rap,如許就能夠很容易地識別出一個句子的最終一些單詞 (即反向句子的第一個單詞) 來壓韻。
別的,為了進一步進步 Rap 的壓韻質量,研究者正在言語模子中加入了一些壓韻表征,并正在推理過程中經過壓韻束縛來進步生成的 Rap 中的 N-gram 韻律。
研究者運用一個特別的符號 [ BEAT ] 來透露表現有節奏的節奏,并將其插入到相應的詞之前的歌詞中。根據這類方法,能夠正在練習和生成層面根據歌詞的按次來模仿節奏。
受到預鍛煉言語模子的樂成啟示,研究者將預鍛煉歸入體系。為了得到大規模的預鍛煉數據,研究者還使用了數據發掘 pipeline 收集了別的兩個數據集:
1)節奏對齊的非說唱歌曲,它能夠比說唱數據集更大,由于非說唱歌曲比說唱歌曲更通用; 2)純歌詞,一樣比非說唱歌曲數據集更大。
正在預鍛煉階段,研究者基于以上兩個數據集對 DeepRapper 模子進行了預鍛煉,然后調劑模子正在說唱歌曲取調劑節拍上的性能,微調模子即適用于終究的說唱發生。客觀評價和主觀評價的實驗后果皆證明了 DeepRapper 正在生成壓韻和節拍的說唱歌詞方面的上風。
Rap 數據集
從前適用于 rap 生成的作品(Potash 等人,2014 年;Liang 等人,2018 年;Nikolov 等人,2020 年)平常運用只有歌詞的說唱數據集,而沒有斟酌節奏節奏信息。為了正在 rap 生成中建模節奏,說唱數據集該當包羅具有對齊節奏節奏的歌詞。然而,節奏對齊很難實現,由于它們的解釋需求專業音樂家來辨認說唱歌曲中的重讀音節。
因而,為了辦理這個題目,研究者設計了一個數據發掘 pipeline 來主動提取 beatlyric 對齊。
數據發掘 pipeline
下圖 1 展現了數據發掘 pipeline 的團體框架,包括 5 個步調:數據抓取、人聲(vocal)取伴奏別離、人聲取歌詞對齊、節奏檢驗和歌詞取節奏對齊。
發掘數據集
基于上圖數據發掘 pipeline,研究者得到了一個具有對齊節奏的說唱歌詞(rap lyric)數據集,并命名為 D-RAP。該數據集知足了構建具有韻律和節奏的 rap 生成體系的請求。他們以 4:1 的比例將 D-RAP 數據集劃分為鍛煉和考證集。
取一樣平常歌曲相比,說唱氣概的歌曲數目常常較少,因而研究者發掘了別的兩個數據集,以利用雷同的發掘 pipeline 對 DeepRapper 模子舉行預鍛煉,它們分別是具有對齊節奏的非說唱歌曲數據集 D-SONG 和沒有對齊節奏的純歌詞數據集 D-LYRIC。
研究者正在下表 1 中對這三個數據集包羅的歌曲數目和歌詞句子數目進行了統計。
下圖 2 展現了 D-RAP 數據集合具有對齊節奏的說唱歌曲示例。
Rap 生成模子
如下圖 3 所示,研究者展現了 rap 生成模子的團體架構和韻律和節拍建模的細節。
詳細地,研究者運用 Transformer 構建了一個適用于 rap 生成的自回歸言語模子,并引入了以下一些新的對齊:
1)為了更好地建模韻律,該模子從左往右生成歌詞句子,這是由于壓韻字一般位于句子末端;
2)如前所述,節拍關于 rap 結果至關重要,因此插入了一個特別的 token [BEAT]來舉行顯式節拍建模;
3)取唯一詞嵌入和位置嵌入的原始 Transformer 分歧,研究者加加了多個分外嵌入以更好地建模韻律和節拍。
實驗評價
下表 2 展現了 DeepRapper 的客觀取主觀評價后果,并取兩個 baseline 進行了對照。baseline 模子是一個尺度的自回歸言語模子,取 DeepRapper 的模子設置不異,但沒有本文提出的韻律模子(+PT 的意義是采用了預鍛煉)。客觀評價后果的維度包含 perplexity、韻律準確性和韻密度;主觀評價維度包含主題、流通度、壓韻質量和壓韻多樣性。
為了突出 DeepRapper 正在建模 N-gram 韻律中的上風,研究者運用 Combo-N 來襟懷 DeepRapper 中每一個設計建模 N-gram 韻律的才能。后果如下表 4 所示:
為了更好地器量節奏質量,研究者別離利用 DeepRapper 和具有節奏頻次操縱的 DeepRapper 隨機生成了約莫 5000 個樣本。他們提出了一階分布(First Order Distribution, FOD)和二階分布(Second Order Distribution, SOD),并器量了生成樣本取 DRAP 數據集之間分布的間隔。
研究者將當前 [BEAT] 的隔斷界說為當前 [BEAT] 取下個 [BEAT] 之間的歌詞數目。是以,FOD 被界說為當前 [BEAT]隔斷的分布,SOD 被界說為當前 [BEAT]取下個 [BEAT]之間隔斷差的分布。隔斷的數值區間為[0, 1],詳細成果如下表 5 所示:
下圖 6 中,研究者展現了生成的 rap 歌曲示例,能夠看得出 DeepRapper 的生成結果還不錯。