解碼「天工SkyMusic」,填補(bǔ)AI音樂(lè)領(lǐng)域技術(shù)空白

這幾周,全球無(wú)不對(duì)AI音樂(lè)大模型那”以假亂真“的音樂(lè)創(chuàng)作能力感到驚奇不已,甚至有人認(rèn)為“AI將革新音樂(lè)產(chǎn)業(yè)”。

而位居這場(chǎng)革新風(fēng)暴中心的,正是昆侖萬(wàn)維推出的國(guó)內(nèi)唯一公開(kāi)可用的AI音樂(lè)生成大模型——「天工SkyMusic」。

自開(kāi)啟邀測(cè)以來(lái),「天工SkyMusic」已經(jīng)在互聯(lián)網(wǎng)上刷爆了存在感,成為網(wǎng)友們改編、二創(chuàng)音樂(lè)的新晉網(wǎng)紅神器。

遲遲等不到的“音樂(lè)ChatGPT”時(shí)刻

相信大家在體驗(yàn)「天工SkyMusic」時(shí),都會(huì)有一個(gè)疑問(wèn):隔壁AI視頻生成大模型都開(kāi)始輔助創(chuàng)作了,為什么「天工SkyMusic」這類(lèi)AI音樂(lè)生成大模型才才嶄露頭角?

原因在于構(gòu)建生成高質(zhì)量音樂(lè)的AI大模型,所面臨的復(fù)雜度遠(yuǎn)超想象。

一方面是技術(shù)路線(xiàn)的選擇,AI音樂(lè)生成大模型有兩種主流技術(shù)路線(xiàn),符號(hào)音樂(lè)生成和大模型音樂(lè)音頻生成。前者以MIDI為主要流派,其本身不包含音頻文件,而是記錄音樂(lè)演奏的指令,比如哪個(gè)音符被播放、音量是多少、音符持續(xù)的時(shí)間等,不能生成直接聽(tīng)的音樂(lè)。

學(xué)術(shù)與產(chǎn)業(yè)界在符號(hào)派的AI音樂(lè)生成上投入了大量研究,但是始終效果不佳。

相反,深度學(xué)習(xí)大規(guī)模音頻數(shù)據(jù)則通過(guò)大模型端對(duì)端的方案,直接生成包含樂(lè)器、人聲、旋律等音樂(lè)元素的完整音頻作品。它需要模型具備極高的模擬精確度、大規(guī)模的高品質(zhì)音頻數(shù)據(jù)集、龐大的算力支撐……

這是一條預(yù)期效果更好,但是難度非常高的技術(shù)路徑,業(yè)內(nèi)只有很少玩家展開(kāi)研究。

同時(shí),鑒于歌聲在音樂(lè)審美中的核心地位,AI對(duì)人聲歌唱逼真模擬的研究也尤為關(guān)鍵。遺憾的是,受限于技術(shù)發(fā)展,以往AI音樂(lè)生成模型更關(guān)注無(wú)人聲演唱的背景音樂(lè)(Background Music,BGM)領(lǐng)域,而非包含人聲演唱的Song領(lǐng)域,因此行業(yè)內(nèi)缺乏有效的解決方案。

因此在AI音樂(lè)生成領(lǐng)域,無(wú)論是OpenAI的JukeBox、Meta的MusicGen,還是Google的MusicLM,它們雖然逐步解決了AI音樂(lè)生成中的痛點(diǎn),但距離生成高品質(zhì)且類(lèi)型豐富的音樂(lè)作品還有一定距離。

「天工SkyMusic」自研發(fā)階段即確立目標(biāo),要開(kāi)發(fā)一款輔助用戶(hù)創(chuàng)作高質(zhì)量音樂(lè)的工具。團(tuán)隊(duì)毅然選擇了AI音樂(lè)生成大模型的道路,并決定重點(diǎn)攻克人聲歌唱難題,勇敢涉足AI音樂(lè)制作領(lǐng)域內(nèi)兩個(gè)最具挑戰(zhàn)的無(wú)人區(qū)。

「天工SkyMusic」架構(gòu)誕生記

面對(duì)大模型音樂(lè)音頻生成+人聲Song這兩個(gè)近乎空白的技術(shù)領(lǐng)域,昆侖萬(wàn)維傾注了海量研發(fā)資源和算力算法投入,不斷試錯(cuò),終于自主研發(fā)出一套音樂(lè)音頻領(lǐng)域的大模型架構(gòu)。

解碼「天工SkyMusic」,填補(bǔ)AI音樂(lè)領(lǐng)域技術(shù)空白

這是一套類(lèi)似Sora的DiT大模型架構(gòu),采用LLM+Diffusion的核心模塊組成。

其中,用戶(hù)輸入的參考音樂(lè)會(huì)被拆解為不同的Music Patches,由Large-scale Transformer負(fù)責(zé)譜曲,來(lái)學(xué)習(xí)Music Patches的上下文依賴(lài)關(guān)系,同時(shí)完成音樂(lè)可控性。

同時(shí),Diffusion Transformer將負(fù)責(zé)大模型的“演唱”部分,通過(guò)LDM(Latent Diffusion Model)擴(kuò)散模型讓Music Patches被還原成成44.1KHz的高品質(zhì)立體聲的音頻。

昆侖萬(wàn)維這套高效、靈活且具有情感表達(dá)能力的音樂(lè)生成模型架構(gòu),填補(bǔ)了音頻生成+人聲Song這兩技術(shù)領(lǐng)域的空白,堪稱(chēng)AI音樂(lè)生成領(lǐng)域的一大技術(shù)飛躍,也讓昆侖萬(wàn)維公開(kāi)「天工SkyMusic」技術(shù)原理圖的舉措更讓人敬佩,它不僅打破了行業(yè)內(nèi)的封閉狀態(tài),更為更是為整個(gè)產(chǎn)業(yè)鋪墊了一條可復(fù)現(xiàn)的技術(shù)路徑,大大降低整個(gè)AI音樂(lè)生成產(chǎn)業(yè)的研發(fā)風(fēng)險(xiǎn)。

AI音樂(lè)破曉:「天工SkyMusic」的中國(guó)式突破

從「天工SkyMusic」的技術(shù)分析中我們可以看到,昆侖萬(wàn)維在研發(fā)過(guò)程中克服了諸多技術(shù)難題,為我們打造出一個(gè)真正意義上,能高效創(chuàng)作高品質(zhì)音樂(lè)的AI音樂(lè)生成大模型。在這里,我們可以生成時(shí)長(zhǎng)80秒,采樣率44.1KHz的雙聲道立體聲歌曲,還可以通過(guò)歌詞控制歌曲的情緒變化,精確區(qū)分不同音樂(lè)結(jié)構(gòu)間的情感起伏,也可完成各種復(fù)雜歌唱技巧。

而且較之國(guó)外同類(lèi)產(chǎn)品,「天工SkyMusic」最明顯的差異是在中文人聲歌唱上發(fā)音純正清晰,無(wú)明顯機(jī)械痕跡,效果逼真的程度足以“以假亂真”。這不僅讓中文歌詞韻味和情感表達(dá)更為出色,也在表達(dá)中國(guó)文化特有的意境與情感內(nèi)涵時(shí),更加貼合國(guó)人的審美習(xí)慣與情感認(rèn)同,形成獨(dú)有的差異化優(yōu)勢(shì)。

情感AGI待放:天工SkyMusic」引領(lǐng)情感創(chuàng)作變革

「天工SkyMusic」作為昆侖萬(wàn)維 “All in AGI和AIGC”戰(zhàn)略下在音樂(lè)領(lǐng)域的先鋒之作,填補(bǔ)了傳統(tǒng)AGI側(cè)重于智力拓展而忽視情感維度的空白,標(biāo)志著昆侖萬(wàn)維在情感AGI研究中取得的重大突破。

如今,「天工SkyMusic」不僅降低音樂(lè)創(chuàng)作門(mén)檻,讓更多普通用戶(hù)能夠借助這款全民音樂(lè)創(chuàng)作工具的力量,更好地通過(guò)音樂(lè)這一媒介,表達(dá)自己的情感和創(chuàng)意。未來(lái),隨著昆侖萬(wàn)維在情感AGI技術(shù)上不斷的突破,「天工SkyMusic」將具備更多令人驚嘆的創(chuàng)作能力,亦有望成為輔助專(zhuān)業(yè)音樂(lè)創(chuàng)作者的利器。

本文轉(zhuǎn)載自:,不代表科技訊之立場(chǎng)。原文鏈接:http://show.wolaioa.com.cn/preview/E3JtFBKZw36o000ofZ6KfH6Ahg.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論