解碼「天工SkyMusic」，填補(bǔ)AI音樂(lè)領(lǐng)域技術(shù)空白

陳晨 ? 2024年4月12日 15:29:10 ? 產(chǎn)經(jīng)

這幾周，全球無(wú)不對(duì)AI音樂(lè)大模型那”以假亂真“的音樂(lè)創(chuàng)作能力感到驚奇不已，甚至有人認(rèn)為“AI將革新音樂(lè)產(chǎn)業(yè)”。

而位居這場(chǎng)革新風(fēng)暴中心的，正是昆侖萬(wàn)維推出的國(guó)內(nèi)唯一公開(kāi)可用的AI音樂(lè)生成大模型——「天工SkyMusic」。

自開(kāi)啟邀測(cè)以來(lái)，「天工SkyMusic」已經(jīng)在互聯(lián)網(wǎng)上刷爆了存在感，成為網(wǎng)友們改編、二創(chuàng)音樂(lè)的新晉網(wǎng)紅神器。

遲遲等不到的“音樂(lè)ChatGPT”時(shí)刻

相信大家在體驗(yàn)「天工SkyMusic」時(shí)，都會(huì)有一個(gè)疑問(wèn)：隔壁AI視頻生成大模型都開(kāi)始輔助創(chuàng)作了，為什么「天工SkyMusic」這類(lèi)AI音樂(lè)生成大模型才才嶄露頭角？

原因在于構(gòu)建生成高質(zhì)量音樂(lè)的AI大模型，所面臨的復(fù)雜度遠(yuǎn)超想象。

一方面是技術(shù)路線(xiàn)的選擇，AI音樂(lè)生成大模型有兩種主流技術(shù)路線(xiàn)，符號(hào)音樂(lè)生成和大模型音樂(lè)音頻生成。前者以MIDI為主要流派，其本身不包含音頻文件，而是記錄音樂(lè)演奏的指令，比如哪個(gè)音符被播放、音量是多少、音符持續(xù)的時(shí)間等，不能生成直接聽(tīng)的音樂(lè)。

學(xué)術(shù)與產(chǎn)業(yè)界在符號(hào)派的AI音樂(lè)生成上投入了大量研究，但是始終效果不佳。

相反，深度學(xué)習(xí)大規(guī)模音頻數(shù)據(jù)則通過(guò)大模型端對(duì)端的方案，直接生成包含樂(lè)器、人聲、旋律等音樂(lè)元素的完整音頻作品。它需要模型具備極高的模擬精確度、大規(guī)模的高品質(zhì)音頻數(shù)據(jù)集、龐大的算力支撐……

這是一條預(yù)期效果更好，但是難度非常高的技術(shù)路徑，業(yè)內(nèi)只有很少玩家展開(kāi)研究。

同時(shí)，鑒于歌聲在音樂(lè)審美中的核心地位，AI對(duì)人聲歌唱逼真模擬的研究也尤為關(guān)鍵。遺憾的是，受限于技術(shù)發(fā)展，以往AI音樂(lè)生成模型更關(guān)注無(wú)人聲演唱的背景音樂(lè)（Background Music，BGM）領(lǐng)域，而非包含人聲演唱的Song領(lǐng)域，因此行業(yè)內(nèi)缺乏有效的解決方案。

因此在AI音樂(lè)生成領(lǐng)域，無(wú)論是OpenAI的JukeBox、Meta的MusicGen，還是Google的MusicLM，它們雖然逐步解決了AI音樂(lè)生成中的痛點(diǎn)，但距離生成高品質(zhì)且類(lèi)型豐富的音樂(lè)作品還有一定距離。

「天工SkyMusic」自研發(fā)階段即確立目標(biāo)，要開(kāi)發(fā)一款輔助用戶(hù)創(chuàng)作高質(zhì)量音樂(lè)的工具。團(tuán)隊(duì)毅然選擇了AI音樂(lè)生成大模型的道路，并決定重點(diǎn)攻克人聲歌唱難題，勇敢涉足AI音樂(lè)制作領(lǐng)域內(nèi)兩個(gè)最具挑戰(zhàn)的無(wú)人區(qū)。

「天工SkyMusic」架構(gòu)誕生記

面對(duì)大模型音樂(lè)音頻生成+人聲Song這兩個(gè)近乎空白的技術(shù)領(lǐng)域，昆侖萬(wàn)維傾注了海量研發(fā)資源和算力算法投入，不斷試錯(cuò)，終于自主研發(fā)出一套音樂(lè)音頻領(lǐng)域的大模型架構(gòu)。

解碼「天工SkyMusic」，填補(bǔ)AI音樂(lè)領(lǐng)域技術(shù)空白

這是一套類(lèi)似Sora的DiT大模型架構(gòu)，采用LLM+Diffusion的核心模塊組成。

其中，用戶(hù)輸入的參考音樂(lè)會(huì)被拆解為不同的Music Patches，由Large-scale Transformer負(fù)責(zé)譜曲，來(lái)學(xué)習(xí)Music Patches的上下文依賴(lài)關(guān)系，同時(shí)完成音樂(lè)可控性。

同時(shí)，Diffusion Transformer將負(fù)責(zé)大模型的“演唱”部分，通過(guò)LDM（Latent Diffusion Model）擴(kuò)散模型讓Music Patches被還原成成44.1KHz的高品質(zhì)立體聲的音頻。

昆侖萬(wàn)維這套高效、靈活且具有情感表達(dá)能力的音樂(lè)生成模型架構(gòu)，填補(bǔ)了音頻生成+人聲Song這兩技術(shù)領(lǐng)域的空白，堪稱(chēng)AI音樂(lè)生成領(lǐng)域的一大技術(shù)飛躍，也讓昆侖萬(wàn)維公開(kāi)「天工SkyMusic」技術(shù)原理圖的舉措更讓人敬佩，它不僅打破了行業(yè)內(nèi)的封閉狀態(tài)，更為更是為整個(gè)產(chǎn)業(yè)鋪墊了一條可復(fù)現(xiàn)的技術(shù)路徑，大大降低整個(gè)AI音樂(lè)生成產(chǎn)業(yè)的研發(fā)風(fēng)險(xiǎn)。

AI音樂(lè)破曉：「天工SkyMusic」的中國(guó)式突破

從「天工SkyMusic」的技術(shù)分析中我們可以看到，昆侖萬(wàn)維在研發(fā)過(guò)程中克服了諸多技術(shù)難題，為我們打造出一個(gè)真正意義上，能高效創(chuàng)作高品質(zhì)音樂(lè)的AI音樂(lè)生成大模型。在這里，我們可以生成時(shí)長(zhǎng)80秒，采樣率44.1KHz的雙聲道立體聲歌曲，還可以通過(guò)歌詞控制歌曲的情緒變化，精確區(qū)分不同音樂(lè)結(jié)構(gòu)間的情感起伏，也可完成各種復(fù)雜歌唱技巧。

而且較之國(guó)外同類(lèi)產(chǎn)品，「天工SkyMusic」最明顯的差異是在中文人聲歌唱上發(fā)音純正清晰，無(wú)明顯機(jī)械痕跡，效果逼真的程度足以“以假亂真”。這不僅讓中文歌詞韻味和情感表達(dá)更為出色，也在表達(dá)中國(guó)文化特有的意境與情感內(nèi)涵時(shí)，更加貼合國(guó)人的審美習(xí)慣與情感認(rèn)同，形成獨(dú)有的差異化優(yōu)勢(shì)。

情感AGI待放：天工SkyMusic」引領(lǐng)情感創(chuàng)作變革

「天工SkyMusic」作為昆侖萬(wàn)維 “All in AGI和AIGC”戰(zhàn)略下在音樂(lè)領(lǐng)域的先鋒之作，填補(bǔ)了傳統(tǒng)AGI側(cè)重于智力拓展而忽視情感維度的空白，標(biāo)志著昆侖萬(wàn)維在情感AGI研究中取得的重大突破。

如今，「天工SkyMusic」不僅降低音樂(lè)創(chuàng)作門(mén)檻，讓更多普通用戶(hù)能夠借助這款全民音樂(lè)創(chuàng)作工具的力量，更好地通過(guò)音樂(lè)這一媒介，表達(dá)自己的情感和創(chuàng)意。未來(lái)，隨著昆侖萬(wàn)維在情感AGI技術(shù)上不斷的突破，「天工SkyMusic」將具備更多令人驚嘆的創(chuàng)作能力，亦有望成為輔助專(zhuān)業(yè)音樂(lè)創(chuàng)作者的利器。

本文轉(zhuǎn)載自：，不代表科技訊之立場(chǎng)。原文鏈接：http://show.wolaioa.com.cn/preview/E3JtFBKZw36o000ofZ6KfH6Ahg.html

陳晨管理團(tuán)隊(duì)

0 0

產(chǎn)經(jīng)

星紀(jì)魅族亮相 2050 大會(huì) 以智能眼鏡繪就科技平權(quán)新圖景

4 月 25 至 27 日,第八屆 2050 大會(huì)在杭州云棲小鎮(zhèn)舉行,星紀(jì)魅族 StarV 系列 AR 智能眼鏡亮相探索空間,攜手合作伙伴展示眼控交互、眼動(dòng)追蹤等“黑科技”,用前瞻…

陳晨
13分鐘前
產(chǎn)經(jīng)

上汽大眾×火山引擎：共創(chuàng)智能座艙、智能營(yíng)銷(xiāo)新體驗(yàn)

4月27日，在2025上海車(chē)展的上汽大眾品牌日上，上汽大眾與火山引擎簽署生態(tài)戰(zhàn)略合作協(xié)議，雙方將圍繞豆包大模型，在智能座艙用戶(hù)體驗(yàn)創(chuàng)新、企業(yè)數(shù)字化提效方面進(jìn)行深度共創(chuàng)，為 AI 時(shí)…

陳晨
16分鐘前
南石洋大峽谷“北斗護(hù)航”峽谷探險(xiǎn)活動(dòng)圓滿(mǎn)舉辦

2025年4月26日，北京門(mén)頭溝南石洋大峽谷迎來(lái)一場(chǎng)融合自然探險(xiǎn)與尖端科技的行業(yè)盛事。由南石洋大峽谷景區(qū)主辦、中兵北斗衛(wèi)星通信有限公司（以下簡(jiǎn)稱(chēng)“中兵衛(wèi)通”）協(xié)辦，聯(lián)合生機(jī)引力（北…

陳晨
產(chǎn)經(jīng) 3小時(shí)前
產(chǎn)經(jīng)

QQ 9.1.70新版本開(kāi)啟測(cè)試，可支持微信小程序

近日,記者獲悉,騰訊QQ 9.1.70版本開(kāi)啟了小范圍測(cè)試,可支持運(yùn)行微信小程序。記者從QQ團(tuán)隊(duì)了解到,QQ持續(xù)收到不少開(kāi)發(fā)者的建議,希望QQ、微信兩端的小程序能實(shí)現(xiàn)雙端協(xié)同部署…

陳晨
3小時(shí)前
產(chǎn)經(jīng)

鴻蒙生態(tài)在河南規(guī)?；l(fā)展，政企全面加速內(nèi)部辦公應(yīng)用適配

4月25日，為落實(shí)《河南省支持軟件產(chǎn)業(yè)高質(zhì)量發(fā)展若干政策措施》，加速鴻蒙生態(tài)在豫發(fā)展，在河南省工業(yè)和信息化廳的指導(dǎo)下，華為技術(shù)有限公司、河南省軟件服務(wù)業(yè)協(xié)會(huì)共同在河南鄭州舉辦“HD…

陳晨
20小時(shí)前
產(chǎn)經(jīng)

海爾麥浪冰箱攜手小紅書(shū)慢人節(jié)：用科技創(chuàng)新治愈生活忙碌

　　為了在快節(jié)奏的生活中找到平衡，越來(lái)越多的人開(kāi)始放緩腳步，尋求“慢生活”。4月27日，海爾冰箱聯(lián)合小紅書(shū)慢人節(jié)在云南大理喜洲舉辦“慢生活”快閃，帶來(lái)風(fēng)吹麥浪慢生活的沉浸式體驗(yàn)。現(xiàn)…

科技探索者
20小時(shí)前
開(kāi)源數(shù)據(jù)庫(kù) KWDB 亮相濟(jì)南開(kāi)源軟件應(yīng)用推廣系列講座

4月24日，由齊魯開(kāi)源社、浪潮數(shù)據(jù)庫(kù)、浪潮通軟聯(lián)合主辦的開(kāi)源軟件應(yīng)用推廣系列講座（第三期）在濟(jì)南市高新區(qū)齊魯軟件園順利舉辦?；顒?dòng)聚焦物聯(lián)網(wǎng)、大數(shù)據(jù)、大模型等熱點(diǎn)，圍繞浪潮兩大重點(diǎn)開(kāi)…

陳晨
產(chǎn)經(jīng) 21小時(shí)前
AI?時(shí)代架構(gòu)師的破局之道與進(jìn)階之路，騰訊云架構(gòu)師技術(shù)沙龍圓滿(mǎn)落幕

AI技術(shù)發(fā)展日新月異，AI在自動(dòng)編程展現(xiàn)巨大的潛力，因此企業(yè)對(duì)開(kāi)發(fā)者提出更高的要求，不僅會(huì)寫(xiě)代碼，還需具備架構(gòu)設(shè)計(jì)、產(chǎn)品思維等綜合能力。在這樣的背景下，AI 時(shí)代下架構(gòu)師的價(jià)值定位…

陳晨
產(chǎn)經(jīng) 21小時(shí)前
產(chǎn)經(jīng)

文旅融合消費(fèi)觀察：手機(jī)廠商打響五一”跨界營(yíng)銷(xiāo)”爭(zhēng)奪戰(zhàn)

五一假期臨近,靈活的“拼假旅行”催生長(zhǎng)線(xiàn)旅游,國(guó)內(nèi)旅游市場(chǎng)迎來(lái)節(jié)前預(yù)訂高峰。文化和旅游部預(yù)測(cè),今年五一期間,全國(guó)將有3.5億人次出游,較2024年同比增長(zhǎng)15%,旅游消費(fèi)也將迎來(lái)一…

陳晨
21小時(shí)前
產(chǎn)經(jīng)

高能低耗定制芯片成就三星Galaxy S25系列“芯”突破

在智能手機(jī)邁入AI主導(dǎo)時(shí)代后，單純堆砌硬件參數(shù)早已無(wú)法滿(mǎn)足用戶(hù)對(duì)于旗艦體驗(yàn)的期待。真正的旗艦，不僅要擁有強(qiáng)悍性能，更要兼顧能效管理、智慧協(xié)作與持久流暢。三星Galaxy S25系列…

陳晨
22小時(shí)前
產(chǎn)經(jīng)

三星AI神系列產(chǎn)品煥新五一生活方式讓假期相聚更美好

五一小長(zhǎng)假將至，與家人朋友共度美好時(shí)光總是令人期待。如今，人們愈發(fā)注重假日生活格調(diào)，從穿搭到飲食，每個(gè)細(xì)節(jié)都能成為衡量假期品質(zhì)的重要標(biāo)準(zhǔn)。作為行業(yè)領(lǐng)軍者，三星持續(xù)助力消費(fèi)者向理想生…

陳晨
23小時(shí)前
產(chǎn)經(jīng)

發(fā)布會(huì)還能躺著開(kāi)？海爾安睡新風(fēng)空調(diào)：讓你一覺(jué)到天亮

　　有人說(shuō)夏天的命是空調(diào)給的，也有人說(shuō)睡不好的煩惱也是空調(diào)帶來(lái)的。當(dāng)空調(diào)化身”午夜噪音制造機(jī)”，人們開(kāi)始了與機(jī)器的對(duì)抗：有人戴耳塞數(shù)羊，有人半夜爬起來(lái)開(kāi)窗換…

科技探索者
1天前
產(chǎn)經(jīng)

開(kāi)機(jī)吵、關(guān)機(jī)熱？海爾安睡新風(fēng)空調(diào)：12分貝行業(yè)最靜音

　　夏日炎炎，空調(diào)成了不少家庭的 “消暑救星”。但我們享受清涼時(shí)，常會(huì)遇到這些問(wèn)題困擾：開(kāi)著空調(diào)，運(yùn)轉(zhuǎn)的噪音吵得人心煩意亂睡不著；關(guān)上空調(diào)，房間又悶又熱，讓人翻來(lái)覆去睡不好，嚴(yán)重影…

科技探索者
1天前
產(chǎn)經(jīng)

3899 元起！全新Hi MateBook D 系列，打造你的全能辦公新搭檔

隨著現(xiàn)代辦公節(jié)奏加快，用眼健康、設(shè)備割裂、性能瓶頸正成為職場(chǎng)效率的三大 “隱形殺手”。4 月 26 日，WIKO 正式發(fā)布Hi MateBook D 16、…

陳晨
1天前
產(chǎn)經(jīng)

第十二屆百度獎(jiǎng)學(xué)金揭曉：半數(shù)攻堅(jiān)大模型，AI解鎖醫(yī)療、交通新場(chǎng)景

4月25日,第十二屆百度獎(jiǎng)學(xué)金頒獎(jiǎng)典禮在于武漢舉辦的“Create 2025百度AI開(kāi)發(fā)者大會(huì)”上隆重舉行。作為百度無(wú)人車(chē)“蘿卜快跑”的首批試驗(yàn)城市,武漢不僅見(jiàn)證著出行方式的變革,…

陳晨
1天前
含“AI”量十足 “2025美的AI科技日”盛大啟幕

2025年4月26日，家電行業(yè)首個(gè)AI科技盛會(huì)——“2025美的AI科技日”在廣東佛山美的集團(tuán)總部如期舉行，眾多科技媒體、達(dá)人及消費(fèi)者來(lái)到現(xiàn)場(chǎng)，共赴一場(chǎng)AI科技賦能下的全屋智慧好空…

陳晨
產(chǎn)經(jīng) 1天前
產(chǎn)經(jīng)

“奧迪助手”來(lái)了！全新AUDI車(chē)型接入豆包大模型

4月24日，在2025上海國(guó)際車(chē)展上，上汽奧迪舉辦新品發(fā)布會(huì)，全新奧迪 A5L Sportback 、新品牌 AUDI 首款量產(chǎn)車(chē)型——奧迪 E5 Sportback 全球首秀。 …

陳晨
1天前
產(chǎn)經(jīng)

偉世通×火山引擎：發(fā)布基于豆包大模型的智能座艙解決方案

4月23日，在2025上海車(chē)展期間，火山引擎與偉世通聯(lián)合舉辦新聞發(fā)布會(huì)，正式推出基于 AI 大模型的下一代智能座艙解決方案。該方案深度融合了豆包大模型的 AI 能力和偉世通高性能域…

陳晨
1天前
大屏盡顯精彩三星Galaxy Tab S10 FE新品現(xiàn)已開(kāi)售

4月26日,三星Galaxy Tab S10 FE系列正式在國(guó)內(nèi)開(kāi)售,包含三星Galaxy Tab S10 FE和Galaxy Tab S10 FE+兩款平板電腦新品,分別搭載不同…

陳晨
產(chǎn)經(jīng) 2天前
產(chǎn)經(jīng)

五一出行無(wú)憂(yōu)！華為云空間星閃?黑科技守護(hù)你的設(shè)備安全

五一假期臨近，無(wú)論是家庭出游、朋友結(jié)伴還是獨(dú)自踏上旅途，在路上除了飽覽山水風(fēng)光、品味特色美食，更要注意保管好隨身物品，尤其是承載著重要個(gè)人信息與珍貴回憶的手機(jī)。華為用戶(hù)出行前可以開(kāi)…

陳晨
2天前

發(fā)表回復(fù)

登錄后才能評(píng)論

解碼「天工SkyMusic」，填補(bǔ)AI音樂(lè)領(lǐng)域技術(shù)空白

相關(guān)推薦

發(fā)表回復(fù)