月之暗面Kimi開源Moonlight大模型:訓(xùn)練效率翻倍,技術(shù)細(xì)節(jié)全公開

月之暗面Kimi開源Moonlight大模型:訓(xùn)練效率翻倍,技術(shù)細(xì)節(jié)全公開

昨日,月之暗面Kimi發(fā)布《Muon可擴(kuò)展用于LLM訓(xùn)練》技術(shù)報(bào)告,正式推出基于Muon優(yōu)化器訓(xùn)練的混合專家模型Moonlight。該模型提供30億和160億參數(shù)兩個(gè)版本,通過5.7萬億token訓(xùn)練數(shù)據(jù),在更低浮點(diǎn)運(yùn)算量(FLOPs)下實(shí)現(xiàn)性能突破,顯著提升帕累托效率邊界?。
Moonlight-16B-A3B作為核心測(cè)試模型,總參數(shù)量15.29億,激活參數(shù)2.24億。其采用的Muon優(yōu)化器通過權(quán)重衰減策略和參數(shù)更新幅度調(diào)整技術(shù),將訓(xùn)練效率提升至AdamW優(yōu)化器的2倍,且無需復(fù)雜超參數(shù)調(diào)優(yōu)?。團(tuán)隊(duì)開發(fā)的分布式Muon版本優(yōu)化了內(nèi)存使用和通信效率,已在GitHub開源?。
此次開源內(nèi)容包含預(yù)訓(xùn)練模型、指令微調(diào)模型及訓(xùn)練中間檢查點(diǎn),覆蓋從算法到工程的全鏈條技術(shù)細(xì)節(jié)。Moonlight模型采用MIT許可證,允許商業(yè)用途,其激活參數(shù)僅需3億即可運(yùn)行,大幅降低算力門檻?。
月之暗面此次發(fā)布正值大模型開源社區(qū)活躍期,其“訓(xùn)練效率翻倍”的成果或?qū)⑼苿?dòng)行業(yè)優(yōu)化器技術(shù)迭代。Muon優(yōu)化器的擴(kuò)展性驗(yàn)證和Moonlight模型的開源策略,已引發(fā)開發(fā)者社區(qū)廣泛討論?。

原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.2079x.cn/article/707652.html

AI的頭像AI認(rèn)證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論