月之暗面Kimi開源Moonlight大模型:訓練效率翻倍,技術細節(jié)全公開

月之暗面Kimi開源Moonlight大模型:訓練效率翻倍,技術細節(jié)全公開

昨日,月之暗面Kimi發(fā)布《Muon可擴展用于LLM訓練》技術報告,正式推出基于Muon優(yōu)化器訓練的混合專家模型Moonlight。該模型提供30億和160億參數(shù)兩個版本,通過5.7萬億token訓練數(shù)據(jù),在更低浮點運算量(FLOPs)下實現(xiàn)性能突破,顯著提升帕累托效率邊界?。
Moonlight-16B-A3B作為核心測試模型,總參數(shù)量15.29億,激活參數(shù)2.24億。其采用的Muon優(yōu)化器通過權重衰減策略和參數(shù)更新幅度調(diào)整技術,將訓練效率提升至AdamW優(yōu)化器的2倍,且無需復雜超參數(shù)調(diào)優(yōu)?。團隊開發(fā)的分布式Muon版本優(yōu)化了內(nèi)存使用和通信效率,已在GitHub開源?。
此次開源內(nèi)容包含預訓練模型、指令微調(diào)模型及訓練中間檢查點,覆蓋從算法到工程的全鏈條技術細節(jié)。Moonlight模型采用MIT許可證,允許商業(yè)用途,其激活參數(shù)僅需3億即可運行,大幅降低算力門檻?。
月之暗面此次發(fā)布正值大模型開源社區(qū)活躍期,其“訓練效率翻倍”的成果或?qū)⑼苿有袠I(yè)優(yōu)化器技術迭代。Muon優(yōu)化器的擴展性驗證和Moonlight模型的開源策略,已引發(fā)開發(fā)者社區(qū)廣泛討論?。

原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請注明出處:http://m.2079x.cn/article/707652.html

AI的頭像AI認證作者

相關推薦

發(fā)表回復

登錄后才能評論