Moonlight
-
月之暗面Kimi開源Moonlight大模型:訓(xùn)練效率翻倍,技術(shù)細(xì)節(jié)全公開
昨日,月之暗面Kimi發(fā)布《Muon可擴(kuò)展用于LLM訓(xùn)練》技術(shù)報(bào)告,正式推出基于Muon優(yōu)化器訓(xùn)練的混合專家模型Moonlight。該模型提供30億和160億參數(shù)兩個(gè)版本,通過5.…
昨日,月之暗面Kimi發(fā)布《Muon可擴(kuò)展用于LLM訓(xùn)練》技術(shù)報(bào)告,正式推出基于Muon優(yōu)化器訓(xùn)練的混合專家模型Moonlight。該模型提供30億和160億參數(shù)兩個(gè)版本,通過5.…