月之暗面Kimi開源Moonlight大模型：訓(xùn)練效率翻倍，技術(shù)細(xì)節(jié)全公開

AI ? 2025年2月24日 15:45:55 ? AI

昨日，月之暗面Kimi發(fā)布《Muon可擴(kuò)展用于LLM訓(xùn)練》技術(shù)報(bào)告，正式推出基于Muon優(yōu)化器訓(xùn)練的混合專家模型Moonlight。該模型提供30億和160億參數(shù)兩個(gè)版本，通過5.7萬億token訓(xùn)練數(shù)據(jù)，在更低浮點(diǎn)運(yùn)算量（FLOPs）下實(shí)現(xiàn)性能突破，顯著提升帕累托效率邊界?。
Moonlight-16B-A3B作為核心測(cè)試模型，總參數(shù)量15.29億，激活參數(shù)2.24億。其采用的Muon優(yōu)化器通過權(quán)重衰減策略和參數(shù)更新幅度調(diào)整技術(shù)，將訓(xùn)練效率提升至AdamW優(yōu)化器的2倍，且無需復(fù)雜超參數(shù)調(diào)優(yōu)?。團(tuán)隊(duì)開發(fā)的分布式Muon版本優(yōu)化了內(nèi)存使用和通信效率，已在GitHub開源?。
此次開源內(nèi)容包含預(yù)訓(xùn)練模型、指令微調(diào)模型及訓(xùn)練中間檢查點(diǎn)，覆蓋從算法到工程的全鏈條技術(shù)細(xì)節(jié)。Moonlight模型采用MIT許可證，允許商業(yè)用途，其激活參數(shù)僅需3億即可運(yùn)行，大幅降低算力門檻?。
月之暗面此次發(fā)布正值大模型開源社區(qū)活躍期，其“訓(xùn)練效率翻倍”的成果或?qū)⑼苿?dòng)行業(yè)優(yōu)化器技術(shù)迭代。Muon優(yōu)化器的擴(kuò)展性驗(yàn)證和Moonlight模型的開源策略，已引發(fā)開發(fā)者社區(qū)廣泛討論?。

原創(chuàng)文章，作者：AI，如若轉(zhuǎn)載，請(qǐng)注明出處：http://m.2079x.cn/article/707652.html

AI認(rèn)證作者

0 0

新聞

小米轉(zhuǎn)讓多個(gè)Kimi商標(biāo)至月之暗面，優(yōu)化資源助力AI新銳崛起

今日，小米科技有限責(zé)任公司正式將多枚“kimi”商標(biāo)轉(zhuǎn)讓至北京月之暗面科技有限公司，這些商標(biāo)最早可追溯至2013年申請(qǐng)，當(dāng)前狀態(tài)多為已注冊(cè)，標(biāo)志著科技巨頭對(duì)新興AI企業(yè)的資源支持?！?/p>

好奇寶寶
6天前
AI

月之暗面發(fā)布k1視覺思考模型，支持多領(lǐng)域圖像理解

今日，人工智能公司月之暗面宣布發(fā)布其最新的k1視覺思考模型。該模型基于強(qiáng)化學(xué)習(xí)技術(shù)，不僅在數(shù)學(xué)領(lǐng)域表現(xiàn)突出，還擴(kuò)展到了物理、化學(xué)等基礎(chǔ)科學(xué)領(lǐng)域，展現(xiàn)出強(qiáng)大的圖像理解和思維鏈能力。 …

AI
2024年12月16日
AI

月之暗面出海遇阻：Kimi賺錢難題下新模型k0-math能否破局

近日，月之暗面創(chuàng)始人楊植麟，發(fā)布了一款名為k0-math的數(shù)學(xué)模型，主打深入思考。值得關(guān)注的是，其公司現(xiàn)在正面臨一個(gè)大問題：怎么賺錢？特別是他們的C端工具Kimi，雖然投放了不少?gòu)V…

AI
2024年11月27日
AI

Kimi探索版上線：AI自主搜索能力大幅提升，搜索量增10倍

今日，月之暗面正式發(fā)布了Kimi探索版，這款新版本在AI自主搜索能力上實(shí)現(xiàn)了重大突破。據(jù)官方介紹，Kimi探索版的搜索量相比普通版增強(qiáng)了10倍，一次搜索即可精讀500個(gè)頁面，為用戶…

AI
2024年10月11日
AI

月之暗面Kimi開放平臺(tái)推出上下文緩存公測(cè)，大幅降低長(zhǎng)文本模型成本

今日，月之暗面正式對(duì)外宣布，其Kimi開放平臺(tái)上線了全新的上下文緩存（Context Caching）功能，并即日起開啟公測(cè)。這一創(chuàng)新技術(shù)旨在不增加API價(jià)格負(fù)擔(dān)的前提下，為開發(fā)者…

AI
2024年7月2日
商業(yè)

AI大模型公司月之暗面再獲投資，估值飆升至30億美元

在人工智能領(lǐng)域，一家名為月之暗面（Moonshot）的大模型公司正受到業(yè)界的廣泛關(guān)注。最新消息顯示，該公司的融資進(jìn)程仍在持續(xù)進(jìn)行，最新一輪的估值報(bào)價(jià)已達(dá)到驚人的30億美元（約合21…

商業(yè)頭條
2024年5月21日
AI

Kimi智能助手全新升級(jí)，新增多項(xiàng)AI輔助功能

近日，備受用戶青睞的Kimi智能助手宣布了其節(jié)后首次重大更新，推出了全新的Kimi+助手功能。該功能不僅為用戶提供了更為便捷的AI輔助服務(wù)，還在多個(gè)領(lǐng)域展現(xiàn)了強(qiáng)大的應(yīng)用潛力，預(yù)示著…

AI
2024年5月7日
AI

創(chuàng)業(yè)公司Kimi大模型產(chǎn)品火爆出圈，能否持續(xù)引領(lǐng)AI新趨勢(shì)？

近日，一家僅成立一年的創(chuàng)業(yè)公司憑借一款效果出眾的大模型產(chǎn)品Kimi，在AI領(lǐng)域掀起了一股新的波瀾。這款面向C端用戶的智能助手以其獨(dú)特的長(zhǎng)文本處理能力和多場(chǎng)景應(yīng)用功能，贏得了市場(chǎng)的廣…

AI
2024年4月24日
AI

月之暗面Kimi智能助手升級(jí)，新增語音交互與搜索溯源功能

近日，月之暗面公司宣布旗下Kimi智能助手的基礎(chǔ)模型已更新至moonshot-v1-20240416版本，此次更新不僅提升了模型能力，還新增了多項(xiàng)實(shí)用功能，為用戶帶來更加便捷和智能…

AI
2024年4月19日
AI

國(guó)產(chǎn)AI大模型Kimi實(shí)現(xiàn)技術(shù)突破，領(lǐng)先海外產(chǎn)品

在人工智能領(lǐng)域，國(guó)產(chǎn)AI大模型Kimi近日宣布取得重大技術(shù)突破，將上下文無損輸入長(zhǎng)度提升至200萬字，這一成就標(biāo)志著國(guó)內(nèi)大模型在部分能力上首次超越海外主流產(chǎn)品，成為業(yè)界的里程碑事件…

AI
2024年4月3日
AI

AI助手大比拼：Kimi vs GPT-4 vs Claude-3誰更勝一籌？

在數(shù)字化時(shí)代，AI助手已成為我們?nèi)粘Ｉ詈凸ぷ髦胁豢苫蛉钡囊徊糠?。Kimi、GPT-4和Claude-3等AI助手各有特色，它們?cè)谔幚聿煌蝿?wù)時(shí)表現(xiàn)出不同的優(yōu)勢(shì)和局限。本文將全面對(duì)…

AI
2024年4月2日
AI

突然火了！Kimi是什么？哪些AI+相關(guān)標(biāo)的或受益？

3月20日，AI應(yīng)用主線爆發(fā)。數(shù)據(jù)顯示，Sora概念、多模態(tài)AI、虛擬數(shù)字人等AI應(yīng)用類板塊大漲，Kimi概念掀起漲停潮，其中華策影視、海天瑞聲“20CM”漲停。當(dāng)日下午，“Ki…

百度
2024年3月29日
AI

Kimi Chat使用技巧：掌握這些步驟，讓智能聊天更順暢！

Kimi Chat是一款智能聊天機(jī)器人，可以提供各種信息和幫助。本文將介紹Kimi Chat使用技巧以及它的優(yōu)點(diǎn)和缺點(diǎn)。一、Kimi Chat使用步驟打開Kimi Chat應(yīng)用…

AI
2024年3月26日
AI

Kimi是什么？揭秘AI助手及其用途與用法

在人工智能技術(shù)的快速發(fā)展中，一款名為Kimi的智能助手近期引起了廣泛關(guān)注。Kimi智能助手憑借其強(qiáng)大的功能和便捷的用法，成為用戶在學(xué)術(shù)、工作、生活等多方面的得力助手。那么Kimi是…

AI
2024年3月26日
AI

Kimi大模型爆火每天獲客成本或超20萬元

目前Kimi投放廣告的獲客成本約在10元，如果算上拉新后用戶問答互動(dòng)產(chǎn)生的算力成本，每個(gè)用戶的獲客成本達(dá)到12-13元

科技探索者
2024年3月26日
新聞

蘋果Apple從App Store下架熱門盜版電影應(yīng)用 Kimi

近日，蘋果Apple公司從其官方應(yīng)用商店App Store下架了一款名為Kimi的熱門應(yīng)用。這款應(yīng)用因其提供非法盜版電影內(nèi)容而受到關(guān)注，其中包括了如《芭比娃娃》和《奧本海默》等熱門…

檸萌
2024年2月14日