近日,Meta發(fā)布了一份詳細(xì)的研究報(bào)告,揭示了在訓(xùn)練Llama 3 405B參數(shù)模型過(guò)程中面臨的重大挑戰(zhàn)。該系統(tǒng)在包含16384個(gè)Nvidia H100 GPU的集群上運(yùn)行,在54天的訓(xùn)練期間,經(jīng)歷了419次意外故障,平均每三個(gè)小時(shí)發(fā)生一次。這些故障中的一半以上歸因于GPU及其高帶寬內(nèi)存(HBM3)。
什么是Llama 3.1?深度解析Llama 3.1研發(fā)思路
Meta剛剛發(fā)布開(kāi)源Llama 3.1雖然自帶論文,但依舊激起了廣大網(wǎng)友強(qiáng)烈的好奇心和求知欲。Llama 3.1都使用了哪些數(shù)據(jù)?其中有多少合成數(shù)據(jù)?為什么不使用MoE架構(gòu)?后訓(xùn)練與RLHF流程是如何進(jìn)行的?模型評(píng)估是如何進(jìn)行的?我們什么時(shí)候可以見(jiàn)到Llama 4?Meta是否會(huì)發(fā)展agent?
LLM的參數(shù)規(guī)模選擇需要考慮多種因素,包括scaling law、訓(xùn)練時(shí)間、GPU和硬件的約束等等。不僅要考慮Meta所用的硬件,還要考慮整個(gè)AI社區(qū)的不同GPU型號(hào)和顯存大小。此外,目前廣泛應(yīng)用于推理階段的量化技術(shù)也會(huì)影響推理和訓(xùn)練/微調(diào)成本的比重。
在Scaling Law和訓(xùn)練token總量的限制內(nèi),進(jìn)行了一些權(quán)衡,找到了一個(gè)有合適推理效率的平衡點(diǎn)。之所以做到405B這么大規(guī)模,一個(gè)真正與GPT-4比肩的開(kāi)源模型。雖然目前還沒(méi)有完全達(dá)到目標(biāo),但差距正在逐漸縮小。下一代模型將繼續(xù)擴(kuò)展。
Scaling Law主要關(guān)注模型權(quán)重和訓(xùn)練量。Chinchilla論文強(qiáng)調(diào)了訓(xùn)練數(shù)據(jù)token總量的重要性,認(rèn)為在有限算力前提下,存在一個(gè)模型參數(shù)量和訓(xùn)練token數(shù)的最佳比率。
但是,Meta希望發(fā)布的旗艦?zāi)P托枰叩耐评硇?,因此選擇增加訓(xùn)練的token數(shù)和訓(xùn)練時(shí)長(zhǎng),讓模型達(dá)到“過(guò)度訓(xùn)練”的狀態(tài)。我們希望模型有更好的推理表現(xiàn),從而更多地應(yīng)用于開(kāi)源社區(qū),因此需要做出一些超越Chinchilla定律的選擇。
相比Llama 2,Llama 3的架構(gòu)沒(méi)有太多變化,但在擴(kuò)展數(shù)據(jù)的規(guī)模和質(zhì)量方面作出了很多努力,數(shù)據(jù)集從2T token增加到15T token。
目前的模型研發(fā)有一個(gè)趨勢(shì),即針對(duì)基準(zhǔn)分?jǐn)?shù)進(jìn)行模型的后訓(xùn)練改進(jìn)。模型評(píng)估是一個(gè)開(kāi)放的研究問(wèn)題,目前還沒(méi)有很好的答案。當(dāng)試圖提升模型在某個(gè)基準(zhǔn)上的分?jǐn)?shù)時(shí),可能會(huì)存在過(guò)擬合,分?jǐn)?shù)提升未必能遷移成為相似的能力。Meta已經(jīng)在6月開(kāi)始訓(xùn)練Llama 4模型,重點(diǎn)可能?chē)@agent技術(shù),并且已經(jīng)在Toolformer等agent工具上進(jìn)行了一些工作。
Llama 3訓(xùn)練任務(wù)為什么會(huì)多次遭遇故障?
由于Llama 3訓(xùn)練任務(wù)的規(guī)模龐大且高度同步,單個(gè)GPU的故障會(huì)導(dǎo)致整個(gè)訓(xùn)練過(guò)程中斷,必須重新啟動(dòng)。在419次意外故障中,58.7%的故障與GPU相關(guān),具體包括NVLink等各種GPU故障和HBM3內(nèi)存故障。這種情況并不意外,因?yàn)镹vidia的H100 GPU消耗約700W并承受大量熱應(yīng)力。盡管出現(xiàn)了大量的故障,但只有三起事件需要顯著的人工干預(yù),其余的問(wèn)題均能由自動(dòng)化處理。
盡管存在這些問(wèn)題,Llama 3團(tuán)隊(duì)通過(guò)支持自動(dòng)化集群維護(hù),實(shí)現(xiàn)了超過(guò)90%的有效訓(xùn)練時(shí)間(有效訓(xùn)練時(shí)間是指實(shí)際用于有用訓(xùn)練的時(shí)間與經(jīng)過(guò)時(shí)間的比例)。Meta開(kāi)發(fā)了多種工具和優(yōu)化策略,包括減少任務(wù)啟動(dòng)和檢查點(diǎn)時(shí)間、廣泛使用PyTorch內(nèi)置的NCCL飛行記錄器,以及識(shí)別滯后的GPU。其中,NCCLX在故障檢測(cè)和定位方面發(fā)揮了至關(guān)重要的作用,尤其是對(duì)于NVLink和RoCE相關(guān)問(wèn)題。
PyTorch的NCCL飛行記錄器能夠?qū)⒓w元數(shù)據(jù)和堆棧跟蹤記錄到環(huán)形緩沖區(qū)中,從而在大規(guī)模情況下快速診斷和解決掛起和性能問(wèn)題。NCCLX通過(guò)與PyTorch的緊密協(xié)同設(shè)計(jì),提高了故障檢測(cè)和定位的速度和準(zhǔn)確性,允許PyTorch訪(fǎng)問(wèn)NCCLX的內(nèi)部狀態(tài)并跟蹤相關(guān)信息。
訓(xùn)練過(guò)程中,成千上萬(wàn)的GPU可能同時(shí)增加或減少功耗,例如等待檢查點(diǎn)完成或集體通信結(jié)束,或整個(gè)訓(xùn)練任務(wù)的啟動(dòng)或關(guān)閉。這會(huì)導(dǎo)致數(shù)據(jù)中心的功耗瞬時(shí)波動(dòng)達(dá)到幾十兆瓦的數(shù)量級(jí),可能使電網(wǎng)不堪重負(fù)。Meta必須確保其數(shù)據(jù)中心有足夠的電力,以維持Llama 3 405B模型及未來(lái)更大規(guī)模模型的正常運(yùn)轉(zhuǎn)。
Meta還注意到,環(huán)境因素會(huì)影響大規(guī)模訓(xùn)練性能。Llama 3 405B訓(xùn)練期間,每天中午因溫度較高影響了GPU的動(dòng)態(tài)電壓和頻率調(diào)整,導(dǎo)致吞吐量波動(dòng)1-2%。盡管這不是大問(wèn)題,但它揭示了溫度變化對(duì)GPU性能的潛在影響。
考慮到16384個(gè)H100 GPU的集群在54天內(nèi)經(jīng)歷了419次意外故障,平均每24小時(shí)7.76次,xAI的孟菲斯超級(jí)計(jì)算機(jī)集群(配備10萬(wàn)個(gè)H100 GPU)可能會(huì)面臨更高的故障率。埃隆·馬斯克(Elon Musk)最近在社交平臺(tái)上宣布啟動(dòng)了“世界上最強(qiáng)大的人工智能訓(xùn)練集群”,預(yù)計(jì)在今年12月前創(chuàng)建“世界上所有指標(biāo)最強(qiáng)大的人工智能”。根據(jù)GPU規(guī)模比例,xAI的孟菲斯超級(jí)計(jì)算機(jī)集群可能會(huì)面臨更多的故障和挑戰(zhàn)。
隨著人工智能模型參數(shù)量的不斷增加,所需的計(jì)算資源也隨之?dāng)U大。以 xAI 計(jì)劃中的 10 萬(wàn)塊 H100 顯卡集群為例,故障率可能會(huì)成倍增長(zhǎng),給未來(lái)的 AI 訓(xùn)練帶來(lái)更大的挑戰(zhàn)。盡管挑戰(zhàn)重重,Meta通過(guò)開(kāi)發(fā)和應(yīng)用多種技術(shù)和優(yōu)化策略,展示了在大規(guī)模人工智能訓(xùn)練中克服故障、提升效率的能力。未來(lái),隨著人工智能模型參數(shù)量的不斷增加,計(jì)算資源需求也將持續(xù)增長(zhǎng)。Meta的經(jīng)驗(yàn)為業(yè)界提供了寶貴的參考,也為未來(lái)更大規(guī)模模型的訓(xùn)練奠定了基礎(chǔ)。
原創(chuàng)文章,作者:科技探索者,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.2079x.cn/article/670512.html