特斯拉推出Dojo超算診斷技術,嚴防AI訓練數(shù)據(jù)損毀

特斯拉推出Dojo超算診斷技術,嚴防AI訓練數(shù)據(jù)損毀

特斯拉近日公布了其百萬核心級Dojo超算系統(tǒng)的創(chuàng)新故障檢測技術,通過自主研發(fā)的Stress工具,可在不停機狀態(tài)下跨處理器和集群識別靜默數(shù)據(jù)錯誤(SDC)的核心缺陷。這一突破至關重要,因為單個錯誤即可導致耗時數(shù)周的AI訓練任務功虧一簣,尤其Dojo作為全球唯二的最大處理器之一,其晶圓級芯片尺寸已達物理極限,制造缺陷難以完全避免。

由于Dojo處理器包含8850個核心,功耗高達15000W,靜默數(shù)據(jù)錯誤的風險被顯著放大,對訓練數(shù)據(jù)完整性構成嚴重威脅。特斯拉將每個Dojo單元稱為“訓練模塊”,由25個D1芯片組成,采用臺積電InFO_SoW封裝技術,總帶寬達10TB/s,但其復雜性迫使公司升級檢測方案。初期使用的差分模糊測試方法因主機通信延遲而效率低下,特斯拉通過三項創(chuàng)新實現(xiàn)優(yōu)化:為每個核心分配0.5MB專屬負載,利用內(nèi)部高帶寬縮短測試時間;多次運行負載以暴露潛在錯誤;并通過XOR操作提升缺陷識別率10倍,同時控制性能損耗。

改進后的Stress工具已擴展至模塊、機柜及集群層級,支持百萬核心規(guī)模的實時故障定位。測試數(shù)據(jù)顯示,多數(shù)缺陷可在數(shù)秒至數(shù)分鐘內(nèi)檢出,但頑固故障需執(zhí)行數(shù)小時指令才能暴露。該系統(tǒng)運行輕量級負載,僅禁用故障核心,且單個D1芯片可容忍多個核心失效而不影響整體功能,還意外幫助修復了底層設計缺陷。

目前,Stress工具已全面集成至Dojo集群,監(jiān)測到的故障率與谷歌、Meta等企業(yè)相當,標志著特斯拉在AI硬件健康管理上達到行業(yè)前列。此舉恰逢下一代Dojo 2芯片即將上線,有望進一步強化系統(tǒng)可靠性,支撐特斯拉自動駕駛及機器人訓練的長期目標。

原創(chuàng)文章,作者:Tesla,如若轉載,請注明出處:http://m.2079x.cn/article/722834.html

Tesla的頭像Tesla認證作者

相關推薦

發(fā)表回復

登錄后才能評論