2024年被普遍認為是“大模型落地應用元年”,而要讓大模型真正落地應用到企業(yè)的生產(chǎn)環(huán)節(jié)中,推理能力至關重要。所謂“推理能力”,即大模型利用輸入的新數(shù)據(jù),一次性獲得正確結論的過程。除模型本身的設計外,還需要強大的硬件作為基礎。
在8月21日舉辦的2024火山引擎AI創(chuàng)新巡展上海站活動上,火山引擎云基礎產(chǎn)品負責人羅浩發(fā)表演講,介紹了火山引擎AI全棧云在算力升級、資源管理、性能和穩(wěn)定性等方面做出的努力,尤其是分享了針對大模型推理問題的解決方案。
羅浩表示,在彈性方面,與傳統(tǒng)的云原生任務相比,推理任務,以及面向AI native應用,由于其所對應的底層資源池更加復雜,因此面臨的彈性問題也更加復雜。傳統(tǒng)的在線任務彈性,主要存在于CPU、內(nèi)存、存儲等方面,而AI native應用的彈性問題,則涉及模型彈性、GPU彈性、緩存彈性,以及RAG、KV Cache等機制的彈性。
同時,由于底層支撐算力和包括數(shù)據(jù)庫系統(tǒng)在內(nèi)的存儲都發(fā)生了相應的變化,也導致對應的觀測體系和監(jiān)控體系出現(xiàn)不同的變化,帶來新的挑戰(zhàn)。
在具體應對上,火山引擎首先在資源方面,面向不同的需求,提供了更多類型的多達幾百種計算實例,包括推理、訓練以及不同規(guī)格推理和訓練的實例類型,同時涵蓋CPU和GPU。
在選擇實例時,火山引擎應用了自研的智能選型產(chǎn)品,當面訓練場景或推理場景時,在給定推理引擎,以及該推理引擎所對應的模型時,都會給出更加適配的GPU或CPU實例。該工具也會自動探索模型參數(shù),包括推理引擎性能等,從而找到最佳匹配實例。
最后,結合整體資源調度體系,可以通過容器、虛擬機、Service等方式,滿足對資源的需求。
而在數(shù)據(jù)領域,目前在訓練場景,最主要會通過TOS、CFS、VPFS支持大模型的訓練和分發(fā),可以看到所有的存儲、數(shù)據(jù)庫等都在逐漸轉向高維化,提供了對應的存儲和檢索能力。

在數(shù)據(jù)安全方向,當前的存儲數(shù)據(jù),已經(jīng)有了更多內(nèi)容屬性,企業(yè)和用戶對于數(shù)據(jù)存儲的安全性也更加在意。對此,火山引擎在基礎架構層面提供全面的路審計能力,可通過專區(qū)形式,支持從物理機到交換機,再到專屬云以及所有組件的對應審計能力。
對此,羅浩以火山引擎與游戲公司沐瞳的具體合作為例給予了解釋。在對移動端游戲里出現(xiàn)的語言、行為進行審計和審核時,大量用到各種各樣的云基礎,以及包括大模型在內(nèi)的多種AI產(chǎn)品,而火山引擎做到了讓所有的產(chǎn)品使用都在同一朵云上,使其在整體調用過程當中,不出現(xiàn)額外的流量成本,也使整體調用延時達到最優(yōu)化。
另外,在火山引擎與客戶“美圖”合作的案例中,在面對新年、元旦、情人節(jié)等流量高峰時,美圖通過火山引擎彈性的資源池,同時利用火山潮汐的算力,使得應用整體使用GPU和CPU等云資源時,成本達到最優(yōu)化。
羅浩最后表示,未來火山引擎AI全棧云在算力、資源管理、性能及穩(wěn)定性等方面還將繼續(xù)探索,為AI應用在各行業(yè)的落地,奠定更加堅實的基礎,為推動各行業(yè)智能化和數(shù)字化轉型的全新助力。
本文轉載自:,不代表科技訊之立場。原文鏈接:http://zl.yisouyifa.com/html/240826/1746201813522038.html