火山引擎發(fā)布大模型應(yīng)用防火墻,有效抵御算力DDoS攻擊

當(dāng)前,以大模型為代表的人工智能迅猛發(fā)展,極大提升生產(chǎn)力的同時(shí),也給全球網(wǎng)絡(luò)安全、數(shù)字安全領(lǐng)域帶來全新的挑戰(zhàn)。在此背景下,企業(yè)在落地AI業(yè)務(wù)時(shí),應(yīng)如何保證自身的網(wǎng)絡(luò)安全?

為此,火山引擎推出大模型應(yīng)用防火墻,為大模型推理提供 All in One 的安全防護(hù)能力,實(shí)現(xiàn)從“被動(dòng)防御”到“主動(dòng)對抗”的跨越式升級(jí),降低由模型攻擊、推理服務(wù)濫用、系統(tǒng)權(quán)限突破帶來的安全風(fēng)險(xiǎn)。

據(jù)了解,大模型應(yīng)用防火墻能夠有效抵御算力DDoS 攻擊,消除發(fā)生率約30%的惡意tokens 消耗風(fēng)險(xiǎn);通過防范提示詞注入攻擊,使敏感數(shù)據(jù)泄露事件發(fā)生率降低70%;同時(shí)降低模型濫用、幻覺、回復(fù)不準(zhǔn)確的發(fā)生率90%以上,并嚴(yán)格滿足輸入輸出合規(guī)要求,將不良信息輸出率控制在5%以內(nèi)。

在大模型應(yīng)用防火墻建設(shè)的過程中,火山引擎根據(jù)攻防實(shí)踐,構(gòu)建起了用戶接入層、智能體層、服務(wù)/業(yè)務(wù)層、模型推理層、模型訓(xùn)練層等五層威脅模型,基于底層攻擊邏輯,總結(jié)有針對性的對抗技術(shù)。

圖片1.png

提示詞拼接注入攻擊分析圖

例如企業(yè)在面對提示詞拼接注入攻擊時(shí),攻擊者操縱LLM的prompt工程技術(shù),通過分工協(xié)作的“越獄 Prompt”+“惡意誘導(dǎo) Prompt”,繞過平臺(tái)和模型原生安全機(jī)制,誘導(dǎo)模型生成惡意內(nèi)容。

對于這種繞過模型內(nèi)容安全機(jī)制的攻擊場景,大模型應(yīng)用防火墻采用意圖識(shí)別、防提示詞注入、動(dòng)態(tài)對抗與價(jià)值觀校準(zhǔn)等多重防護(hù)機(jī)制,實(shí)現(xiàn)以AI能力對抗AI攻擊,大幅提升了大模型的安全性。

經(jīng)實(shí)踐結(jié)果反饋,通過深度上下文引擎,防火墻可識(shí)別97%的隱式攻擊,并基于千萬級(jí)對抗樣本訓(xùn)練,覆蓋20+提示詞攻擊場景,檢出率達(dá)99%+;同時(shí),經(jīng)某大模型服務(wù)平臺(tái)實(shí)測,違規(guī)內(nèi)容及價(jià)值觀偏移回答均下降98%。輕量化架構(gòu)則可在100ms內(nèi)即完成風(fēng)險(xiǎn)攔截,誤判率較行業(yè)低一倍。

再如,在企業(yè)經(jīng)常面對的聊天數(shù)據(jù)竊取攻擊場景下,防火墻也發(fā)揮出非常實(shí)用的效果。對于企業(yè)來說,AI智能化應(yīng)用無疑是業(yè)務(wù)數(shù)據(jù)的“處理廠”,攻擊者可以通過間接提示詞注入的攻擊方式,誘導(dǎo)大模型繞過智能體自身的防護(hù)機(jī)制,索取如用戶對話數(shù)據(jù)等敏感信息。

圖片2.png

數(shù)據(jù)竊取攻擊分析圖

而對于數(shù)據(jù)竊取攻擊,大模型應(yīng)用防火墻在提供注入攻擊對抗外,還通過RAG數(shù)據(jù)加密/替換、模型計(jì)算環(huán)境安全性提升,訪問識(shí)別等方式,降低數(shù)據(jù)泄露風(fēng)險(xiǎn)。

經(jīng)實(shí)踐結(jié)果顯示,采用“深度學(xué)習(xí)小模型+大模型”的技術(shù)方案,對敏感數(shù)據(jù)進(jìn)行脫敏/替換/占位處理,可降低96%的敏感信息泄露風(fēng)險(xiǎn);另外,防火墻會(huì)將經(jīng)過精調(diào)的提示詞注入防護(hù)模型,以應(yīng)對指令劫持、角色扮演、反向誘導(dǎo)等數(shù)十種攻擊。

而與私密云計(jì)算方案結(jié)合,則可以進(jìn)一步保護(hù)RAG知識(shí)庫、系統(tǒng)提示詞等核心數(shù)據(jù),確保即使這些數(shù)據(jù)被竊取,攻擊者也無法解密,從而使注入攻擊攔截率達(dá)到99%。通過實(shí)時(shí)動(dòng)態(tài)脫敏模塊,使防火墻可以對用戶對話信息進(jìn)行字段級(jí)加密,數(shù)據(jù)泄露風(fēng)險(xiǎn)降低98%。針對插件攻擊,智能流量監(jiān)測則可識(shí)別系統(tǒng)內(nèi)異常的外聯(lián)請求,阻斷未授權(quán)訪問。

除此之外,系統(tǒng)權(quán)限攻擊,也是企業(yè)在日常運(yùn)營中經(jīng)常遭遇的攻擊手段。攻擊者通過 AI 智能體的人機(jī)交互頁面,實(shí)現(xiàn)基于 SQL 注入、RCE 提權(quán)等專業(yè)化攻擊,篡改業(yè)務(wù)數(shù)據(jù)、遠(yuǎn)程命令執(zhí)行、模型供應(yīng)鏈投毒、基于反彈 shell 攻擊控制底層系統(tǒng),嚴(yán)重危害企業(yè)核心業(yè)務(wù)安全。

圖片3.png

系統(tǒng)權(quán)限攻擊分析圖

而火山引擎推出的大模型應(yīng)用防火墻,首先能識(shí)別固定規(guī)則的攻擊代碼、惡意攻擊意圖,同時(shí)還能應(yīng)對攻擊者誘導(dǎo)大模型自己總結(jié)和生成的攻擊代碼,抵御模型輸入的惡意提示詞攻擊,同類攻擊攔截率可達(dá)95%+。

不僅如此,防火墻還能在大模型對話鏈路中判斷 UserPrompt 中是否包含攻擊行為,如有,則攔截請求,從源頭處切斷威脅。

此外,防火墻還會(huì)對Agent行為進(jìn)行全方位的檢測,觀察Agent調(diào)用的RAG、Tool等外部返回?cái)?shù)據(jù)中是否包含間接注入攻擊,規(guī)避模型生成的任務(wù)和代碼中可能包含的威脅。而在大模型應(yīng)用發(fā)布時(shí),則檢測 SystemPrompt/LLM Response 中是否包含惡意內(nèi)容,如存在,則拒絕應(yīng)用發(fā)布。

最后,當(dāng)面對堪稱“網(wǎng)絡(luò)安全頑疾”的DDoS攻擊時(shí),考慮到新型的算力DDoS攻擊,可利用大模型的推理能力將算力耗盡;同時(shí)推理服務(wù)盜用“薅羊毛”同樣是DDoS 攻擊之外的另一個(gè)典型威脅,導(dǎo)致算力資源可能被惡意竊取,因此大模型應(yīng)用防火墻通過算力資源熔斷和建立相應(yīng)檢測模型等方式,并通過針對性的技術(shù)迭代和策略適配,構(gòu)建了新型的智能體算力防護(hù)體系。

圖片4.png

可用性攻擊分析圖

首先,基于用戶行為鏈分析引擎,防火墻可識(shí)別90%的自動(dòng)化“薅羊毛”行為。而動(dòng)態(tài)資源熔斷機(jī)制則實(shí)時(shí)監(jiān)控算力消耗,使無效資源調(diào)用減少80%,且效果已在實(shí)踐中得到驗(yàn)證。在幫助某頭部大模型廠商抵御黑灰產(chǎn)破解轉(zhuǎn)售應(yīng)用API時(shí),成功規(guī)避算力損失40%以上。

火山引擎表示,未來將持續(xù)構(gòu)建包括大模型應(yīng)用防火墻的全面智能化防御策略與服務(wù),致力于為企業(yè)大模型應(yīng)用落地,開辟安全可信的推理空間。

本文轉(zhuǎn)載自:,不代表科技訊之立場。原文鏈接:http://zl.yisouyifa.com/html/250325/110537284982463.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論