家里WIFI如果發(fā)生故障,檢查下路由器基本就能發(fā)現(xiàn)原因。但對于擁有復雜架構的云計算平臺來說,要找出故障原因極為復雜和耗時。阿里打造出根因分析通用框架,利用AI快速定位故障根因,已應用于部分云計算產品,節(jié)省時間超過一半,準確率超過80%。該框架也在近期舉辦的ICASSP’22 AIOps Challenge網絡智能運維國際競賽中獲得冠軍。
ICASSP(International Conference on Acoustics, Speech and Signal Processing)是信號處理領域規(guī)模最大的國際學術會議。其中,ICASSP’22 AIOps Challenge網絡智能運維競賽由香港中文大學(深圳)等機構主辦,希望用機器學習等方式來自動找出網絡故障的根本原因,此次共有382支隊伍參賽。由阿里達摩院決策智能實驗室和阿里云計算平臺組成的團隊獲得冠軍,并受主辦方之邀將其中主要算法以論文的形式發(fā)表在ICASSP上。
阿里團隊MindOps獲得競賽冠軍
所謂根因分析(Root Cause Analysis),是指找到故障的根本原因,這是智能運維AIOps的重要研究方向。以云計算平臺為例,其穩(wěn)定性至關重要,但由于架構復雜,模塊眾多,一旦出現(xiàn)故障,如果純靠人工來排查費時費力,已難以滿足需求。因此,基于機器學習等智能方式的根因分析應運而生。
不過,根因分析的技術門檻頗高,挑戰(zhàn)重重。首先是運維數(shù)據(jù)往往來源于不同系統(tǒng),形式多樣,需要大海撈針找出關鍵信息。其次是容易被表象迷惑,大型系統(tǒng)中,故障傳播的鏈路往往很長,根本原因可能隱藏在深層次節(jié)點中。此外還存在標注樣本數(shù)據(jù)少,異常少見等問題。
阿里打造的根因分析通用框架,解決了上述難題。針對多源異構的海量數(shù)據(jù),以時序分析技術來提取關鍵信息;針對標注樣本少,利用時間序列相似性等多種方法來進行數(shù)據(jù)增強;針對故障傳播鏈路長,運用結合了專家經驗和因果圖的圖算法來找出根本原因。
該框架構建了豐富的算法工具箱和兵器庫,已應用于阿里云實時計算、通用計算等多個重要產品中,如Blink/Flink、MaxCompute、Dataworks等,幫助運維人員及時發(fā)現(xiàn)異常,快速定位問題根因,準確率達80%以上,相較之前能節(jié)省時間一半以上。比如實時計算平臺的熱點機器問題,會導致負載過高、作業(yè)緩慢,其原因鏈條較長,可能出自硬件故障,也可能是作業(yè)本身,人工排查較為耗時,而使用該框架能夠快速定位根因。此外,它還能幫助發(fā)現(xiàn)較為隱蔽的異常,比如部分機器下線會導致資源不足,迫使一些客戶等待排隊,這些在常規(guī)集群整體作業(yè)中難以發(fā)現(xiàn)。
根因分析工具箱
此外,基于該框架的一篇論文之前還被國際頂會CIKM2021收錄,研究人員受邀作30分鐘的在線演講(Oral Presentation)。
原創(chuàng)文章,作者:蘋果派,如若轉載,請注明出處:http://m.2079x.cn/article/550687.html