360創(chuàng)始人周鴻祎在近日接受媒體采訪時表示,中美在AI上的差距主要在于“確定技術方向”上,中國的優(yōu)勢是學習能力很快,一旦方向確定,中國將有足夠的能力和機會來實現(xiàn)彎道超車。
很顯然,這個樸實的道理也同樣適用于中美競爭的其它領域,比如早些年中美競爭異常激烈的超算領域。本文我們以超算中的細分領域霸主——安騰(Anton)計算機所選擇的技術路線為啟發(fā),來分析中國在超算領域彎道超車的方向選擇問題。
我們通常所說的超算指的是超級計算機,是一種相較于大型計算機而言運算速度更高、存儲容量更大、功能更為完善的計算機,其運算速度通常在每秒5000萬次以上,并可存儲容量超過百萬個字節(jié)。超級計算機廣泛應用于藥物研發(fā)、新材料研發(fā)、飛行器設計、汽車工程、天氣預報等需要用到極大運算量的科學計算領域,目前儼然是左右國與國尖端科研領域競爭結果的基礎設施級別的重要科研工具。
一直以來,各國都在追求制造運算處理能力更快的超級計算機。自1942年美國發(fā)明超級計算機以來,中國、日本、英國開始跟隨和進行技術攻堅,都希望自己的超算能在世界擁有一席之地。2014-2017年期間,中國的“天河二號”和“神威·太湖之光”曾連續(xù)4年占據(jù)全球超級計算機Top500的榜首,但隨后又被日本和美國相繼超越。
超級計算機Frontier ?圖片來源:維基百科
借由Top500榜單的變化趨勢可以看到,從2016年到2022年的短短六年時間,最強超算的性能增長了10倍有余,這背后隱藏的是尖端半導體行業(yè)白熱化的技術競爭。但是,一味地關注聚光燈下的榜單排名,反而可能會讓我們忽視隱藏在水面之下可能更為重要的“戰(zhàn)場”。
在全球超算Top500的榜單之外,還有一類采取了截然不同底層技術架構路線、專門用來解決特定領域問題的專用超級計算機,相比于Frontier、神威·太湖之光這樣的通用超算來說,這些專用超算并不一味地追求運算的速度是每秒十億億次還是百億億次,而關注特定領域問題被計算解決的效率。
在這一類專用超級計算機中,最有名的就是美國D. E. Shaw研究所推出的安騰(Anton)超級計算機,安騰計算機專門被用于分子動力學模擬算法的加速,這是一種對于生命科學研究和生物制藥研發(fā)領域至關重要的算法。在計算分子動力學模擬問題時,安騰計算機的計算效率比全球最強的超算Frontier還要高上近50倍。
安騰計算機 ?圖片來源:網(wǎng)絡
擁有每秒百億億次計算性能的Frontier毫無疑問已經(jīng)是超算界的天花板了,但為何安騰計算機還能在它的基礎上再優(yōu)化數(shù)十倍的性能效率呢?其背后的原因就是技術路線選擇的差異,使得安騰這樣的專用超算在擅長的計算領域可以發(fā)揮出碾壓Frontier這樣頂級通用超算的能力。
顧名思義,專用超級計算機是一種針對解決特定問題而專門開發(fā)的計算機。由于CPU、GPU等通用的算力芯片無法滿足特定問題對算力性能的要求,專用超級計算機通常使用ASIC芯片(Application Specific Integrated Circuit,專用集成電路),犧牲了靈活性、換來了解決特定問題的極致性能。
簡單來說,ASIC芯片是一種針對特定用途定制化的高效計算芯片。這樣的定制專用芯片,可靠性、保密性、算力、能效,都會比通用芯片(CPU、GPU)更強。這是因為基于芯片所面向的專項任務,芯片的計算能力和計算效率都是嚴格匹配于任務算法的;芯片的核心數(shù)量,邏輯計算單元和控制單元比例,以及緩存等,整個芯片架構,也是精確定制的。但也正是由于ASIC芯片針對特定需求定向開發(fā),所以設計和制造均需要大量資金,和較長時間周期,且一旦定制,無法再次進行寫操作,靈活性較差。
前文提及的安騰計算機就是這樣一臺采用了ASIC芯片架構的專用超級計算機。在硬件上,安騰計算機的芯片、主板、布線都由D. E. Shaw研究所特殊設計。通過特殊設計的ASIC芯片,盡可能減少數(shù)據(jù)的傳輸和運算,在芯片上分區(qū)域、分精度計算不同任務,突破制約分子動力學模擬速度的瓶頸——原子間相互作用力的計算。
據(jù)公開資料顯示,“整個安騰計算機的芯片ASIC包括288個核心瓦片和24個邊緣瓦片。總的來說,它提供了5.6Tbps的片外帶寬。較大的Serdes物理PHYs在芯片的兩個邊緣都與這些瓦片相連。瓦片直接相鄰,減少了未使用的芯片面積,簡化了物理設計。同時,該芯片使用全局時鐘網(wǎng),以最小的偏移實現(xiàn)高時鐘速度;網(wǎng)狀結構節(jié)省了功耗,網(wǎng)絡只占芯片TDP的5%。為了提高良率,D. E. Shaw研究所設計了安騰計算機第三代的列級冗余。如果一列有一個壞的瓦片,只要該瓦片的路由器仍在工作,該芯片就仍然可行。因此,它使用288個核心瓦片中的264個來實例化528個幾何核心和528個PPIM,以及66MB的片上存儲器。”
第三代安騰計算機的晶片管芯布局
圖片來源: D.E.Shaw研究所
安騰計算機的出現(xiàn)為超級計算機硬件的進一步專業(yè)化提供了令人信服的理由。沒有任何商業(yè)芯片能接近其存儲密度和計算速度。目前,安騰計算機的單臺機器僅采用512個節(jié)點,居然比裝載了幾萬個CPU和GPU節(jié)點的通用超算中心快上100-1000倍!
而安騰計算機帶來的超乎想象的性能提升,也讓美國的制藥公司和生命科學研究人員享受了長達十余年的科研技術紅利。美國的科學家利用安騰計算機率先突破了困擾行業(yè)數(shù)十年的分子動力學模擬計算效率問題。自上個世紀七八十年代以來,分子動力學模擬就始終受限于嚴重的計算效率瓶頸,導致無法產(chǎn)業(yè)化應用。比如人體內(nèi)典型的大分子蛋白質(zhì)往往由幾十萬到上百萬個原子構成,假設我們用分子動力學模擬方法計算一個100萬原子的蛋白質(zhì)運動0.001秒的“影片”,哪怕用上1000顆主流CPU并行計算,都需要耗費超過100年的時間,但如果使用安騰計算機,只需要10天就可以算完。美國制藥公司Relay使用安騰計算機第二代(Anton2)對藥物靶點和成藥小分子的結構進行分子動力學模擬和篩選設計,用實驗+計算相結合的近乎降維打擊的研發(fā)方法,僅在18個月內(nèi)、不到 1 億美金就確認RLY-4008等藥物的結構,一舉實現(xiàn)了震驚醫(yī)藥行業(yè)的“壯舉”。因為在過去的認知里,一款新藥的研發(fā)最少也需要用至少10年、10億美金才夠!
隨著美國持續(xù)收緊對我國的芯片禁令、不斷單方面對我國升級霸權行為,我們在超算領域的發(fā)展和趕超之路無疑將會充滿荊棘和泥濘。不過,在過去每一次的技術革命浪潮中,盡管我們與美國相比缺乏先發(fā)的優(yōu)勢,我們也一次次通過“先跟隨再力爭超越”的競爭策略實現(xiàn)彎道超車,無論是不久前的新能源汽車領域、還是當下正在發(fā)生的人工智能領域都是如此,想必在超算領域也必將不會例外。當然,我們也需要足夠清醒的判斷力,找到彎道超車發(fā)力的正確方向,美國安騰計算機獨樹一幟的技術路線和取得的巨大成功,對于我們來說無疑是一個需要納入考量的重要方向指引。
原創(chuàng)文章,作者:陳晨,如若轉(zhuǎn)載,請注明出處:http://m.2079x.cn/article/635452.html