8大維度600道題盲測,訊飛星火成中國“最聰明”大模型

去年11月ChatGPT發(fā)布后,全世界掀起了AIGC熱潮,國內(nèi)各大企業(yè)和投資人也紛紛跟進。

百模大戰(zhàn)一觸即發(fā)

各家大模型紛紛入局,一時之間國內(nèi)大模型領(lǐng)域呈現(xiàn)出少有的熱鬧景象。

到目前為止,國內(nèi)已經(jīng)發(fā)布的10億參數(shù)以上大模型數(shù)量超過80個,“百模大戰(zhàn)”的競爭格局初步形成。

8大維度600道題盲測,訊飛星火成中國“最聰明”大模型

競爭格局出現(xiàn)變化

近日,麻省理工科技評論對國內(nèi)排名靠前的四個大模型進行了一次全方位評測,參評的大模型分別是訊飛星火、百度文心一言、商湯商量、阿里通義千問。在最終的評測結(jié)果中,訊飛星火以整體水平得分率81.50%高居第一,成為“最聰明”國產(chǎn)大模型。

8大維度600道題盲測,訊飛星火成中國“最聰明”大模型

此次評測是從權(quán)威題庫中抽取8個維度的600道題對參評大模型進行盲測。

從各維度的結(jié)果來看,在8個一級分類中,訊飛星火共獲得其中6個一級分類的第一名。

麻省理工科技評論的評測報告還重點指出:在編程能力評測中,訊飛星火 80% 的得分率明顯高于 71%的平均值,在生成代碼的簡答題單項上,訊飛星火的得分率高達 82%,遠高于其他平臺,表現(xiàn)頗為亮眼。

8大維度600道題盲測,訊飛星火成中國“最聰明”大模型

無獨有偶,就在此前幾天的8月12日,新華社研究院中國企業(yè)發(fā)展研究中心發(fā)布《人工智能大模型體驗報告2.0》,在該《報告》中,訊飛星火V1.5就以總分1013分位列本次國產(chǎn)主流大模型測評榜首位。在四大評測維度中的智商指數(shù)和工具提效指數(shù)兩個維度獲得第一,《報告》認(rèn)為訊飛星火“在工作提效方面優(yōu)勢明顯”。

行業(yè)應(yīng)用加速落地

8月15日,科大訊飛發(fā)布了星火認(rèn)知大模型V2.0,V2.0在代碼能力和多模態(tài)能力方面的表現(xiàn)讓人印象頗為深刻。而在應(yīng)用落地方面,訊飛也展示出快人一步的節(jié)奏,無論是對標(biāo)Copilot X的智能編程助手iFlyCode1.0,還是行業(yè)首創(chuàng)的星火教師助手,都展現(xiàn)出了很強的競爭力。

按理說,訊飛星火能取得這樣的成績并不令人意外。畢竟,科大訊飛自成立以來,一直都聚焦在AI領(lǐng)域潛心發(fā)展,無論是人才還是技術(shù),都有著不錯的積累。

隨著訊飛星火開始在大模型領(lǐng)域嶄露鋒芒,國內(nèi)大模型市場的競爭格局或許也會隨之迎來不小的變化。

細分定位勢在必行

在模型能力層面,訊飛星火和文心一言開始形成國內(nèi)大模型領(lǐng)域的第一梯隊。而在應(yīng)用落地的速度方面,現(xiàn)已發(fā)布了多款行業(yè)應(yīng)用的科大訊飛似乎已經(jīng)走在了前面。

鑒于國內(nèi)大模型企業(yè)相對同質(zhì)化的定位,后續(xù)的競爭應(yīng)該會日趨激烈。如何在繼續(xù)加強大模型通用能力的同時,找到自己在垂直細分領(lǐng)域的精準(zhǔn)定位,或許已經(jīng)成為很多大模型企業(yè)不得不認(rèn)真思考的問題。

?

原創(chuàng)文章,作者:陳晨,如若轉(zhuǎn)載,請注明出處:http://m.2079x.cn/article/576517.html

陳晨陳晨管理團隊

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論