OpenAI o3數(shù)學(xué)大模型遭”實(shí)測(cè)打假”:測(cè)試成績(jī)被指虛高

OpenAI o3數(shù)學(xué)大模型遭"實(shí)測(cè)打假":測(cè)試成績(jī)被指虛高

近日,人工智能領(lǐng)域再現(xiàn)基準(zhǔn)測(cè)試爭(zhēng)議。OpenAI最新發(fā)布的o3大模型因第一方與第三方測(cè)試結(jié)果懸殊,陷入”成績(jī)注水”質(zhì)疑。第三方機(jī)構(gòu)實(shí)測(cè)顯示,該模型在權(quán)威數(shù)學(xué)測(cè)試集FrontierMath上的正確率僅為10%,較官方宣稱的25%斷崖式縮水。

事件源于去年12月OpenAI高調(diào)宣布,OpenAI o3模型在包含180道高難度數(shù)學(xué)題的FrontierMath測(cè)試中取得超25%正確率,自稱”較競(jìng)品2%水平實(shí)現(xiàn)代際突破”。但獨(dú)立研究機(jī)構(gòu)Epoch最新報(bào)告顯示,使用290題擴(kuò)展版測(cè)試時(shí),公開(kāi)發(fā)布版OpenAI o3正確率驟降至10%左右。

OpenAI解釋稱差異源于測(cè)試配置不同:內(nèi)部測(cè)試采用”激進(jìn)計(jì)算設(shè)置”的高配版模型,而公測(cè)版為適應(yīng)產(chǎn)品需求調(diào)整了計(jì)算層級(jí)。合作機(jī)構(gòu)ARC Prize證實(shí),公測(cè)版o3確實(shí)較內(nèi)部版本”瘦身”,但強(qiáng)調(diào)后續(xù)推出的o3-mini-high等衍生模型性能已超越原版。

值得關(guān)注的是,Epoch研究所披露其2024年曾接受OpenAI資金支持,但未在初期報(bào)告中說(shuō)明該合作關(guān)系。多位參與FrontierMath建設(shè)的學(xué)者表示,直至爭(zhēng)議爆發(fā)才知悉OpenAI的深度介入。

此次風(fēng)波恰逢AI基準(zhǔn)測(cè)試信任危機(jī)高發(fā)期。本月Meta承認(rèn)宣傳模型與開(kāi)發(fā)者版本存在差異;上月馬斯克旗下xAI因Grok 3模型測(cè)試圖表誤導(dǎo)遭指控。行業(yè)觀察指出,隨著AI競(jìng)賽白熱化,廠商在追求技術(shù)突破與商業(yè)利益間的平衡愈發(fā)艱難。

目前OpenAI正加速推進(jìn)o3-pro版本研發(fā),計(jì)劃未來(lái)數(shù)周發(fā)布強(qiáng)化版模型。該公司技術(shù)總監(jiān)在社交平臺(tái)重申,所有測(cè)試數(shù)據(jù)均真實(shí)有效,差異僅反映不同應(yīng)用場(chǎng)景下的性能表現(xiàn)。

原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.2079x.cn/article/715665.html

AI的頭像AI認(rèn)證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論