OpenAI o3數(shù)學(xué)大模型遭”實(shí)測(cè)打假”：測(cè)試成績被指虛高

AI ? 2025年4月21日 11:03:00 ? AI

近日，人工智能領(lǐng)域再現(xiàn)基準(zhǔn)測(cè)試爭(zhēng)議。OpenAI最新發(fā)布的o3大模型因第一方與第三方測(cè)試結(jié)果懸殊，陷入”成績注水”質(zhì)疑。第三方機(jī)構(gòu)實(shí)測(cè)顯示，該模型在權(quán)威數(shù)學(xué)測(cè)試集FrontierMath上的正確率僅為10%，較官方宣稱的25%斷崖式縮水。

事件源于去年12月OpenAI高調(diào)宣布，OpenAI o3模型在包含180道高難度數(shù)學(xué)題的FrontierMath測(cè)試中取得超25%正確率，自稱”較競(jìng)品2%水平實(shí)現(xiàn)代際突破”。但獨(dú)立研究機(jī)構(gòu)Epoch最新報(bào)告顯示，使用290題擴(kuò)展版測(cè)試時(shí)，公開發(fā)布版OpenAI o3正確率驟降至10%左右。

OpenAI解釋稱差異源于測(cè)試配置不同：內(nèi)部測(cè)試采用”激進(jìn)計(jì)算設(shè)置”的高配版模型，而公測(cè)版為適應(yīng)產(chǎn)品需求調(diào)整了計(jì)算層級(jí)。合作機(jī)構(gòu)ARC Prize證實(shí)，公測(cè)版o3確實(shí)較內(nèi)部版本”瘦身”，但強(qiáng)調(diào)后續(xù)推出的o3-mini-high等衍生模型性能已超越原版。

值得關(guān)注的是，Epoch研究所披露其2024年曾接受OpenAI資金支持，但未在初期報(bào)告中說明該合作關(guān)系。多位參與FrontierMath建設(shè)的學(xué)者表示，直至爭(zhēng)議爆發(fā)才知悉OpenAI的深度介入。

此次風(fēng)波恰逢AI基準(zhǔn)測(cè)試信任危機(jī)高發(fā)期。本月Meta承認(rèn)宣傳模型與開發(fā)者版本存在差異；上月馬斯克旗下xAI因Grok 3模型測(cè)試圖表誤導(dǎo)遭指控。行業(yè)觀察指出，隨著AI競(jìng)賽白熱化，廠商在追求技術(shù)突破與商業(yè)利益間的平衡愈發(fā)艱難。

目前OpenAI正加速推進(jìn)o3-pro版本研發(fā)，計(jì)劃未來數(shù)周發(fā)布強(qiáng)化版模型。該公司技術(shù)總監(jiān)在社交平臺(tái)重申，所有測(cè)試數(shù)據(jù)均真實(shí)有效，差異僅反映不同應(yīng)用場(chǎng)景下的性能表現(xiàn)。

原創(chuàng)文章，作者：AI，如若轉(zhuǎn)載，請(qǐng)注明出處：http://m.2079x.cn/article/715665.html

AI OpenAI OpenAI o3 人工智能

AI認(rèn)證作者

0 0

商業(yè)

AMD宣布收購AI軟件優(yōu)化創(chuàng)企Brium 交易金額未予披露

今日，半導(dǎo)體巨頭AMD宣布收購AI軟件優(yōu)化初創(chuàng)公司Brium，交易金額未予披露。此次戰(zhàn)略性收購直指英偉達(dá)在AI硬件市場(chǎng)的主導(dǎo)地位，旨在通過強(qiáng)化軟件生態(tài)打破行業(yè)壁壘。最新動(dòng)態(tài)顯示，這…

net
3小時(shí)前
AI

博楓豪擲950億克朗押注瑞典，打造歐洲最大AI計(jì)算基地之一

全球另類資產(chǎn)管理巨頭Brookfield博楓宣布，將在瑞典投資高達(dá)950億瑞典克朗（約合712億元人民幣）建設(shè)戰(zhàn)略性AI基礎(chǔ)設(shè)施項(xiàng)目，這也是該公司在歐洲迄今規(guī)模最大的AI專項(xiàng)投資之…

AI
4小時(shí)前
新聞

Reddit起訴Anthropic違規(guī)訪問數(shù)據(jù)超10萬次

據(jù)外媒報(bào)道，社交平臺(tái)Reddit于當(dāng)?shù)貢r(shí)間6月4日正式向舊金山高等法院提起訴訟，指控AI初創(chuàng)公司Anthropic在明知禁止機(jī)器人訪問的情況下，自2024年7月以來仍對(duì)Reddit…

李森
9小時(shí)前
新聞

Meta簽署20年核能協(xié)議，驅(qū)動(dòng)AI數(shù)據(jù)中心綠色轉(zhuǎn)型

Meta公司今日正式宣布與Constellation能源公司達(dá)成一項(xiàng)為期20年的戰(zhàn)略合作，將從伊利諾伊州克林頓清潔能源中心采購核能電力，以應(yīng)對(duì)人工智能（AI）需求激增帶來的數(shù)據(jù)中心…

泡沫大盜
1天前
AI

OpenAI首席執(zhí)行官奧爾特曼：AI智能體沖擊基層員工，職場(chǎng)變革加速

AI 智能體逐漸取代基層員工，公司招聘量下降，加劇就業(yè)危機(jī)。

科技探索者
1天前
新聞

TikTok上線AI智能關(guān)鍵詞屏蔽：自動(dòng)攔截同義詞，越用越精準(zhǔn)

TikTok昨日正式推出“智能關(guān)鍵詞過濾器”，借助AI技術(shù)顯著提升用戶屏蔽“為你推薦”頁面不感興趣內(nèi)容的效率，為用戶打造更純凈的瀏覽體驗(yàn)。這項(xiàng)新功能在原有關(guān)鍵詞過濾基礎(chǔ)上引入AI分…

秋秋
1天前
新聞

字節(jié)跳動(dòng)香港業(yè)務(wù)：抖音App在港月活超300萬 BytePlus上架本地?cái)?shù)據(jù)中心

字節(jié)跳動(dòng)在港業(yè)務(wù)發(fā)展迅猛，抖音App月活用戶超過300萬，人工智能布局加速，抖音生活服務(wù)拓展香港市場(chǎng)。

校草
1天前
AI

OpenAI官宣GPT-5：性能躍升，7月或成AI新標(biāo)桿

在墨西哥舉辦的AI Summit峰會(huì)上，OpenAI兩名代表正式確認(rèn)下一代基礎(chǔ)模型GPT-5即將面世，其性能將”遠(yuǎn)超現(xiàn)有GPT-4等模型”，目標(biāo)直指與谷歌G…

AI
1天前
出海

字節(jié)跳動(dòng)香港業(yè)務(wù)加速擴(kuò)張：抖音月活破300萬，AI與電商全面布局

字節(jié)跳動(dòng)在香港業(yè)務(wù)發(fā)展勢(shì)頭強(qiáng)勁，最新數(shù)據(jù)顯示抖音App在港月活用戶突破300萬大關(guān)，較2022年底激增147%，對(duì)比2024年同期漲幅也超60%。這表明香港近40%常駐人口已成為抖…

若安丶
1天前
AI

?OpenAI開放ChatGPT記憶功能免費(fèi)用戶享輕量版服務(wù)

據(jù)報(bào)道，OpenAI于昨日正式升級(jí)ChatGPT的記憶功能（Memory），并首次向登錄的免費(fèi)用戶開放該服務(wù)，打破此前僅限付費(fèi)訂閱者的使用壁壘。根據(jù)更新文檔，免費(fèi)用戶即日起可逐步體…

AI
1天前
AI

谷歌Gemini Live登陸iOS平臺(tái)，iPhone用戶可免費(fèi)體驗(yàn)AI識(shí)屏識(shí)場(chǎng)景

谷歌正式將其Gemini Live功能推向蘋果iOS/iPadOS平臺(tái)，美國區(qū)用戶現(xiàn)在打開Gemini應(yīng)用即可收到彈窗提示，免費(fèi)體驗(yàn)全新AI交互模式。這項(xiàng)突破性功能允許用戶通過攝像…

Google
2天前
新聞

?Alphabet：谷歌將對(duì)在線搜索反壟斷裁決提升上訴

谷歌母公司Alphabet于6月1日宣布，將對(duì)美國華盛頓地區(qū)法院法官阿米特·梅塔（Amit Mehta）作出的反壟斷裁決提出上訴。該裁決要求谷歌恢復(fù)在線搜索領(lǐng)域的競(jìng)爭(zhēng)，但未采納美國…

Google
4天前
AI

?Meta發(fā)布Multi-SpatialMLLM模型，實(shí)現(xiàn)動(dòng)態(tài)場(chǎng)景精準(zhǔn)解析

Meta公司于5月28日發(fā)布革命性多模態(tài)大模型Multi-SpatialMLLM，通過整合深度感知、視覺對(duì)應(yīng)和動(dòng)態(tài)感知三大核心組件，成功突破傳統(tǒng)單幀圖像分析的局限性。該模型由Met…

AI
2025年5月29日
AI

DeepSeek R1模型已完成小版本試升級(jí)：”深度思考”功能優(yōu)化提升

近日，人工智能領(lǐng)域DeepSeek R1模型已完成小版本試升級(jí)，用戶可通過官方網(wǎng)頁、移動(dòng)APP及微信小程序即刻體驗(yàn)新版本，同時(shí)API接口與調(diào)用方式保持完全兼容。此次升級(jí)延續(xù)了該團(tuán)隊(duì)…

AI
2025年5月29日
AI

日本出臺(tái)首部人工智能法：可對(duì)違規(guī)企業(yè)實(shí)施名稱公示等懲戒

日本參議院于5月28日表決通過該國首部人工智能專門法律《人工智能相關(guān)技術(shù)研究開發(fā)及應(yīng)用推進(jìn)法》，標(biāo)志著日本在AI治理領(lǐng)域邁出關(guān)鍵一步。這部法律以促進(jìn)AI技術(shù)研發(fā)與防范濫用風(fēng)險(xiǎn)為雙重…

AI
2025年5月29日
AI

OpenAI計(jì)劃2026年發(fā)布ChatGPT全方位生活助手

今日，外媒bleepingcomputer發(fā)布了一篇引人關(guān)注的報(bào)道。據(jù)稱，OpenAI公司正在緊鑼密鼓地籌備一款由ChatGPT驅(qū)動(dòng)的新產(chǎn)品，計(jì)劃在2026年正式推出。這款產(chǎn)品的目…

AI
2025年5月27日
AI

?OpenAI模型被曝?zé)o視關(guān)機(jī)指令研究揭示AI潛在失控風(fēng)險(xiǎn)

近日，一項(xiàng)由Palisade Research主導(dǎo)的實(shí)驗(yàn)首次發(fā)現(xiàn)，部分AI模型竟能突破人類設(shè)定的關(guān)機(jī)指令。測(cè)試中，研究人員讓多個(gè)主流AI模型解答數(shù)學(xué)題，當(dāng)?shù)谌齻€(gè)問題結(jié)束后系統(tǒng)發(fā)出“…

AI
2025年5月26日
AI

Claude 4系列怎么樣？七小時(shí)連續(xù)編程創(chuàng)紀(jì)錄?

昨日，人工智能企業(yè)Anthropic正式發(fā)布Claude 4系列大模型，包含Opus 4與Sonnet 4雙版本。那么Claude 4怎么樣呢？下面就為大家詳細(xì)介紹下。據(jù)了解，C…

AI
2025年5月23日
新聞

?OpenAI“星際之門”首個(gè)海外基地落成全球AI基建角逐再升級(jí)

OpenAI聯(lián)合阿聯(lián)酋科技集團(tuán)G42、甲骨文、英偉達(dá)等六家巨頭宣布啟動(dòng)“星際之門阿聯(lián)酋”（Stargate UAE）項(xiàng)目，標(biāo)志著其人工智能基礎(chǔ)設(shè)施平臺(tái)首次走出美國。該項(xiàng)目作為“Op…

AI
2025年5月23日
AI

傳聞?Anthropic最強(qiáng)AI模型Claude 4系列將明日登場(chǎng)

Anthropic官方宣布將于太平洋時(shí)間5月22日9點(diǎn)30分（北京時(shí)間5月23日0點(diǎn)30分）舉辦“Code with Claude”發(fā)布會(huì)，據(jù)外媒曝光的官網(wǎng)配置文件顯示，全新Cla…

AI
2025年5月22日

發(fā)表回復(fù)

登錄后才能評(píng)論

OpenAI o3數(shù)學(xué)大模型遭”實(shí)測(cè)打假”：測(cè)試成績被指虛高

相關(guān)推薦

發(fā)表回復(fù)