OpenAI推出SimpleQA基準，專治AI模型“胡言亂語”

AI ? 2024年10月31日 15:30:00 ? 新聞

近日，OpenAI宣布推出一個新的基準測試工具SimpleQA，旨在衡量語言模型在回答簡短事實尋求問題時的準確性。這一舉措針對的是AI領(lǐng)域中的一個長期難題：如何訓(xùn)練模型生成事實正確的回答。

當前的語言模型在生成回答時，有時會產(chǎn)生錯誤或未經(jīng)證實的答案，這種現(xiàn)象被稱為“幻覺”。為了提高模型的可靠性，OpenAI設(shè)計了SimpleQA這一基準測試。SimpleQA的數(shù)據(jù)集具備高正確性、多樣性和前沿挑戰(zhàn)性等特點。問題的參考答案由兩名獨立的AI訓(xùn)練師驗證，以確保評分的公正性。同時，SimpleQA涵蓋廣泛主題，從科學(xué)技術(shù)到電視節(jié)目與電子游戲等應(yīng)有盡有，以測試模型在不同領(lǐng)域的知識掌握情況。

與早期的基準測試相比，SimpleQA更具挑戰(zhàn)性。例如，在針對前沿模型GPT-4o的測試中，其得分不足40%。此外，SimpleQA的問題與答案簡潔明了，使操作快速高效，并可通過OpenAI API等進行快速評分。包含4326道問題的SimpleQA在評估中具有較低的方差，能夠提供穩(wěn)定的測試結(jié)果。

OpenAI表示，SimpleQA是一個簡單但具有挑戰(zhàn)性的基準，用于評估前沿模型的事實準確性。然而，SimpleQA的主要限制在于其范圍有限，只在短查詢的受限設(shè)置中測量事實準確性。因此，模型在短回答中表現(xiàn)出的事實性是否與其在長篇、多事實內(nèi)容中的表現(xiàn)相關(guān)，仍是一個懸而未決的研究課題。

OpenAI希望通過開源SimpleQA，進一步推動AI研究的發(fā)展，使模型更加可信并富有可靠性。這一舉措有望為AI領(lǐng)域的發(fā)展注入新的動力，促進更加準確、可靠的AI模型的誕生。

原創(chuàng)文章，作者：AI，如若轉(zhuǎn)載，請注明出處：http://m.2079x.cn/article/690044.html

OpenAI SimpleQA

AI認證作者

0 0

AI

OpenAI計劃2026年發(fā)布ChatGPT全方位生活助手

今日，外媒bleepingcomputer發(fā)布了一篇引人關(guān)注的報道。據(jù)稱，OpenAI公司正在緊鑼密鼓地籌備一款由ChatGPT驅(qū)動的新產(chǎn)品，計劃在2026年正式推出。這款產(chǎn)品的目…

AI
3天前
AI

?OpenAI模型被曝?zé)o視關(guān)機指令研究揭示AI潛在失控風(fēng)險

近日，一項由Palisade Research主導(dǎo)的實驗首次發(fā)現(xiàn)，部分AI模型竟能突破人類設(shè)定的關(guān)機指令。測試中，研究人員讓多個主流AI模型解答數(shù)學(xué)題，當?shù)谌齻€問題結(jié)束后系統(tǒng)發(fā)出“…

AI
4天前
新聞

?OpenAI“星際之門”首個海外基地落成全球AI基建角逐再升級

OpenAI聯(lián)合阿聯(lián)酋科技集團G42、甲骨文、英偉達等六家巨頭宣布啟動“星際之門阿聯(lián)酋”（Stargate UAE）項目，標志著其人工智能基礎(chǔ)設(shè)施平臺首次走出美國。該項目作為“Op…

AI
2025年5月23日
商業(yè)

?OpenAI宣布65億美元收購Jony Ive初創(chuàng)公司io

OpenAI于5月22日宣布以65億美元全股票收購前蘋果首席設(shè)計官Jony Ive創(chuàng)立的AI設(shè)備公司io，創(chuàng)下該公司史上最大并購記錄。此次交易不僅整合了io團隊55名硬件工程師及制…

李小白
2025年5月22日
AI

OpenAI ChatGPT上線“錄音速記”功能

近日，科技博主@M1Astra在社交平臺X爆料稱，OpenAI正測試一款名為“Record”的會議輔助工具，或?qū)⒅苯又踩隒hatGPT。這一功能瞄準線上會議場景，用戶只需按住按鈕說…

AI
2025年5月16日
AI

OpenAI 上線安全評估中心，定期公開 AI 模型評估結(jié)果以提升透明度

OpenAI 將公開內(nèi)部人工智能模型安全評估結(jié)果，以提高透明度。安全評估中心將展示模型在有害內(nèi)容生成、模型越獄以及幻覺現(xiàn)象等方面的測試表現(xiàn)。OpenAI 旨在支持透明度，發(fā)布更多評估項目。

好奇寶寶
2025年5月15日
AI

OpenAI 升級 ChatGPT AI 聊天機器人，GPT-4.1 編程專家模型登場

OpenAI在X平臺上發(fā)布ChatGPT AI聊天機器人中引入GPT-4.1模型，特別擅長處理編程任務(wù)，提高效率，性能與最新版GPT-4o相當，更全面提升。

李森
2025年5月15日
AI

ChatGPT Deep Research如何重塑開發(fā)者工作流？一文幫你梳理清晰

在軟件開發(fā)領(lǐng)域，理解復(fù)雜代碼庫一直是一項極具挑戰(zhàn)性的任務(wù)。傳統(tǒng)方式下，開發(fā)者需要耗費數(shù)天甚至數(shù)周時間逐行閱讀代碼、梳理架構(gòu)邏輯。然而，OpenAI最新推出的ChatGPT Deep…

潮玩君
2025年5月15日
商業(yè)

?馬斯克旗下xAI新一輪融資或?qū)_刺1200億美元估值逼近OpenAI

據(jù)知情人士今日透露，特斯拉CEO埃隆·馬斯克創(chuàng)立的AI公司xAI正啟動新一輪融資談判，潛在xAI估值或達1200億美元（約合8687億元人民幣），成為全球估值第二高的人工智能企業(yè)，…

商業(yè)頭條
2025年5月9日
AI

ChatGPT訂閱模式或迎重大變革：周費制與終身會員浮出水面

據(jù)報道，人工智能研究機構(gòu)OpenAI近日被曝正在醞釀訂閱服務(wù)升級。昨日，科技媒體披露其開發(fā)代碼中隱藏著突破性付費選項。據(jù)社交平臺用戶@M1逆向工程發(fā)現(xiàn)，新版ChatGPT客戶端內(nèi)嵌…

AI
2025年5月9日
新聞

OpenAI被曝大幅削減微軟分成比例 2030年前或砍半

據(jù)外媒The Information報道，OpenAI在最新資本重組計劃中提出，擬削減對微軟的收入分成比例。根據(jù)公司向投資者披露的文件，到2030年底，給予微軟的分成比例將從現(xiàn)行2…

net
2025年5月8日
AI

OpenAI啟動”星際之門”全球擴張：5000億美元AI數(shù)據(jù)中心劍指法德英

據(jù)?英國金融時報披露，OpenAI正加速推進其估值5000億美元的”星際之門”（Stargate）人工智能數(shù)據(jù)中心項目全球化布局。該公司全球事務(wù)副總裁Chr…

AI
2025年5月8日
商業(yè)

OpenAI豪擲30億美元收購編程巨頭Windsurf AI代碼助手賽道風(fēng)云再起

據(jù)彭博社最新報道，人工智能領(lǐng)軍企業(yè)OpenAI已就收購AI編程助手開發(fā)商Windsurf（注冊名Exafunction Inc.）達成初步協(xié)議，交易估值高達30億美元（約合217.…

商業(yè)頭條
2025年5月6日
AI

?ChatGPT搜索上線網(wǎng)購功能：智能推薦+無廣告模式重新定義購物體驗

今日，OpenAI在X平臺宣布，ChatGPT搜索功能正式上線網(wǎng)購服務(wù)，覆蓋時尚、美妝、家居用品及電子產(chǎn)品等類目。用戶可通過自然提問獲取商品推薦，系統(tǒng)將同步展示產(chǎn)品詳情、用戶評價及…

AI
2025年4月29日
新聞

ChatGPT殺入電商賽道：一鍵直達商家頁面，免登錄也能買買買

OpenAI于4月29日宣布，即日起ChatGPT殺入電商賽道，所有用戶均可通過ChatGPT直接購買商品，無需注冊或登錄賬戶。用戶點擊對話界面新增的“購物按鈕”后，系統(tǒng)將基于歷史…

檸萌
2025年4月29日
AI

OpenAI開放免費體驗！Deep Research輕量版AI搜索功能上線

人工智能公司OpenAI近日宣布，面向全體用戶推出輕量版Deep Research AI搜索功能。新功能基于o4-mini模型開發(fā)，免費用戶每月可獲得5次使用機會，付費用戶將根據(jù)訂…

AI
2025年4月27日
新聞

?傳媒巨頭Ziff Davis起訴OpenAI：指控非法抓取數(shù)百萬文章訓(xùn)練AI

據(jù)外媒報道稱，美國數(shù)字媒體集團Ziff Davis正式向紐約聯(lián)邦法院提起訴訟，指控人工智能公司OpenAI在未經(jīng)授權(quán)的情況下，“系統(tǒng)性復(fù)制”其旗下包括CNET、PCMag等45個媒…

小丸子
2025年4月25日
AI

OpenAI全面開放Deep Research：免費用戶首獲輕量版

今日，OpenAI宣布對其核心產(chǎn)品Deep Research進行重大升級。即日起，所有免費用戶均可使用輕量版服務(wù)，Plus、Team和Pro用戶則獲得更高頻次調(diào)用權(quán)限，而企業(yè)與教育…

AI
2025年4月25日
AI

OpenAI計劃開源首款A(yù)I模型推理性能對標Meta、谷歌

近日，OpenAI正式確認將推出自2019年GPT-2以來的首個開源語言模型。據(jù)知情人士透露，該模型由研究副總裁Aidan Clark主導(dǎo)開發(fā)，計劃于今年夏季初發(fā)布，其核心目標是在…

AI
2025年4月24日
產(chǎn)品

OpenAI或?qū)⑹召徆雀鐲hrome 反壟斷案庭審曝重磅合作內(nèi)幕?

4月23日，美國司法部針對谷歌的反壟斷案庭審曝出驚人消息：OpenAI高管出庭作證稱，該公司曾試圖與谷歌達成搜索技術(shù)合作但遭拒絕，而司法部正推動強制拆分谷歌Chrome瀏覽器及數(shù)字…

科技探索者
2025年4月23日