OpenAI推出SimpleQA基準(zhǔn),專治AI模型“胡言亂語”

OpenAI推出SimpleQA基準(zhǔn),專治AI模型“胡言亂語”

近日,OpenAI宣布推出一個(gè)新的基準(zhǔn)測(cè)試工具SimpleQA,旨在衡量語言模型在回答簡(jiǎn)短事實(shí)尋求問題時(shí)的準(zhǔn)確性。這一舉措針對(duì)的是AI領(lǐng)域中的一個(gè)長期難題:如何訓(xùn)練模型生成事實(shí)正確的回答。

當(dāng)前的語言模型在生成回答時(shí),有時(shí)會(huì)產(chǎn)生錯(cuò)誤或未經(jīng)證實(shí)的答案,這種現(xiàn)象被稱為“幻覺”。為了提高模型的可靠性,OpenAI設(shè)計(jì)了SimpleQA這一基準(zhǔn)測(cè)試。SimpleQA的數(shù)據(jù)集具備高正確性、多樣性和前沿挑戰(zhàn)性等特點(diǎn)。問題的參考答案由兩名獨(dú)立的AI訓(xùn)練師驗(yàn)證,以確保評(píng)分的公正性。同時(shí),SimpleQA涵蓋廣泛主題,從科學(xué)技術(shù)到電視節(jié)目與電子游戲等應(yīng)有盡有,以測(cè)試模型在不同領(lǐng)域的知識(shí)掌握情況。

與早期的基準(zhǔn)測(cè)試相比,SimpleQA更具挑戰(zhàn)性。例如,在針對(duì)前沿模型GPT-4o的測(cè)試中,其得分不足40%。此外,SimpleQA的問題與答案簡(jiǎn)潔明了,使操作快速高效,并可通過OpenAI API等進(jìn)行快速評(píng)分。包含4326道問題的SimpleQA在評(píng)估中具有較低的方差,能夠提供穩(wěn)定的測(cè)試結(jié)果。

OpenAI表示,SimpleQA是一個(gè)簡(jiǎn)單但具有挑戰(zhàn)性的基準(zhǔn),用于評(píng)估前沿模型的事實(shí)準(zhǔn)確性。然而,SimpleQA的主要限制在于其范圍有限,只在短查詢的受限設(shè)置中測(cè)量事實(shí)準(zhǔn)確性。因此,模型在短回答中表現(xiàn)出的事實(shí)性是否與其在長篇、多事實(shí)內(nèi)容中的表現(xiàn)相關(guān),仍是一個(gè)懸而未決的研究課題。

OpenAI希望通過開源SimpleQA,進(jìn)一步推動(dòng)AI研究的發(fā)展,使模型更加可信并富有可靠性。這一舉措有望為AI領(lǐng)域的發(fā)展注入新的動(dòng)力,促進(jìn)更加準(zhǔn)確、可靠的AI模型的誕生。

原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.2079x.cn/article/690044.html

AI的頭像AI認(rèn)證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論