ChatGPT-4o登頂大模型競技場(chǎng),OpenAI重奪第一寶座

ChatGPT-4o登頂大模型競技場(chǎng),OpenAI重奪第一寶座

在今日的OpenAI開發(fā)者日新加坡站活動(dòng)中,ChatGPT再次展現(xiàn)了其強(qiáng)大的競爭力。最新版本的ChatGPT-4o(以下簡稱4o)在更新后,成功擊敗了此前排名第一的谷歌Gemini,重新奪回了大模型競技場(chǎng)的冠軍寶座。

此次4o的更新主要集中在“創(chuàng)意寫作能力”上。據(jù)OpenAI官方介紹,新版模型能夠完成更自然、更有吸引力、更具針對(duì)性的寫作,文本相關(guān)性和可讀性也得到了顯著提升。此外,4o還能更好地處理上傳的文件,提供更深入的見解和更全面的響應(yīng)。

作為Canvas功能的一部分,OpenAI希望通過改進(jìn)寫作來推動(dòng)人機(jī)協(xié)作方式的變革,更具創(chuàng)造性地完成寫作任務(wù)。o1核心貢獻(xiàn)者Karina Nguyen表示,盡管寫作這一研究領(lǐng)域非常主觀且開放,但4o在寫作方面的進(jìn)展是AGI(通用人工智能)創(chuàng)造性智能的關(guān)鍵。

在大模型競技場(chǎng)的創(chuàng)意寫作分榜上,新版4o(ChatGPT-4o-1120)的分?jǐn)?shù)從上個(gè)版本的1365提升到了1402,確實(shí)展現(xiàn)出了明顯的提升。而在其他能力分榜上,4o也取得了不俗的成績。在代碼能力方面,從第2位升至第1位;在數(shù)學(xué)能力方面,從第4位升至第3位;在困難任務(wù)方面,同樣從第2位升至第1位。此外,在風(fēng)格控制分榜上,4o依然位居首位。

在與其他模型的對(duì)比中,新版4o也展現(xiàn)出了強(qiáng)大的競爭力。在對(duì)上此前登頂?shù)腉emini-Exp-1114時(shí),勝率為59%;對(duì)上Claude 3.5 Sonnet時(shí),勝率為69%;而對(duì)上5月版本的4o時(shí),更是在72%的情況下都能取勝。

然而,盡管4o取得了如此優(yōu)異的成績,但不少網(wǎng)友仍然對(duì)OpenAI未能推出傳聞中的o1滿血版表示不滿。有人認(rèn)為,OpenAI此次更新4o只是為了奪回競技場(chǎng)的第一名,而并非真正滿足用戶的期待。不過,也有網(wǎng)友對(duì)4o的更新進(jìn)行了認(rèn)真研究,并發(fā)現(xiàn)了其在系統(tǒng)提示詞方面的改進(jìn),如新增了一道護(hù)欄,確保ChatGPT不在敏感話題上胡說八道。

總的來說,ChatGPT-4o的更新無疑為OpenAI重奪大模型競技場(chǎng)的第一寶座增添了新的動(dòng)力。盡管仍有一些用戶對(duì)其未能推出o1滿血版表示不滿,但4o在創(chuàng)意寫作能力等方面的提升仍然值得肯定。未來,隨著技術(shù)的不斷進(jìn)步和用戶需求的不斷變化,ChatGPT將繼續(xù)努力提升自己的能力,為用戶提供更加優(yōu)質(zhì)、便捷的服務(wù)。

現(xiàn)在,如果你對(duì)新版4o的創(chuàng)意寫作能力感興趣,可以前往大模型競技場(chǎng)進(jìn)行免費(fèi)試用。相信你會(huì)被它的強(qiáng)大功能所折服。

原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.2079x.cn/article/694548.html

AI的頭像AI認(rèn)證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論