OpenAI 上線安全評(píng)估中心,定期公開 AI 模型評(píng)估結(jié)果以提升透明度

OpenAI 將公開內(nèi)部人工智能模型安全評(píng)估結(jié)果,以提高透明度。安全評(píng)估中心將展示模型在有害內(nèi)容生成、模型越獄以及幻覺現(xiàn)象等方面的測(cè)試表現(xiàn)。OpenAI 旨在支持透明度,發(fā)布更多評(píng)估項(xiàng)目。

5 月 15 日消息,OpenAI 宣布將更頻繁地公開其內(nèi)部人工智能模型的安全評(píng)估結(jié)果,以提高透明度。該公司于周三正式上線了“安全評(píng)估中心”網(wǎng)頁,旨在展示其模型在有害內(nèi)容生成、模型越獄以及幻覺現(xiàn)象等方面的測(cè)試表現(xiàn)。

OpenAI 上線安全評(píng)估中心,定期公開 AI 模型評(píng)估結(jié)果以提升透明度

OpenAI 表示,該安全評(píng)估中心將用于持續(xù)發(fā)布模型相關(guān)指標(biāo),并計(jì)劃在未來的重大模型更新后及時(shí)更新網(wǎng)頁內(nèi)容。OpenAI 在一篇博客文章中寫道:“隨著人工智能評(píng)估科學(xué)的不斷發(fā)展,我們致力于分享我們?cè)陂_發(fā)更具可擴(kuò)展性的模型能力與安全評(píng)估方法方面的進(jìn)展?!痹摴具€強(qiáng)調(diào),通過在此公開部分安全評(píng)估結(jié)果,不僅希望讓用戶更清晰地了解 OpenAI 系統(tǒng)隨時(shí)間的安全性能變化,也期望能夠支持整個(gè)行業(yè)在透明度方面的共同努力。此外,OpenAI 提到可能會(huì)隨著時(shí)間推移在該中心增加更多評(píng)估項(xiàng)目。

此前,OpenAI 曾因部分旗艦?zāi)P偷陌踩珳y(cè)試流程過快以及未發(fā)布其他模型的技術(shù)報(bào)告而受到一些倫理學(xué)家的批評(píng)。公司首席執(zhí)行官山姆?奧爾特曼(Sam Altman)也因被指在 2023 年 11 月短暫被免職前誤導(dǎo)公司高管關(guān)于模型安全審查的問題而備受爭(zhēng)議。

就在上個(gè)月末,OpenAI 不得不撤銷對(duì) ChatGPT 默認(rèn)模型 GPT-4o 的一次更新。原因是用戶報(bào)告稱該模型的回應(yīng)方式過于“諂媚”,甚至對(duì)一些有問題的、危險(xiǎn)的決策和想法也表示贊同。針對(duì)這一事件,OpenAI 表示將采取一系列修復(fù)和改進(jìn)措施,以防止類似事件再次發(fā)生。其中包括為部分模型引入一個(gè)可選的“alpha 階段”,允許部分 ChatGPT 用戶在模型正式發(fā)布前進(jìn)行測(cè)試并提供反饋。

原創(chuàng)文章,作者:好奇寶寶,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.2079x.cn/article/719231.html

好奇寶寶的頭像好奇寶寶認(rèn)證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論