OpenAI公布大模型新訓(xùn)練方法:阻止ChatGPT“胡說(shuō)八道”

OpenAI公司通過(guò)論文介紹了一種全新的方法,來(lái)訓(xùn)練生成式人工智能語(yǔ)言模型

6月1日,據(jù)報(bào)道,當(dāng)?shù)貢r(shí)間周三,OpenAI公司通過(guò)論文介紹了一種全新的方法,來(lái)訓(xùn)練生成式人工智能語(yǔ)言模型。

OpenAI這一研究成果來(lái)得很是時(shí)候,最近,隨著生成式人工智能技術(shù)流行,以及美國(guó)2024年總統(tǒng)大選初步啟動(dòng),人工智能“胡說(shuō)八道”的問(wèn)題引發(fā)了史無(wú)前例的關(guān)注和討論。

去年,OpenAI公司推出了人工智能對(duì)話撰稿工具ChatGPT,背后依托于GPT3和GPT4語(yǔ)言模型。ChatGPT的優(yōu)秀表現(xiàn)在全世界掀起了生成式人工智能的一股風(fēng)暴,兩個(gè)月之內(nèi),相關(guān)服務(wù)的月度活躍用戶超過(guò)了一億人,用戶增長(zhǎng)速度創(chuàng)造了新的世界紀(jì)錄。

OpenAI背后的大股東之一是微軟,微軟已經(jīng)累計(jì)對(duì)該公司投資130億美元。目前,OpenAI的市值大約為290億美元。

人工智能“胡說(shuō)八道”,術(shù)語(yǔ)上也被稱為“AI幻覺(jué)”。面對(duì)用戶的提問(wèn),ChatGPT以及谷歌的Bard等工具會(huì)杜撰出一些虛假信息,看上去像是權(quán)威正確的答案。

比如,今年2月谷歌針對(duì)Bard工具推出了一個(gè)演示視頻,視頻中Bard有關(guān)美國(guó)韋伯太空望遠(yuǎn)鏡的描述就存在錯(cuò)誤。此外,美國(guó)紐約的幾位律師最近使用ChatGPT撰寫法律文件,ChatGPT描述了完全虛構(gòu)的案例,這些律師將面臨處罰。

OpenAI公司的研究人員表示,即使是最先進(jìn)的人工智能模型也會(huì)杜撰虛假信息,尤其是在拿不準(zhǔn)的時(shí)候,它們往往傾向于編造事實(shí)。

研究人員表示,在要求多步驟推理的領(lǐng)域,人工智能胡編的后果尤為嚴(yán)重,因?yàn)橐粋€(gè)單一的邏輯錯(cuò)誤會(huì)導(dǎo)致整個(gè)解決方案“翻車”。

OpenAI準(zhǔn)備采用新戰(zhàn)略,防止人工智能胡編。比如在過(guò)去,一旦提供一個(gè)正確的最終答案,模型會(huì)獲得某種鼓勵(lì),但是以后,在每一個(gè)單一的邏輯推理環(huán)節(jié)如果表現(xiàn)正確,就將獲得鼓勵(lì)反饋。這種模式也被稱之為“過(guò)程監(jiān)督”(以往的模式術(shù)語(yǔ)“結(jié)果監(jiān)督”)。

研究人員表示,“過(guò)程監(jiān)督”模式有助于產(chǎn)生更加清晰合理的回答,它將會(huì)鼓勵(lì)生成式人工智能能夠像人類一樣,在推理思考中做到“環(huán)環(huán)相扣”。

OpenAI公司“隨機(jī)生成數(shù)學(xué)”研究專家卡爾·柯比(Karl Cobbe)表示,發(fā)現(xiàn)并且減少人工智能模型的邏輯錯(cuò)誤,也就是“AI幻覺(jué)”,是構(gòu)建“通用人工智能”的關(guān)鍵一步。另外,“過(guò)程監(jiān)督”模式并非OpenAI公司發(fā)明,但是該公司正在加以推廣普及。

柯比表示,新方法的目的,是解決人工智能胡編問(wèn)題,從而讓語(yǔ)言模型能夠解決更加復(fù)雜的推理難題。

這位專家介紹,OpenAI已經(jīng)發(fā)布了一個(gè)研究使用的數(shù)據(jù)集,包括80萬(wàn)條人工標(biāo)簽,可用上述新模式訓(xùn)練語(yǔ)言模型。

不過(guò),美國(guó)電子隱私信息中心的資深律師本·魏特斯(Ben Winters)對(duì)這種新的訓(xùn)練模式表示質(zhì)疑,他希望親自查看OpenAI的完整數(shù)據(jù)集,以及相關(guān)的例子。

魏特斯表示,目前生成式人工智能還處于野蠻生長(zhǎng)時(shí)代,OpenAI的新模式還無(wú)法實(shí)質(zhì)性緩解AI胡編亂造錯(cuò)誤答案的問(wèn)題。

這位律師表示,最重要的是,OpenAI是否會(huì)將一些研究論文成果部署到實(shí)際產(chǎn)品中,如果沒(méi)有這樣的計(jì)劃,這將會(huì)引發(fā)社會(huì)質(zhì)疑,即他們到底要向公眾發(fā)布怎樣的最終產(chǎn)品。

美國(guó)布朗大學(xué)的學(xué)者維克塔(Suresh Venkatasubramanian)表示,目前還不清楚OpenAI的研究論文是否經(jīng)過(guò)了同行評(píng)議,他認(rèn)為這一研究還僅僅停留在“初步觀察”階段。

維克塔表示,在做出某種確定性結(jié)論之前,研究論文還需要在學(xué)術(shù)圈子內(nèi)進(jìn)行更多傳播。他認(rèn)為,如今,人工智能領(lǐng)域每天都會(huì)有很多研究成果,但是“大型語(yǔ)言模型”在工作時(shí)存在不穩(wěn)定性,因此在某種條件、背景或者模式下的運(yùn)行結(jié)果,可能無(wú)法應(yīng)用于另外一種條件、背景或模式。

維克塔認(rèn)為,在人工智能胡編的問(wèn)題中,包括了語(yǔ)言模型胡編一些他人引言或者參考信息。OpenAI的新論文并沒(méi)有證據(jù)能解決這一問(wèn)題。

OpenAI專家柯比表示,未來(lái)將會(huì)在學(xué)術(shù)會(huì)議上把論文交給其他人,進(jìn)行同行評(píng)議。對(duì)于何時(shí)將會(huì)把研究成果和“過(guò)程監(jiān)督”整合到ChatGPT等最終產(chǎn)品中,OpenAI尚未發(fā)表官方評(píng)論。

美國(guó)人工智能研究專家薩拉·邁爾斯·韋斯特(Sarah Myers West)表示,人工智能公司開(kāi)始解決虛假答案問(wèn)題,這是一個(gè)好消息,但OpenAI目前的論文還停留在“公司內(nèi)部研究”的階段,還需要攻克更多難關(guān)。

韋斯特表示,在論文中,OpenAI發(fā)布一個(gè)“人類級(jí)反饋”的小規(guī)模數(shù)據(jù)集,但是并沒(méi)有訓(xùn)練GPT4模型所用數(shù)據(jù)的更多介紹。雖然生成式人工智能已經(jīng)開(kāi)始改變普通人的工作生活,但是距離“負(fù)責(zé)任的人工智能應(yīng)用”,還存在相當(dāng)多的技術(shù)挑戰(zhàn)。

原創(chuàng)文章,作者:蘋果派,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.2079x.cn/article/572147.html

蘋果派的頭像蘋果派管理團(tuán)隊(duì)

相關(guān)推薦