多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

8月15日,科大訊飛發(fā)布星火認(rèn)知大模型2.0,各項(xiàng)性能持續(xù)提升的同時(shí),代碼和多模態(tài)能力迎來(lái)全新突破。在發(fā)布會(huì)上,劉慶峰表示,訊飛星火2.0的多模態(tài)能力處于業(yè)內(nèi)領(lǐng)先位置。

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

而日前,據(jù)新華社研究院中國(guó)企業(yè)發(fā)展研究中心發(fā)布的《人工智能大模型體驗(yàn)報(bào)告2.0》顯示,訊飛星火1.5在智商指數(shù)和工具提效指數(shù)兩個(gè)維度獲得第一,總分1013分,僅比人類優(yōu)秀答案差1分。

訊飛星火多模態(tài)能力究竟如何?今天我們就從一個(gè)普通用戶的角度,將它和百度文心一言,360智能這兩大模型做一個(gè)簡(jiǎn)單對(duì)比。

之所以選擇這兩大模型為靶的,是因?yàn)橄噍^于商湯商量、智譜ChatGLM等以企業(yè)用戶為主的產(chǎn)品來(lái)說(shuō),訊飛星火、文心一言和360智腦是普通用戶最容易、也是最常接觸到的大模型。

測(cè)試內(nèi)容主要包括目前在幾大模型中用戶可免費(fèi)使用的通用能力,即:?jiǎn)我粓D片生成、多輪圖片生成(即在第一幅畫的基礎(chǔ)上進(jìn)行修改)、圖片解讀和看圖作文等。

之所以沒(méi)有將音頻和視頻生成納入評(píng)測(cè)范圍,是因?yàn)槟壳皣?guó)內(nèi)主流大模型,還沒(méi)有免費(fèi)開(kāi)放這兩項(xiàng)能力。

1.單一圖片生成

任務(wù)1:畫座雪山,雪山上有登山者和登山者的帳篷,時(shí)間是中午,陽(yáng)光明媚,登山者正在帳篷外吃飯。

訊飛星火

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

文心一言

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

360智腦

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

在該組指令中,科大訊飛星火和百度文心一言大模型均根據(jù)要求,完整照顧到了雪山、登山者、帳篷、中午,陽(yáng)光明媚和吃飯等幾大要素。

360智腦雖然突出了雪山和帳篷,卻忽略了登山者和吃飯這兩大要求,而且有些畫面也沒(méi)有表現(xiàn)出時(shí)間是中午且陽(yáng)光明媚的意境,總體表現(xiàn)稍嫌拉胯。

360智腦的最大優(yōu)勢(shì)是它同時(shí)能生成四幅圖片供用戶選擇,在這一點(diǎn)上,值得訊飛星火和文心一言效果差不多。

任務(wù)2:請(qǐng)根據(jù)“枯藤老樹(shù)昏鴉,小橋流水人家”這句詩(shī)畫一幅畫

訊飛星火

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

文心一言

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

      360智腦

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

該組指令要求畫面包含7大要素:枯藤、老樹(shù)、黃昏、烏鴉,小橋、流水、人家。從生成效果看,訊飛星火幾乎完美地體現(xiàn)了所有要素,只是在“黃昏”這一要素中,由于它采用的是傳統(tǒng)水墨畫方式,不太容易看出來(lái),所以不好斷定。

文心一言則描繪出了小橋、流水、人家,而忽視了枯藤和烏鴉。它雖然畫出了樹(shù),但明顯不是老樹(shù),與指令不符。而在時(shí)段方面,它與訊飛星火一樣,很難斷定表現(xiàn)的是不是黃昏景色。

至于360智腦,雖然明顯表現(xiàn)出了“黃昏”這一主題,有些畫中還突出了烏鴉,但卻直接無(wú)視了“小橋、流水、人家”三大要素,與指令相差較遠(yuǎn)。

任務(wù)3請(qǐng)寫出李白的《靜夜思》;根據(jù)這首詩(shī)畫幅畫。

訊飛星火

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

文心一言

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

360智腦

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

這一指令牽涉到多輪對(duì)話,三大模型均能按照要求輕松寫出李白《靜夜思》這首詩(shī),但在第二指令中,只有訊飛星火完整體現(xiàn)出了詩(shī)中所涉及到的“床”“明月”人”三大要素,畫意與詩(shī)意的契合度最高。

其次是文心一言,雖然沒(méi)有“床”,明月看上去應(yīng)該是太陽(yáng),但起碼詩(shī)味十足,畫中的主人神色凝重,瞅著的確是在思念什么。

360智腦的表現(xiàn)依然不盡如人意,極大可能是根據(jù)沒(méi)有將第二指令和第一指令聯(lián)系起來(lái),而只是隨便畫了四幅畫敷衍塞責(zé)。

2.多輪圖片生成

任務(wù)1畫一個(gè)湖,湖上荷花盛開(kāi),岸邊有樹(shù);請(qǐng)?jiān)诤涎a(bǔ)畫一只小船,船上有少女搖櫓

訊飛星火

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

文心一言

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

360智腦

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

在這項(xiàng)任務(wù)中,訊飛星火和文心一言都能聯(lián)系第一輪對(duì)話中的要求,在第二幅畫中添加船和搖櫓的小女,且第一幅畫均表現(xiàn)了湖中荷花盛開(kāi),湖岸綠樹(shù)搖曳的美景,唯一遺憾的是,兩者都不是在第一幅的基礎(chǔ)進(jìn)行添加,而是在保留第一幅畫所有元素的基礎(chǔ)上,重新生成了圖畫。

360智腦第一輪就敗了,湖上沒(méi)有荷花,主體也變成了湖岸,顯然并沒(méi)有理解指令的意圖。

任務(wù)2:畫條山中小路;牛走在小路上;牧童騎在牛身上

訊飛星火

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

文心一言

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

360智腦

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

該組任務(wù)和上組不同的是,第二輪、第三輪指令中并沒(méi)有指出是在畫上補(bǔ)加角色,主要目的是要考驗(yàn)三大模型在多模態(tài)能力上的多輪對(duì)話能力。

在這方面,訊飛星火的表現(xiàn)明顯要好,三次作畫都抓住了第一輪要求的“山中小路”這一指定場(chǎng)景。

其次是文心一言,盡管第三輪作畫時(shí)出現(xiàn)了明顯的失誤,將場(chǎng)景設(shè)定為了山坡,但至少第二次符合要求。

表現(xiàn)最不理想的依然是360智腦,自第二輪開(kāi)始就脫離了作畫范疇,自言自語(yǔ)地做起詩(shī)來(lái),把作畫的初衷完全拋在了腦后。

3.圖片解讀

所謂圖片解讀,就是給大模型一張圖片,讓它解讀出圖中的內(nèi)容??梢源_定的是,360智能目前未提供這樣的功能。因此此番評(píng)比及下面的根據(jù)解讀內(nèi)容生成故事測(cè)試,只能在訊飛星火和文心一言中進(jìn)行。

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

需要提醒大家的是,文心一言的圖片解讀功能需要借助插件“說(shuō)圖解畫”才能實(shí)現(xiàn),在使用該功能時(shí),別忘啟用該插件。

此輪評(píng)測(cè)中,使用的圖片有兩類,不有含特殊信息和包含特殊信息,評(píng)測(cè)圖片來(lái)源于網(wǎng)絡(luò)。

任務(wù)1:不含特殊信息圖片解讀

解讀1:

訊飛星火

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

文心一言

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

在對(duì)這張圖片中的解讀中,很明顯,訊飛星火給出的信息更加詳細(xì),不僅描述出了圖片主體——“一只橙色的狐貍站在雪地上”,并指明拍攝地點(diǎn)是“戶外”,而且詳細(xì)描述了狐貍的尾巴、眼睛、鼻子、耳朵和腿,同時(shí)涉及到周圍的景物,如樹(shù)木和灌木叢等。

文心一言給出的信息較少,主要突出了狐貍的神態(tài)和給人的感受上,如“它的眼神似乎在尋找著什么”“它仍然保持著警惕和謹(jǐn)慎的態(tài)度”。

解讀中,文心一言犯了一個(gè)錯(cuò)誤——“它的身體被雪覆蓋得嚴(yán)嚴(yán)實(shí)實(shí)”,與前面的“站在雪地上”相互矛盾。

解讀2:

訊飛星火

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

文心一言

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

這幅圖片,兩大模型解釋得都不錯(cuò),但文心一言似乎總愿意根據(jù)自己的喜好,在解讀中加進(jìn)某些不存在的情節(jié),比如這幅畫上根本沒(méi)有人,但文心一言卻給出了這樣的描述:“在田野上漫步的人們,享受著自然的美好和寧?kù)o的氛圍。他們或許正在欣賞美景、享受美食或者只是單純地放松身心?!泵黠@多此一舉。

任務(wù)2:含特殊信息圖片解讀

這里的特殊信息包括但不限于圖片中隱含的景點(diǎn)信息,動(dòng)物品種信息和文字信息等。

比如同樣是老虎圖片,但有的描繪的是東北虎,有的是孟加拉虎,有的是里?;ⅲ械膮s是華南虎等,種類并不一樣。

之所以要設(shè)置這一評(píng)測(cè)環(huán)節(jié),旨在考驗(yàn)兩大模型能否綜合各類知識(shí)并在多模態(tài)能力上有所展示。

解讀1:

訊飛星火

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

文心一言

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

兩大模型均準(zhǔn)確識(shí)別出圖中狗的種類是博美(又名波美拉尼亞)犬,值得點(diǎn)贊,但從對(duì)整個(gè)畫面的解讀來(lái)看,訊飛星火解讀內(nèi)容似乎更加忠實(shí)于畫作,很少發(fā)揮想像力。

文心一言則照例進(jìn)行了煽情描述,如:它“似乎正在微笑或享受陽(yáng)光”“它似乎正在跟主人玩耍”等,此外,它還竟然注意到了狗的“小鼻子下掛著一條濕漉漉的鼻涕”,而實(shí)際上畫面上并沒(méi)有鼻涕。

解讀2:

訊飛星火

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

     文心一言

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

兩者都成功識(shí)別出上述畫作對(duì)應(yīng)的景點(diǎn)是黃山,但都沒(méi)有指出圖片拍的是黃山迎客松,這不能不說(shuō)是一大遺憾。

在解讀上,訊飛星火可謂中規(guī)中矩,對(duì)松樹(shù)、巖石、周圍的植被和樹(shù)木的形態(tài)都有所提及,并且解釋了之所以判斷該圖片拍攝的景點(diǎn)是黃山的原因:“通過(guò)觀察松樹(shù)的生長(zhǎng)環(huán)境”。并在結(jié)尾部分,對(duì)圖片拍攝的主題作了歸納“這幅畫通過(guò)細(xì)膩的描繪和色彩運(yùn)用,將黃山的美麗景色展現(xiàn)得淋漓盡致”。

相比之下,文心一言就顯得有些突兀,上來(lái)就介紹黃山,而對(duì)為什么要介紹黃山和畫面內(nèi)容一字未提。

解讀3:

訊飛星火

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

文心一言

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

解讀該圖片的目的,是檢驗(yàn)兩大模型能否識(shí)別圖中的文字。訊飛星火順利識(shí)別出“保定站”,文心一言則沒(méi)有。除此之外,兩大模型都成功識(shí)別圖片對(duì)應(yīng)的場(chǎng)所是火車站。

4. 根據(jù)圖片內(nèi)容寫文章

任務(wù)1:根據(jù)圖片內(nèi)容生成一篇500字左右的小故事。

訊飛星火

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

文心一言

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

故事構(gòu)成有三個(gè)基本要素:人物、背景、情節(jié),就這一意義來(lái)說(shuō),訊飛星火給出的故事更具故事特征。

人物:兩只小猴子,一只叫米奇,另一只叫米妮,他們是朋友。

背景:在茂密的熱帶雨林中,

情節(jié):兩只猴子發(fā)現(xiàn)一個(gè)瀑布,瀑布下是水潭。兩只小猴子很喜歡這個(gè)水潭,常常到這里玩耍。有一天,米妮為抓魚(yú)跳進(jìn)水潭,遇到危險(xiǎn),米奇勇敢地將她救了上來(lái),從此他們的友誼更加深厚。

在上述故事中,訊飛星火充分利用了在圖片中捕捉到手兩只猴子緊緊擁抱、旁邊是水的信息,充分發(fā)揮,最終創(chuàng)作出一個(gè)情節(jié)跌宕起伏,構(gòu)思合理的小故事。

而文心一言則將主題設(shè)定為愛(ài)情,并沒(méi)有情節(jié)襯托,因此讀起來(lái)更像是散文。

任務(wù)2:根據(jù)圖片內(nèi)容生成一篇500字左右的散文。

訊飛星火

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

文心一言

多模態(tài)爭(zhēng)霸!訊飛星火2.0、文心一言和360智腦誰(shuí)更強(qiáng)?

這一環(huán)節(jié),訊飛星火依然秉承了寫故事時(shí)的不俗表現(xiàn),設(shè)定了人物、情節(jié),將散文寫成了敘事形式,言之有物,可讀性很強(qiáng)。

文心一言則注重解讀了圖片內(nèi)容,看起來(lái)更像是簡(jiǎn)單解讀的詳細(xì)版。

小結(jié):

通過(guò)上面評(píng)測(cè)不難看出,在多模態(tài)能力方面,科大訊飛星火2.0的確擁有領(lǐng)先行業(yè)的優(yōu)勢(shì),表現(xiàn)不俗,無(wú)論是AI作畫、圖片解讀還是看圖作文,都能較好勝任,同時(shí)回復(fù)速度也是三大模型中最快的,

其次是文心一言,雖然總體能力不及訊飛星火,但在看圖作文方面也擁有自己的特點(diǎn),比如,它在每次解讀完成,都會(huì)提醒用戶可以使用不同的方式進(jìn)行提問(wèn),方便用戶快速了解其與解讀相關(guān)的功能。

原創(chuàng)文章,作者:陳晨,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.2079x.cn/article/576759.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論