中國(guó)信通院發(fā)布“方升”大模型基準(zhǔn)測(cè)試體系

陳晨 ? 2024年1月2日 09:28:09 ? 產(chǎn)經(jīng)

當(dāng)前，大模型正引領(lǐng)著新一輪技術(shù)革命，大模型的全方位測(cè)評(píng)對(duì)于開發(fā)驗(yàn)證、產(chǎn)品選型和能力提升都至關(guān)重要。但是，已有大模型基準(zhǔn)測(cè)試以評(píng)估模型通用能力為主，存在評(píng)測(cè)方法不統(tǒng)一、評(píng)測(cè)方式單一、距離實(shí)際應(yīng)用較遠(yuǎn)等問題。因此，亟需建立一套面向產(chǎn)業(yè)應(yīng)用的大模型基準(zhǔn)測(cè)試體系，搭建全量測(cè)試題庫(kù)、自動(dòng)測(cè)試平臺(tái)和高效測(cè)試方法，滿足大模型能力持續(xù)監(jiān)測(cè)和能力迭代的要求。

2023年12月24日，中國(guó)信息通信研究院（簡(jiǎn)稱“中國(guó)信通院”）發(fā)布“方升”大模型評(píng)測(cè)體系，旨在建立業(yè)界大模型基準(zhǔn)測(cè)試統(tǒng)一的“度量衡”。“方升”測(cè)試體系涵蓋大模型基準(zhǔn)測(cè)試的關(guān)鍵四要素，即測(cè)試指標(biāo)、測(cè)試方法、測(cè)試數(shù)據(jù)集和測(cè)試工具，目前已形成《大規(guī)模預(yù)訓(xùn)練模型基準(zhǔn)測(cè)試-總體技術(shù)要求》標(biāo)準(zhǔn)。

大模型基準(zhǔn)測(cè)試體系“方升”

測(cè)試指標(biāo)方面，“方升”測(cè)試體系主要針對(duì)行業(yè)、應(yīng)用、通用和安全四個(gè)維度對(duì)大模型進(jìn)行全面、客觀、統(tǒng)一的評(píng)估，為了加速大模型應(yīng)用落地，重點(diǎn)強(qiáng)化了行業(yè)和應(yīng)用導(dǎo)向能力的考查。

在測(cè)試方法方面，“方升”測(cè)試體系創(chuàng)新性提出自適應(yīng)動(dòng)態(tài)測(cè)試方法，從測(cè)試數(shù)據(jù)標(biāo)簽化、測(cè)試題庫(kù)實(shí)時(shí)化、測(cè)試方案定制化、測(cè)試流程自動(dòng)化四個(gè)方面全面提升大模型基準(zhǔn)測(cè)試質(zhì)量，重點(diǎn)解決大模型“刷榜”問題。

測(cè)試數(shù)據(jù)方面，“方升”測(cè)試體系搭建動(dòng)態(tài)測(cè)試數(shù)據(jù)庫(kù)，涵蓋測(cè)試數(shù)據(jù)集107個(gè)，測(cè)試數(shù)據(jù)條數(shù)達(dá)到123萬(wàn)，聯(lián)合產(chǎn)業(yè)界多家機(jī)構(gòu)首次推出面向行業(yè)、通用、應(yīng)用、安全領(lǐng)域的評(píng)測(cè)數(shù)據(jù)集6個(gè)。

測(cè)試框架與工具方面，中國(guó)信通院在構(gòu)建超自動(dòng)化測(cè)試平臺(tái)和智能化結(jié)果評(píng)估系統(tǒng)方面持續(xù)發(fā)力，探索解決國(guó)內(nèi)外人工智能自動(dòng)化測(cè)試流程中存在的“阻塞點(diǎn)”，全面提高測(cè)試效率。

“方升”大模型基準(zhǔn)測(cè)試體系由中國(guó)信通院聯(lián)合北京智源研究院、認(rèn)知智能全國(guó)重點(diǎn)實(shí)驗(yàn)室和天津大學(xué)共同發(fā)布。此外，國(guó)網(wǎng)智能電網(wǎng)研究院、首都之窗、天津大學(xué)、中國(guó)電信研究院、中國(guó)聯(lián)通軟件研究院、華為、甲骨易、海天瑞聲、東方財(cái)富9家單位成為“方升”大模型基準(zhǔn)測(cè)試首批合作伙伴。

大模型基準(zhǔn)測(cè)試不僅是大模型應(yīng)用開發(fā)的終點(diǎn)，更是驅(qū)動(dòng)大模型能力提升的起點(diǎn)。中國(guó)信通院誠(chéng)邀產(chǎn)學(xué)研用各方加入“方升”大模型基準(zhǔn)測(cè)試體系，共同探索人工智能評(píng)測(cè)創(chuàng)新發(fā)展之路，建設(shè)科學(xué)、客觀、中立的人工智能評(píng)測(cè)基準(zhǔn)，為全面提升中國(guó)人工智能評(píng)測(cè)水平貢獻(xiàn)力量！

原創(chuàng)文章，作者：陳晨，如若轉(zhuǎn)載，請(qǐng)注明出處：http://m.2079x.cn/article/614134.html

陳晨管理團(tuán)隊(duì)

0 0

產(chǎn)經(jīng)

重磅簽約！軟通動(dòng)力攜手眾伙伴打造東南數(shù)字生態(tài)橋頭堡

4月29日，由福建省人民政府主辦，福州新區(qū)管理委員會(huì)、香港再出發(fā)大聯(lián)盟、軟通動(dòng)力等承辦的“第三屆閩港數(shù)字經(jīng)濟(jì)合作論壇暨A.I3探索大會(huì)”在福州數(shù)字中國(guó)會(huì)展中心隆重召開。作為國(guó)內(nèi)領(lǐng)先…

陳晨
15小時(shí)前
產(chǎn)經(jīng)

東南總部落戶福州！軟通動(dòng)力領(lǐng)航閩港數(shù)字經(jīng)濟(jì)合作論壇暨A.I3探索大會(huì)成功舉辦

4月29日，第八屆數(shù)字中國(guó)建設(shè)峰會(huì)在福州隆重開幕，同期舉辦的“閩港數(shù)字經(jīng)濟(jì)合作論壇暨A.I3探索大會(huì)”成為峰會(huì)重要看點(diǎn)。作為論壇重要承辦單位，軟通動(dòng)力攜旗下核心子品牌與子公司深度參…

陳晨
15小時(shí)前
產(chǎn)經(jīng)

五一在家怎么玩？和鴻蒙應(yīng)用一起解鎖宅家新玩法

五一假期將至，擔(dān)心旅游景點(diǎn)人山人海？宅家也能儀式感滿滿地度假！鴻蒙應(yīng)用精心打造“五一走鴻指南”專題內(nèi)容，領(lǐng)取HUAWEI Pura X“鴻蒙有禮”新機(jī)權(quán)益暢享高品質(zhì)內(nèi)容，無(wú)論你是追…

陳晨
22小時(shí)前
產(chǎn)經(jīng)

碰一碰分享、眼動(dòng)翻頁(yè)、每日早報(bào)！HUAWEI Pura X這么玩，更有型

4月30日，華為影業(yè)再出新作，一支名為《這么玩，更有型》的視頻正式上線。這支視頻以輕幽默風(fēng)格演繹地球人與外星人在月球上的日常PK，生動(dòng)展示“為內(nèi)容而生”的HUAWEI Pura X…

陳晨
22小時(shí)前
產(chǎn)經(jīng)

bit交易所發(fā)布鏈上新產(chǎn)品GoRich，打通Meme幣交易最后一公里

鏈上PVP成為市場(chǎng)主旋律,Meme幣仍是流量之王進(jìn)入2025年4月,加密市場(chǎng)行情雖不再如年初那般高歌猛進(jìn),但鏈上生態(tài)熱度不減。以Meme幣為代表的鏈上資產(chǎn)頻頻霸榜,新的“百倍幣”…

陳晨
22小時(shí)前
產(chǎn)經(jīng)

出游必備！HUAWEI Pura X鴻蒙應(yīng)用幫你輕松搞定假期攻略

五一假期臨近，網(wǎng)上“請(qǐng)四休十”等各種拼假攻略讓大家對(duì)假期出游心動(dòng)不已！這個(gè)假期，鴻蒙應(yīng)用精心打造“五一走鴻指南”，為你開啟“大有不同”的假期！HUAWEI Pura X用戶還能享受…

陳晨
22小時(shí)前
產(chǎn)經(jīng)

央企數(shù)字化轉(zhuǎn)型開新局：鴻蒙版南航e家探索民航數(shù)字辦公新范式

4月29日，在第八屆“數(shù)字中國(guó)建設(shè)峰會(huì)”上，華為攜手南方航空（以下簡(jiǎn)稱“南航”）等政企伙伴亮相“鴻蒙生態(tài)峰會(huì)”。峰會(huì)現(xiàn)場(chǎng)，南方航空旗下全資子公司南航數(shù)智科技有限公司總經(jīng)理何烽分享了…

陳晨
22小時(shí)前
產(chǎn)經(jīng)

從“胡編亂造”到“邏輯推演”，如何規(guī)避大模型“幻覺”

杜撰虛假文獻(xiàn)、引用不存在的名人觀點(diǎn)、編造錯(cuò)誤數(shù)據(jù)、將舊事當(dāng)作新聞傳播……基于不完整信息生成看似合理實(shí)則錯(cuò)誤的答案，讓人難以分辨真?zhèn)?，這種現(xiàn)象被業(yè)界稱為“AI幻覺”。 “AI幻覺”是…

陳晨
22小時(shí)前
產(chǎn)經(jīng)

軟硬件齊發(fā)力，佳能EOS虛擬現(xiàn)實(shí)系統(tǒng)賦能VR內(nèi)容創(chuàng)作

在沉浸式影像逐漸成為內(nèi)容表達(dá)新趨勢(shì)的當(dāng)下，VR技術(shù)為城市、文化、故事等領(lǐng)域的敘事表達(dá)提供了更多可能。作為全球領(lǐng)先的影像技術(shù)品牌，佳能憑借其在專業(yè)影像領(lǐng)域的深厚積淀，持續(xù)推動(dòng)著影像創(chuàng)…

陳晨
1天前
產(chǎn)經(jīng)

海爾智家Q1超預(yù)期，企業(yè)做的多，用戶給的多

　　導(dǎo)語(yǔ)：海爾智家Q1業(yè)績(jī)的超預(yù)期表現(xiàn)，既是其全球化戰(zhàn)略與用戶思維的階段性成果，也為家電行業(yè)的戰(zhàn)局‘升維’拉開序幕。　　4月29日，海爾智家發(fā)布了2025一季報(bào)。財(cái)報(bào)顯示，海爾智…

科技探索者
1天前
產(chǎn)經(jīng)

穿透財(cái)報(bào)業(yè)績(jī)?cè)鲩L(zhǎng)表象，看見小熊電器的“長(zhǎng)期主義生長(zhǎng)力”

　　企業(yè)發(fā)展有時(shí)代浪潮的托舉，更需要自身“立得住”。行業(yè)順風(fēng)時(shí)借勢(shì)易，潮退方見真章。真正的強(qiáng)者，應(yīng)該善用硬核實(shí)力在周期起伏中劈波斬浪、逆勢(shì)突圍。　　奧維云網(wǎng)的數(shù)據(jù)顯示，2023年…

科技探索者
1天前
產(chǎn)經(jīng)

數(shù)智引領(lǐng)?共建智能體時(shí)代：超聚變亮相第八屆數(shù)字中國(guó)建設(shè)峰會(huì)

4月29日-4月30日，第八屆數(shù)字中國(guó)建設(shè)峰會(huì)在福州召開。超聚變數(shù)字技術(shù)有限公司（簡(jiǎn)稱：超聚變）攜算力、城企數(shù)智、智慧能源解決方案等業(yè)務(wù)領(lǐng)域的前沿創(chuàng)新成果亮相峰會(huì)，獲得與會(huì)嘉賓、客…

陳晨
1天前
產(chǎn)經(jīng)

鴻蒙攜手奇安信亮相數(shù)字中國(guó)建設(shè)峰會(huì)，助數(shù)字安全“嵌入生態(tài)，下沉終端”

4月29日，在第八屆數(shù)字中國(guó)建設(shè)峰會(huì)的鴻蒙生態(tài)峰會(huì)上，奇安信集團(tuán)副總裁張庭分享了《奇安信在鴻蒙化浪潮中的安全賦能》主題演講，系統(tǒng)展示了雙方通過“技術(shù)共建-產(chǎn)品落地-生態(tài)普惠”的遞進(jìn)…

陳晨
1天前
全球通四季之旅“繁花季”正式上線五一假期暢享品質(zhì)出行

為滿足客戶多元化出行需求，全球通推出年度主題系列活動(dòng)——“四季之旅”，以四季為脈絡(luò)打造差異化出行品質(zhì)體驗(yàn)。首站“繁花季”現(xiàn)已重磅上線，以“三重驚喜彩蛋”權(quán)益為核心，抽機(jī)票免單大獎(jiǎng)、…

陳晨
產(chǎn)經(jīng) 1天前
產(chǎn)經(jīng)

問界M9領(lǐng)跑50萬(wàn)級(jí)豪華車市場(chǎng)，打造安全豪華新范式

在豪華汽車市場(chǎng)這片紅海之中，問界M9 2025款猶如一顆璀璨的新星，以其卓越的產(chǎn)品實(shí)力和驚人的市場(chǎng)表現(xiàn)，迅速吸引了業(yè)界的廣泛關(guān)注。上市僅21天，便收獲了3.6萬(wàn)輛的大定訂單，平均每…

陳晨
1天前
產(chǎn)經(jīng)

奇安信亮相鴻蒙生態(tài)峰會(huì)：重構(gòu)企業(yè)級(jí)安全終端治理方式，共筑自主網(wǎng)絡(luò)安全底座

4月29日，在第八屆數(shù)字中國(guó)建設(shè)峰會(huì)的鴻蒙生態(tài)峰會(huì)上，奇安信集團(tuán)副總裁張庭分享了《奇安信在鴻蒙化浪潮中的安全賦能》主題演講，系統(tǒng)展示了雙方通過“技術(shù)共建-產(chǎn)品落地-生態(tài)普惠”的遞進(jìn)…

陳晨
1天前
產(chǎn)經(jīng)

從“治理”到“智理”，鴻蒙版閩政通、閩政務(wù)打造數(shù)字政務(wù)“福建樣板”

4月29日，在第八屆數(shù)字中國(guó)建設(shè)峰會(huì)的鴻蒙生態(tài)峰會(huì)上，福建省大數(shù)據(jù)集團(tuán)攜省級(jí)政務(wù)平臺(tái)閩政通、閩政務(wù)亮相，展示了“超級(jí)”政務(wù)服務(wù)應(yīng)用鴻蒙化的歷程。作為全國(guó)首批完成鴻蒙5適配的省級(jí)政務(wù)…

陳晨
1天前
產(chǎn)經(jīng)

微星游戲本RTX50爆款新品，51電商大促+線下微星日好禮不斷！

強(qiáng)悍的性能表現(xiàn)，全面的規(guī)格配置，搭載RTX50系GPU的微星游戲本新品，在首發(fā)的一個(gè)月中可謂爆款頻出，頗受玩家們的青睞！隨著五一黃金周的到來，為了讓更多玩家體驗(yàn)到微星游本的次世代…

陳晨
1天前
產(chǎn)經(jīng)

辦公數(shù)字化升級(jí)加速：泛微與鴻蒙共筑協(xié)同辦公數(shù)字化“基礎(chǔ)設(shè)施”

4月29日，在第八屆數(shù)字中國(guó)建設(shè)峰會(huì)的鴻蒙生態(tài)峰會(huì)上，作為國(guó)內(nèi)領(lǐng)先的協(xié)同管理軟件廠商，泛微網(wǎng)絡(luò)（以下簡(jiǎn)稱“泛微”）攜其與鴻蒙生態(tài)深度融合的數(shù)字化成果亮相。作為首批參與鴻蒙生態(tài)建設(shè)的…

陳晨
1天前
產(chǎn)經(jīng)

交通銀行與鴻蒙生態(tài)共建金融數(shù)字化新范式，為高質(zhì)量發(fā)展注入金融“活水”

4月29日，在第八屆數(shù)字中國(guó)建設(shè)峰會(huì)的鴻蒙生態(tài)峰會(huì)上，交通銀行作為金融行業(yè)的標(biāo)桿企業(yè)，全面展示其與鴻蒙生態(tài)深度協(xié)同的數(shù)字化轉(zhuǎn)型成果。作為首批完成HarmonyOS NEXT全周期適…

陳晨
1天前

發(fā)表回復(fù)

登錄后才能評(píng)論

中國(guó)信通院發(fā)布“方升”大模型基準(zhǔn)測(cè)試體系

相關(guān)推薦

發(fā)表回復(fù)