欧美三级中文字幕视频,午夜三级A三级三点在线观看

首頁 > 資源 > > 內(nèi)容頁

誰最“聰明”：大模型為何需要測評

2023-08-21 21:42:18 來源:北京商報

近日由北京商報社、深藍媒體智庫主辦的“大模型見真章”AI主題沙龍上，360智腦產(chǎn)品資深專家葛燦輝在做“360智腦認(rèn)知型通用大模型”的產(chǎn)品分享時，引用了三個測評結(jié)果，其中一個來自第三方評估機構(gòu)SuperCLUE。

聽到這個引用，臺下元語智能聯(lián)合創(chuàng)始人兼COO朱雷笑了笑。朱雷的另一個身份，便是SuperCLUE聯(lián)合發(fā)起人。葛燦輝顯然不知道這一層關(guān)聯(lián)。

(資料圖)

國產(chǎn)大模型競賽如火如荼，好像每一個大模型都很牛，但具體牛在哪又始終縹緲，由此大模型測評應(yīng)運而生。但這又可能注定是一件要“燒情懷”的事，它同樣面臨著“開源”還是“閉源”的兩難選擇，和刷題與競價排名的諸多爭議。

武林大會

國產(chǎn)大模型又多一份測評，這次的狀元是訊飛星火。近日，《麻省理工科技評論》從研發(fā)和商業(yè)化能力、外界態(tài)度以及發(fā)展趨勢等維度全方位檢測大模型的能力，最終，訊飛星火認(rèn)知大模型V2.0以81.5分的成績登頂，榮獲“最聰明”的國產(chǎn)大模型稱號。

8月15日，科大訊飛發(fā)布“訊飛星火認(rèn)知大模型V2.0版本”，科大訊飛董事長劉慶峰介紹，從業(yè)界參考測試集上的效果對比來看，星火V2.0基于Python和C++進行代碼寫作能力已高度逼近ChatGPT，差距僅為1%和2%。

劉慶峰說，到10月24日星火大模型代碼能力全面超越ChatGPT，明年上半年將正式對標(biāo)GPT4。

訊飛星火像是一個縮影。過去這段時間，大模型頻繁更新讓人眼花繚亂，動輒千億的參數(shù)、各種專業(yè)術(shù)語也讓人不明覺厲。但人們似乎很難找到一把統(tǒng)一的尺子，公平、客觀、直觀地感知大模型真正的效果，而不被紛雜的信息流所蒙蔽。

天使投資人、資深人工智能專家郭濤對北京商報記者分析稱，“大模型是一個非常復(fù)雜的系統(tǒng)，它由大量的數(shù)據(jù)和算法組成，在訓(xùn)練和推理過程中需要考慮很多因素。對大模型進行測評可以幫助我們更好地了解模型的性能和特點、評估價值和意義、局限性和潛在風(fēng)險等，從而為大模型的發(fā)展和應(yīng)用提供有力支持”。

深度科技研究院院長張孝榮將測評形容為一場“武林大會”，要試試各家身手。他對北京商報記者分析稱，大模型涉及到龐大的參數(shù)和復(fù)雜的算法，對于性能和效果的評估十分重要。通過測評可以大致地了解大模型的性能、穩(wěn)定性、準(zhǔn)確性等內(nèi)容，為用戶選擇合適的大模型提供參考。

測評開始補位。今年3月，真格基金以投資者的身份入場，設(shè)計了一套大模型測試集Z-Bench。高校也是測評的中堅力量，例如清華大學(xué)、上海交通大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集C-Eval。

有媒體報道，5月以來，10多家國內(nèi)外多家調(diào)研機構(gòu)、權(quán)威媒體和高校等發(fā)布大模型評測報告，包括新華社研究院中國企業(yè)發(fā)展研究中心發(fā)布的《人工智能大模型體驗報告2.0》、天津大學(xué)和信創(chuàng)海河實驗室發(fā)布的《大模型評測報告》、國際數(shù)據(jù)公司IDC發(fā)布的《AI大模型技術(shù)能力評估報告，2023》等。

難統(tǒng)一的標(biāo)準(zhǔn)

當(dāng)該有測評成為共識，迎面而來的下一個問題就是，我們需要一個怎樣的測評。

《麻省理工科技評論》提到，評測使用的測試集包含600道題目，覆蓋了語言專項、數(shù)學(xué)專項、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識、安全性共8個一級大類，126個二級分類，290個三級標(biāo)簽，并針對問題的豐富性和多樣性做了優(yōu)化。

此前IDC則在測評中將大模型分為三層，服務(wù)生態(tài)、產(chǎn)品技術(shù)以及行業(yè)應(yīng)用，對每一層的能力進行測評，主要考察指標(biāo)為算法模型、通用能力、創(chuàng)新能力、平臺能力、安全可解釋、大模型的應(yīng)用行業(yè)以及配套服務(wù)和大模型生態(tài)等，具體包括36項細顆粒度的評估標(biāo)準(zhǔn)。

對于大模型測評的必要性，朱雷提到，模型測評基準(zhǔn)是通用人工智能的基石，沒有測評就意味著沒有目標(biāo)，很難準(zhǔn)確地判斷究竟哪些做得好哪些做得不好，同時對于AI的安全性也無法把控。從國際視角上看，對于大模型的測評也是沒有絕對標(biāo)準(zhǔn)的，因為大模型發(fā)展太快了。但在國內(nèi)要做出一個客觀公正的評測基準(zhǔn)，也會遇到很多阻力。

北京市社會科學(xué)院副研究員王鵬對北京商報記者分析，目前大模型尚屬新興事物，國際上還沒有一個覆蓋面非常廣、能夠得到大家公允的評估方法或整套指標(biāo)體系，需要加強國際合作，形成廣泛共識。

“但這也會面臨一定的問題，即大模型本身類型繁多，通用還是專用、垂類還是跨行業(yè)、偏技術(shù)還是偏應(yīng)用等區(qū)別也會帶來一定的阻礙，因此更需要權(quán)威機構(gòu)加強研究，盡快形成共識，促進技術(shù)進步和行業(yè)發(fā)展。”王鵬稱。

在他看來，一個合格的測評，應(yīng)該由四個維度組成。首先是技術(shù)本身，包括穩(wěn)定性、效率、效果等；其次是與行業(yè)的結(jié)合，在行業(yè)應(yīng)用中是否有效果、成本是否可控、是否能夠形成商業(yè)閉環(huán)；再次還要考慮是否安全可控；最后要從社會及行業(yè)認(rèn)知角度，了解其在行業(yè)中的關(guān)注度，畢竟“酒香也怕巷子深”。

張孝榮也提到，由于大模型涉及的領(lǐng)域和應(yīng)用非常廣泛，不同領(lǐng)域、不同應(yīng)用的大模型需要關(guān)注的指標(biāo)和評估方法不盡相同。因此，針對具體應(yīng)用領(lǐng)域和需求，不同機構(gòu)和組織可能會提出不同的評估標(biāo)準(zhǔn)和方法?！氨M管沒有統(tǒng)一的標(biāo)準(zhǔn)，但測評的意義在于提供了一種評估和比較不同大模型性能和效果的方法，幫助用戶選擇適合自己需求的大模型。”

測評還是營銷

“測評的意義側(cè)重于營銷推廣”。張孝榮還提到了一個觀點。

葛燦輝在引用SuperCLUE測評結(jié)果的時候，提煉出了一句總結(jié)：“360智腦”多項能力位列國產(chǎn)大模型第一?！堵槭±砉た萍荚u論》的測評報告，傳播最多的也是“訊飛星火被評為中國‘最聰明’的大模型”。

更早些時候，刷屏的是百度。比如IDC的大模型報告中，“百度文心大模型3.5獲多項滿分”，清華大學(xué)新聞與傳播學(xué)院沈陽團隊發(fā)布的《大語言模型綜合性能評估報告》中，百度文心一言在三大維度20項指標(biāo)中綜合評分國內(nèi)第一，超越ChatGPT。

每每涉及榜單，榜首歸誰總是容易成為話題中心，從這個角度上看，測評本身或許就帶著些營銷的天然屬性。但也正是如此，延伸出了一些不容忽視的問題。

“SuperCLUE出6月榜單的時候，第一時間就有人指責(zé)我們是不是收了360的錢，但事實是，直到這次沙龍，我們與360智腦產(chǎn)品負責(zé)人才有了第一次接觸?！敝炖兹绱苏f道。

事實上，大模型測評同樣面臨著“開源”和“閉源”的兩難選擇。朱雷稱，大模型測評題集也有開源閉源之分，但開源的題目就會面臨受試者提前訓(xùn)練進而刷分“打榜”的可能，而閉源的題目就會陷入到是否有暗箱操作乃至競價排名的爭議。

朱雷表示，SuperCLUE還是選擇了閉源的測評路線，但不是任何機構(gòu)都可以閉源的，之所以公眾較為相信SuperCLUE的測評結(jié)果，主要還是基于過去四年CLUE社區(qū)對中文語言模型的貢獻和公信力。

據(jù)了解，CLUE開源社區(qū)發(fā)起于2019年，旨在建立科學(xué)、客觀、中立的AI評測基準(zhǔn)，過去幾年CLUE社區(qū)分別建立了ZeroCLUE、FewCLUE等知名的語言模型評測基準(zhǔn)，又于今年5月發(fā)布首個中文通用大模型綜合性評測基準(zhǔn)SuperCLUE。

SuperCLUE分為SuperCLUE-Opt、SuperCLUE-LYB瑯琊榜以及SuperCLUE-Open三個不同維度的評測基準(zhǔn)，相輔相成。其中SuperCLUE-Opt是首個中文通用大模型綜合性評測基準(zhǔn)，聚焦客觀題；SuperCLUE-Open為首個中文通用大模型綜合性多輪開放域評測基準(zhǔn)，聚焦主觀題；SuperCLUE-LYB瑯琊榜的定位則是中文大模型匿名對戰(zhàn)平臺，讓用戶參與投票。據(jù)介紹，SuperCLUE目前也是中文AI領(lǐng)域最完整的綜合性測評基準(zhǔn)，同時也是罕見的“閉卷”考試。

“我們暫時還沒有找到折中的方法，所以決定先‘保密’，大模型廠商不知道我出了什么樣的問題，自然不好刷分。至于‘保密’帶來的黑盒化，目前來看還是一個兩者不可兼得的問題，但我們堅信自己的第三方中立性，評測的結(jié)論也是十分科學(xué)的。”朱雷稱。

SuperCLUE以“月考”形式進行，每個月也會更新迭代，包括補齊缺失的維度、更新現(xiàn)有的測試題等。“現(xiàn)階段我們?nèi)赃x擇以閉源的形式把測評摸清楚，建立比較健全的標(biāo)準(zhǔn)后可能會選擇部分開源，即便如此我們也會保證每次測評前廠商無法拿到相關(guān)的測試題，等到測試結(jié)果公布后再將題目放出，這樣外界可以根據(jù)題目進行復(fù)現(xiàn)，或許會減弱類似于競價排名的爭議。”朱雷稱。

王鵬分析稱，任何一項評估或排名，都可能面臨一些問題，但這其實相當(dāng)于一個“否定之否定”的過程。首先評估體系本身并不是完美的，需要不斷優(yōu)化提升，應(yīng)對大家可能產(chǎn)生的質(zhì)疑。

其次，專業(yè)的評測機構(gòu)、技術(shù)機構(gòu)等，也要注重自己的口碑，建立完善的體系，儲備豐富的經(jīng)驗，有較好的技術(shù)團隊和技術(shù)儲備，作出更加客觀公允、公平公正的評價。“因為一旦出現(xiàn)‘人情分’等問題，不僅會影響自己的聲譽，也不利于行業(yè)的未來發(fā)展”，王鵬稱。

北京商報記者楊月涵

關(guān)鍵詞：

能力中臺助力河北移動網(wǎng)絡(luò)運維管理開啟“智慧眼”

2023-08-21 17:01:28

企業(yè)

共享充電寶計費價格上漲嚴(yán)重受訪者稱其過度收集并傳輸個人信息

2023-07-09 19:28:11

財經(jīng)

又是小作文惹的禍？多方回應(yīng)：不屬實

2023-08-21

要聞

gsp上崗證是什么？gsp上崗證報名條件是什么？ 2023-07-07
蘇州貴族學(xué)校有哪些？蘇州前十名國際學(xué)校排名 2023-07-07
搏擊培訓(xùn)班是干什么的？搏擊培訓(xùn)班怎么收費？ 2023-07-07
蒙氏教育培訓(xùn)機構(gòu)怎么樣？蒙氏教育培訓(xùn)機構(gòu)收費標(biāo)準(zhǔn) 2023-07-07
煙臺一職學(xué)費一年是多少錢？煙臺一職2023年招生簡章 2023-07-07
全身脫毛一般脫哪幾個部位？全身脫毛多少錢？ 2023-07-07
運輸發(fā)票抵扣稅率是多少？運輸發(fā)票抵扣稅率怎么算？ 2023-07-07

x 廣告

誰最“聰明”：大模型為何需要測評

誰最“聰明”：大模型為何需要測評

近日由北京商報社、深藍媒體智庫主辦的“大模型見真章”AI主題沙龍...

手機qq我的電腦圖片下載不了_手機qq我的電腦圖片

你們好，最近小活發(fā)現(xiàn)有諸多的小伙伴們對于手機qq我的電腦圖片下載不了

又是小作文惹的禍？多方回應(yīng)：不屬實

近日，市場中又陸續(xù)出現(xiàn)各種“小作文”，通過微信群、朋友圈等社交...

康達新材：上半年凈利3604.38萬元 同比扭虧

證券時報e公司訊，康達新材(002669)8月21日晚間披露半年報，公司上半年

蘇墾農(nóng)發(fā)：上半年凈利2.81億元 同比下降19.1%

證券時報e公司訊，蘇墾農(nóng)發(fā)(601952)8月21日晚間發(fā)布半年報，上半年實現(xiàn)

匯川技術(shù)：上半年凈利潤20.77億元 同比增長5.17%

證券時報e公司訊，匯川技術(shù)(300124)8月21日晚間披露半年報，公司上半年

益方生物：上半年凈虧損約1.68億元 同比虧損收窄

證券時報e公司訊，益方生物(688382)8月21日晚間發(fā)布半年報，上半年實現(xiàn)

好“屏”湖北 點亮智造之光

數(shù)字時代，顯示屏無處不在湖北擁有國內(nèi)最大、品類最齊全的中小尺寸顯示

兩岸青年太湖之畔“金風(fēng)玉露覓相逢”

中新網(wǎng)蘇州8月20日電(記者鐘升)“阿里山的姑娘美如水呀，阿里山的少年

富士萊(301258.SZ)：暫未與諾和諾德、禮來等公司合作

格隆匯8月21日丨有投資者向富士萊(301258 SZ)提問，“請問公司是否與諾

實探亞洲寵物展：國產(chǎn)公司爭相發(fā)力營銷 寵食、寵物用品需求走向多元精細化

近半年來伴隨著養(yǎng)寵人群攀升，各細分品類產(chǎn)業(yè)消費增速回暖，各類寵物企

海關(guān)總署發(fā)布《關(guān)于防止猴痘疫情傳入我國的公告》

證券時報網(wǎng)訊，海關(guān)總署21日發(fā)布《關(guān)于防止猴痘疫情傳入我國的公告》，

榮昌生物：上半年凈利潤虧損約7.03億元

證券時報e公司訊，榮昌生物(688331)8月21日晚間發(fā)布半年報，上半年實現(xiàn)

香山股份：汽車業(yè)務(wù)上半年凈利同比增長超70%

證券時報網(wǎng)訊，香山股份8月21日晚間發(fā)布半年度報告。2023年上半年，公

宏微科技：與客戶A簽訂產(chǎn)能保障協(xié)議

證券時報e公司訊，宏微科技(688711)8月21日晚間公告，公司近日與客戶A

北交所優(yōu)化新股發(fā)行上市流程 縮短申購資金凍結(jié)時長等

北交所優(yōu)化新股發(fā)行上市流程縮短申購資金凍結(jié)時長等,上市,股票,北交所,

助力企業(yè)快速恢復(fù) 促進優(yōu)質(zhì)企業(yè)集聚 順義區(qū)經(jīng)濟運行呈現(xiàn)回升向好態(tài)勢

今年以來，順義區(qū)經(jīng)濟運行呈現(xiàn)回升向好態(tài)勢，上半年，實現(xiàn)地區(qū)生產(chǎn)總值

第二十四屆8·18哲里木賽馬節(jié)：激情澎湃 閉幕不“落幕”

人民網(wǎng)通遼8月20日電（劉藝琳、實習(xí)生楊光、劉璇）激情澎湃，精彩紛呈

岸田文雄：計劃最早于本周四開始核污染水排海

岸田文雄：計劃最早于本周四開始核污染水排海---最新消息據(jù)日本廣播協(xié)

輝南縣紀(jì)委監(jiān)委重心下沉 激活監(jiān)督“神經(jīng)末梢”

本報訊（梁然報道）今年以來，輝南縣紀(jì)委監(jiān)委堅持在打通基層監(jiān)督“...

三部門：鼓勵有條件的地方探索建立風(fēng)險補償機制

證券時報網(wǎng)訊，據(jù)商務(wù)部消息，商務(wù)部、國家發(fā)改委、金融監(jiān)管總局發(fā)布關(guān)

天源迪科籌碼連續(xù)3期集中

證券時報網(wǎng)訊，天源迪科8月21日在交易所互動平臺中披露，截至8月20日公

北京君正股東戶數(shù)連續(xù)8期下降 籌碼集中以來股價累計下跌23.27%

證券時報網(wǎng)訊，北京君正8月21日在交易所互動平臺中披露，截至8月20日公

甘肅能源籌碼持續(xù)集中 最新股東戶數(shù)下降0.49%

證券時報網(wǎng)訊，甘肅能源8月21日在交易所互動平臺中披露，截至8月20日公

紫金礦業(yè)：擬收購西藏朱諾銅礦權(quán)益

證券時報e公司訊，紫金礦業(yè)(601899)8月21日晚間公告，全資子公司紫金實

惠子相梁翻譯一句一譯 惠子相梁翻譯

0471房產(chǎn)來為大家解答以上的問題?；葑酉嗔悍g一句一譯，惠子相梁翻譯

市人大常委會開展全市托育服務(wù)發(fā)展情況專題調(diào)研

日前，市人大常委會召開全市托育服務(wù)發(fā)展情況專題調(diào)研座談會，市人大常

夢見土地是什么意思

夢見土地代表著機會和潛力的到來。它象征著你在現(xiàn)實生活中種下種子，然

東方甄選入駐淘寶直播，最快本月底開播

從知情人士了解到，東方甄選已決定入駐淘寶直播，目前公司正在組建淘寶

武漢買房落戶政策2023

武漢買房落戶政策包括“購買中心城區(qū)（含兩開發(fā)區(qū)）商品房落戶”和...

能力中臺助力河北移動網(wǎng)絡(luò)運維管理開啟“智慧眼”

共享充電寶計費價格上漲嚴(yán)重 受訪者稱其過度收集并傳輸個人信息

又是小作文惹的禍？多方回應(yīng)：不屬實

近日由北京商報社、深藍媒體智庫主辦的“大模型見真章”AI主題沙龍...

你們好，最近小活發(fā)現(xiàn)有諸多的小伙伴們對于手機qq我的電腦圖片下載不了

近日，市場中又陸續(xù)出現(xiàn)各種“小作文”，通過微信群、朋友圈等社交...

康達新材：上半年凈利3604.38萬元同比扭虧

證券時報e公司訊，康達新材(002669)8月21日晚間披露半年報，公司上半年

蘇墾農(nóng)發(fā)：上半年凈利2.81億元同比下降19.1%

證券時報e公司訊，蘇墾農(nóng)發(fā)(601952)8月21日晚間發(fā)布半年報，上半年實現(xiàn)

匯川技術(shù)：上半年凈利潤20.77億元同比增長5.17%

證券時報e公司訊，匯川技術(shù)(300124)8月21日晚間披露半年報，公司上半年

益方生物：上半年凈虧損約1.68億元同比虧損收窄

證券時報e公司訊，益方生物(688382)8月21日晚間發(fā)布半年報，上半年實現(xiàn)

好“屏”湖北點亮智造之光

數(shù)字時代，顯示屏無處不在湖北擁有國內(nèi)最大、品類最齊全的中小尺寸顯示

中新網(wǎng)蘇州8月20日電(記者鐘升)“阿里山的姑娘美如水呀，阿里山的少年

格隆匯8月21日丨有投資者向富士萊(301258 SZ)提問，“請問公司是否與諾

實探亞洲寵物展：國產(chǎn)公司爭相發(fā)力營銷寵食、寵物用品需求走向多元精細化

近半年來伴隨著養(yǎng)寵人群攀升，各細分品類產(chǎn)業(yè)消費增速回暖，各類寵物企

證券時報網(wǎng)訊，海關(guān)總署21日發(fā)布《關(guān)于防止猴痘疫情傳入我國的公告》，

證券時報e公司訊，榮昌生物(688331)8月21日晚間發(fā)布半年報，上半年實現(xiàn)

證券時報網(wǎng)訊，香山股份8月21日晚間發(fā)布半年度報告。2023年上半年，公

證券時報e公司訊，宏微科技(688711)8月21日晚間公告，公司近日與客戶A

北交所優(yōu)化新股發(fā)行上市流程縮短申購資金凍結(jié)時長等

助力企業(yè)快速恢復(fù) 促進優(yōu)質(zhì)企業(yè)集聚順義區(qū)經(jīng)濟運行呈現(xiàn)回升向好態(tài)勢

今年以來，順義區(qū)經(jīng)濟運行呈現(xiàn)回升向好態(tài)勢，上半年，實現(xiàn)地區(qū)生產(chǎn)總值

第二十四屆8·18哲里木賽馬節(jié)：激情澎湃閉幕不“落幕”

人民網(wǎng)通遼8月20日電（劉藝琳、實習(xí)生楊光、劉璇）激情澎湃，精彩紛呈

輝南縣紀(jì)委監(jiān)委重心下沉激活監(jiān)督“神經(jīng)末梢”

證券時報網(wǎng)訊，據(jù)商務(wù)部消息，商務(wù)部、國家發(fā)改委、金融監(jiān)管總局發(fā)布關(guān)

證券時報網(wǎng)訊，天源迪科8月21日在交易所互動平臺中披露，截至8月20日公

北京君正股東戶數(shù)連續(xù)8期下降籌碼集中以來股價累計下跌23.27%

證券時報網(wǎng)訊，北京君正8月21日在交易所互動平臺中披露，截至8月20日公

甘肅能源籌碼持續(xù)集中最新股東戶數(shù)下降0.49%

證券時報網(wǎng)訊，甘肅能源8月21日在交易所互動平臺中披露，截至8月20日公

證券時報e公司訊，紫金礦業(yè)(601899)8月21日晚間公告，全資子公司紫金實

惠子相梁翻譯一句一譯惠子相梁翻譯

0471房產(chǎn)來為大家解答以上的問題?；葑酉嗔悍g一句一譯，惠子相梁翻譯

日前，市人大常委會召開全市托育服務(wù)發(fā)展情況專題調(diào)研座談會，市人大常

夢見土地代表著機會和潛力的到來。它象征著你在現(xiàn)實生活中種下種子，然

從知情人士了解到，東方甄選已決定入駐淘寶直播，目前公司正在組建淘寶

共享充電寶計費價格上漲嚴(yán)重受訪者稱其過度收集并傳輸個人信息

又是小作文惹的禍？多方回應(yīng)：不屬實