誰最“聰明”:大模型為何需要測評

2023-08-21 21:42:18       來源:北京商報

近日由北京商報社、深藍媒體智庫主辦的“大模型見真章”AI主題沙龍上,360智腦產(chǎn)品資深專家葛燦輝在做“360智腦認(rèn)知型通用大模型”的產(chǎn)品分享時,引用了三個測評結(jié)果,其中一個來自第三方評估機構(gòu)SuperCLUE。

聽到這個引用,臺下元語智能聯(lián)合創(chuàng)始人兼COO朱雷笑了笑。朱雷的另一個身份,便是SuperCLUE聯(lián)合發(fā)起人。葛燦輝顯然不知道這一層關(guān)聯(lián)。


(資料圖)

國產(chǎn)大模型競賽如火如荼,好像每一個大模型都很牛,但具體牛在哪又始終縹緲,由此大模型測評應(yīng)運而生。但這又可能注定是一件要“燒情懷”的事,它同樣面臨著“開源”還是“閉源”的兩難選擇,和刷題與競價排名的諸多爭議。

武林大會

國產(chǎn)大模型又多一份測評,這次的狀元是訊飛星火。近日,《麻省理工科技評論》從研發(fā)和商業(yè)化能力、外界態(tài)度以及發(fā)展趨勢等維度全方位檢測大模型的能力,最終,訊飛星火認(rèn)知大模型V2.0以81.5分的成績登頂,榮獲“最聰明”的國產(chǎn)大模型稱號。

8月15日,科大訊飛發(fā)布“訊飛星火認(rèn)知大模型V2.0版本”,科大訊飛董事長劉慶峰介紹,從業(yè)界參考測試集上的效果對比來看,星火V2.0基于Python和C++進行代碼寫作能力已高度逼近ChatGPT,差距僅為1%和2%。

劉慶峰說,到10月24日星火大模型代碼能力全面超越ChatGPT,明年上半年將正式對標(biāo)GPT4。

訊飛星火像是一個縮影。過去這段時間,大模型頻繁更新讓人眼花繚亂,動輒千億的參數(shù)、各種專業(yè)術(shù)語也讓人不明覺厲。但人們似乎很難找到一把統(tǒng)一的尺子,公平、客觀、直觀地感知大模型真正的效果,而不被紛雜的信息流所蒙蔽。

天使投資人、資深人工智能專家郭濤對北京商報記者分析稱,“大模型是一個非常復(fù)雜的系統(tǒng),它由大量的數(shù)據(jù)和算法組成,在訓(xùn)練和推理過程中需要考慮很多因素。對大模型進行測評可以幫助我們更好地了解模型的性能和特點、評估價值和意義、局限性和潛在風(fēng)險等,從而為大模型的發(fā)展和應(yīng)用提供有力支持”。

深度科技研究院院長張孝榮將測評形容為一場“武林大會”,要試試各家身手。他對北京商報記者分析稱,大模型涉及到龐大的參數(shù)和復(fù)雜的算法,對于性能和效果的評估十分重要。通過測評可以大致地了解大模型的性能、穩(wěn)定性、準(zhǔn)確性等內(nèi)容,為用戶選擇合適的大模型提供參考。

測評開始補位。今年3月,真格基金以投資者的身份入場,設(shè)計了一套大模型測試集Z-Bench。高校也是測評的中堅力量,例如清華大學(xué)、上海交通大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集C-Eval。

有媒體報道,5月以來,10多家國內(nèi)外多家調(diào)研機構(gòu)、權(quán)威媒體和高校等發(fā)布大模型評測報告,包括新華社研究院中國企業(yè)發(fā)展研究中心發(fā)布的《人工智能大模型體驗報告2.0》、天津大學(xué)和信創(chuàng)海河實驗室發(fā)布的《大模型評測報告》、國際數(shù)據(jù)公司IDC發(fā)布的《AI大模型技術(shù)能力評估報告,2023》等。

難統(tǒng)一的標(biāo)準(zhǔn)

當(dāng)該有測評成為共識,迎面而來的下一個問題就是,我們需要一個怎樣的測評。

《麻省理工科技評論》提到,評測使用的測試集包含600道題目,覆蓋了語言專項、數(shù)學(xué)專項、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識、安全性共8個一級大類,126個二級分類,290個三級標(biāo)簽,并針對問題的豐富性和多樣性做了優(yōu)化。

此前IDC則在測評中將大模型分為三層,服務(wù)生態(tài)、產(chǎn)品技術(shù)以及行業(yè)應(yīng)用,對每一層的能力進行測評,主要考察指標(biāo)為算法模型、通用能力、創(chuàng)新能力、平臺能力、安全可解釋、大模型的應(yīng)用行業(yè)以及配套服務(wù)和大模型生態(tài)等,具體包括36項細顆粒度的評估標(biāo)準(zhǔn)。

對于大模型測評的必要性,朱雷提到,模型測評基準(zhǔn)是通用人工智能的基石,沒有測評就意味著沒有目標(biāo),很難準(zhǔn)確地判斷究竟哪些做得好哪些做得不好,同時對于AI的安全性也無法把控。從國際視角上看,對于大模型的測評也是沒有絕對標(biāo)準(zhǔn)的,因為大模型發(fā)展太快了。但在國內(nèi)要做出一個客觀公正的評測基準(zhǔn),也會遇到很多阻力。

北京市社會科學(xué)院副研究員王鵬對北京商報記者分析,目前大模型尚屬新興事物,國際上還沒有一個覆蓋面非常廣、能夠得到大家公允的評估方法或整套指標(biāo)體系,需要加強國際合作,形成廣泛共識。

“但這也會面臨一定的問題,即大模型本身類型繁多,通用還是專用、垂類還是跨行業(yè)、偏技術(shù)還是偏應(yīng)用等區(qū)別也會帶來一定的阻礙,因此更需要權(quán)威機構(gòu)加強研究,盡快形成共識,促進技術(shù)進步和行業(yè)發(fā)展。”王鵬稱。

在他看來,一個合格的測評,應(yīng)該由四個維度組成。首先是技術(shù)本身,包括穩(wěn)定性、效率、效果等;其次是與行業(yè)的結(jié)合,在行業(yè)應(yīng)用中是否有效果、成本是否可控、是否能夠形成商業(yè)閉環(huán);再次還要考慮是否安全可控;最后要從社會及行業(yè)認(rèn)知角度,了解其在行業(yè)中的關(guān)注度,畢竟“酒香也怕巷子深”。

張孝榮也提到,由于大模型涉及的領(lǐng)域和應(yīng)用非常廣泛,不同領(lǐng)域、不同應(yīng)用的大模型需要關(guān)注的指標(biāo)和評估方法不盡相同。因此,針對具體應(yīng)用領(lǐng)域和需求,不同機構(gòu)和組織可能會提出不同的評估標(biāo)準(zhǔn)和方法?!氨M管沒有統(tǒng)一的標(biāo)準(zhǔn),但測評的意義在于提供了一種評估和比較不同大模型性能和效果的方法,幫助用戶選擇適合自己需求的大模型。”

測評還是營銷

“測評的意義側(cè)重于營銷推廣”。張孝榮還提到了一個觀點。

葛燦輝在引用SuperCLUE測評結(jié)果的時候,提煉出了一句總結(jié):“360智腦”多項能力位列國產(chǎn)大模型第一?!堵槭±砉た萍荚u論》的測評報告,傳播最多的也是“訊飛星火被評為中國‘最聰明’的大模型”。

更早些時候,刷屏的是百度。比如IDC的大模型報告中,“百度文心大模型3.5獲多項滿分”,清華大學(xué)新聞與傳播學(xué)院沈陽團隊發(fā)布的《大語言模型綜合性能評估報告》中,百度文心一言在三大維度20項指標(biāo)中綜合評分國內(nèi)第一,超越ChatGPT。

每每涉及榜單,榜首歸誰總是容易成為話題中心,從這個角度上看,測評本身或許就帶著些營銷的天然屬性。但也正是如此,延伸出了一些不容忽視的問題。

“SuperCLUE出6月榜單的時候,第一時間就有人指責(zé)我們是不是收了360的錢,但事實是,直到這次沙龍,我們與360智腦產(chǎn)品負責(zé)人才有了第一次接觸?!敝炖兹绱苏f道。

事實上,大模型測評同樣面臨著“開源”和“閉源”的兩難選擇。朱雷稱,大模型測評題集也有開源閉源之分,但開源的題目就會面臨受試者提前訓(xùn)練進而刷分“打榜”的可能,而閉源的題目就會陷入到是否有暗箱操作乃至競價排名的爭議。

朱雷表示,SuperCLUE還是選擇了閉源的測評路線,但不是任何機構(gòu)都可以閉源的,之所以公眾較為相信SuperCLUE的測評結(jié)果,主要還是基于過去四年CLUE社區(qū)對中文語言模型的貢獻和公信力。

據(jù)了解,CLUE開源社區(qū)發(fā)起于2019年,旨在建立科學(xué)、客觀、中立的AI評測基準(zhǔn),過去幾年CLUE社區(qū)分別建立了ZeroCLUE、FewCLUE等知名的語言模型評測基準(zhǔn),又于今年5月發(fā)布首個中文通用大模型綜合性評測基準(zhǔn)SuperCLUE。

SuperCLUE分為SuperCLUE-Opt、SuperCLUE-LYB瑯琊榜以及SuperCLUE-Open三個不同維度的評測基準(zhǔn),相輔相成。其中SuperCLUE-Opt是首個中文通用大模型綜合性評測基準(zhǔn),聚焦客觀題;SuperCLUE-Open為首個中文通用大模型綜合性多輪開放域評測基準(zhǔn),聚焦主觀題;SuperCLUE-LYB瑯琊榜的定位則是中文大模型匿名對戰(zhàn)平臺,讓用戶參與投票。據(jù)介紹,SuperCLUE目前也是中文AI領(lǐng)域最完整的綜合性測評基準(zhǔn),同時也是罕見的“閉卷”考試。

“我們暫時還沒有找到折中的方法,所以決定先‘保密’,大模型廠商不知道我出了什么樣的問題,自然不好刷分。至于‘保密’帶來的黑盒化,目前來看還是一個兩者不可兼得的問題,但我們堅信自己的第三方中立性,評測的結(jié)論也是十分科學(xué)的。”朱雷稱。

SuperCLUE以“月考”形式進行,每個月也會更新迭代,包括補齊缺失的維度、更新現(xiàn)有的測試題等。“現(xiàn)階段我們?nèi)赃x擇以閉源的形式把測評摸清楚,建立比較健全的標(biāo)準(zhǔn)后可能會選擇部分開源,即便如此我們也會保證每次測評前廠商無法拿到相關(guān)的測試題,等到測試結(jié)果公布后再將題目放出,這樣外界可以根據(jù)題目進行復(fù)現(xiàn),或許會減弱類似于競價排名的爭議。”朱雷稱。

王鵬分析稱,任何一項評估或排名,都可能面臨一些問題,但這其實相當(dāng)于一個“否定之否定”的過程。首先評估體系本身并不是完美的,需要不斷優(yōu)化提升,應(yīng)對大家可能產(chǎn)生的質(zhì)疑。

其次,專業(yè)的評測機構(gòu)、技術(shù)機構(gòu)等,也要注重自己的口碑,建立完善的體系,儲備豐富的經(jīng)驗,有較好的技術(shù)團隊和技術(shù)儲備,作出更加客觀公允、公平公正的評價。“因為一旦出現(xiàn)‘人情分’等問題,不僅會影響自己的聲譽,也不利于行業(yè)的未來發(fā)展”,王鵬稱。

北京商報記者 楊月涵

關(guān)鍵詞:
x 廣告
x 廣告

Copyright @  2015-2022 海外生活網(wǎng)版權(quán)所有  備案號: 滬ICP備2020036824號-21   聯(lián)系郵箱:562 66 29@qq.com