科技 > 人工智能 > 正文

大模型“趕考”，誰(shuí)更勝一籌？

2024年06月25日21:01 中國(guó)網(wǎng)科技

新聞爆料: alltech@china.org.cn 電話:(010)82081166-6059

　　今年的高考迎來(lái)一批有點(diǎn)特殊的考生。

　　隨著多地高考成績(jī)出爐，中國(guó)各家大模型的“趕考”情況也一目了然：字節(jié)跳動(dòng)旗下的豆包拿下中國(guó)“文科狀元”，大模型們的理科成績(jī)相對(duì)要差。

　　據(jù)極客公園6月24日發(fā)布的高考新課標(biāo)Ⅰ卷大模型評(píng)測(cè)報(bào)告中，排在文科總分第一的是國(guó)外公司OpenAI的GPT-4o考出的562分，從國(guó)內(nèi)公司來(lái)看，字節(jié)跳動(dòng)旗下的豆包拔得頭籌，成績(jī)是542.5分，其后依次是百度文心一言4.0的537.5分、百川智能“百小應(yīng)”的521分。

　　本次大模型高考評(píng)測(cè)與河南省考卷完全相同，河南高考錄取分?jǐn)?shù)線顯示，文科本科一批錄取分?jǐn)?shù)線為521分，豆包等三款國(guó)產(chǎn)AI成功沖上一本線，而豆包更是超出一本線20多分。

　　一：語(yǔ)言類考試成大模型拿手好戲

　　無(wú)論是語(yǔ)文還是英文，對(duì)于大模型而言，語(yǔ)言類考試顯得得心應(yīng)手。

　　作為本次評(píng)測(cè)的語(yǔ)文作文閱卷人，北京市級(jí)骨干教師、懷柔區(qū)語(yǔ)文學(xué)科帶頭人夏老師曾多次參加全國(guó)高考語(yǔ)文閱卷。夏老師認(rèn)為，Al寫(xiě)出的文章大多有清晰完整的結(jié)構(gòu)，有邏輯性，語(yǔ)言通順流暢。但其理性有余，感性不足，缺乏感情色彩，自然就缺乏感染力。

　　值得注意的是，豆包語(yǔ)文成績(jī)排名第二，但其作文在匿名閱卷中，獲得閱卷老師的好評(píng)。

　　夏老師認(rèn)為，豆包的文章中顯出的對(duì)就業(yè)結(jié)構(gòu)、倫理方面的擔(dān)心，展現(xiàn)出豆包已經(jīng)具有不錯(cuò)的思想深度和思辨能力。在立住“問(wèn)題”后，豆包隨即用反問(wèn)句自然過(guò)渡，引出三個(gè)排比段提出解決問(wèn)題的方法——保持“問(wèn)題意識(shí)”。

　　其中，用發(fā)展的眼光分析問(wèn)題，結(jié)合現(xiàn)實(shí)生活揭示問(wèn)題產(chǎn)生的根源和危害的部分頗為亮點(diǎn)，并且整體上“結(jié)構(gòu)嚴(yán)謹(jǐn)，層層推進(jìn)，語(yǔ)句流暢，認(rèn)識(shí)全面”。

　　英語(yǔ)則是大模型表現(xiàn)最優(yōu)異的學(xué)科，九個(gè)大模型的平均分高達(dá) 132 分(滿分 150)，大部分大模型都可以做到客觀題接近滿分，而只在作文少量失分，這也是大模型表現(xiàn)最接近的學(xué)科。

　　在閱讀和語(yǔ)言運(yùn)用兩大項(xiàng)客觀問(wèn)題的考試上，GPT-4o、百小應(yīng)、通義千問(wèn)獲得80分滿分，豆包和文心一言4.0也接近滿分。

　　二：大模型普遍“偏科”，豆包文綜拿高分

　　語(yǔ)言類考試能力強(qiáng)的大模型也有點(diǎn)“偏科”，文科考試中的成績(jī)相比理科而言顯然要亮眼很多。

　　在由歷史、地理、政治組成的新課標(biāo)文綜考卷評(píng)測(cè)中，GPT-4o獲得237分的成績(jī)，平均分達(dá)到79分，優(yōu)于多數(shù)人類考生。

　　國(guó)產(chǎn)大模型產(chǎn)品中，豆包的文綜成績(jī)最高，分?jǐn)?shù)達(dá)到224.5分，其中歷史科目拿到82.5分，在所有9款大模型中得分第一。

　　特別是歷史和政治兩科，測(cè)試選手中有三至四家能達(dá)到 80% 以上的得分率。歷史單科的桂冠歸屬豆包 82.5 的平均分，政治考試最強(qiáng)的卻意外是 GPT-4o，這個(gè)“外來(lái)的和尚”甚至在政治考試中得到了夸張的 91.5 分。而文心 4.0、百川 4.0，在歷史、政治兩大學(xué)科都能達(dá)到 80 分左右的水準(zhǔn)。

　　地理考卷則有大量圖片問(wèn)題，對(duì)一眾大模型是不小的挑戰(zhàn)，圖像理解能力較強(qiáng)的GPT-4o得到最高分，但僅有68分。

　　三：數(shù)學(xué)掛科不少，理科建議“復(fù)讀”

　　讓大部分考生頭疼的數(shù)學(xué)試卷也難住了大模型，這與過(guò)往的印象有些不同，數(shù)學(xué)似乎一直都是計(jì)算機(jī)的強(qiáng)項(xiàng)，但在中國(guó)高考卷上卻得不到印證。

　　GPT-4o 是高考數(shù)學(xué)卷中答的最好的，得了 70 分，這意味著在滿分150的情況下，測(cè)試中表現(xiàn)最好的的大模型仍然在數(shù)學(xué)考試?yán)铩皰炝丝啤?，甚至一半分都拿不到?/p>

　　總體的測(cè)試結(jié)果是，大模型解決數(shù)學(xué)問(wèn)題的能力明顯不足，在所有產(chǎn)品的 2 輪測(cè)試中，9 款產(chǎn)品的數(shù)學(xué)平均分只有 47 分。除了 GPT-4o，豆包和文心 4.0是平均分唯二超過(guò) 60 分的，分別是 62.5 分和 61.5 分，剩下的六位大模型考生中則只有百小應(yīng)能夠維持 40 分以上的平均分。

　　值得注意的是，從得分比例上來(lái)看，大模型在化學(xué)學(xué)科的表現(xiàn)要略差于物理，這可能跟化學(xué)標(biāo)記語(yǔ)言和化學(xué)結(jié)構(gòu)圖示相對(duì)更加復(fù)雜有關(guān)。在一道考察原子核外電子排布的化學(xué)題中，九個(gè)大模型幾乎全軍覆沒(méi)，只有豆包正確分析出了對(duì)應(yīng)的原子序數(shù)以及類別。

　　對(duì)于河南高考理科 511 分的一本線，表現(xiàn)最好的文心 4.0 仍然有超過(guò) 30 分的差距，但從測(cè)試結(jié)果來(lái)看，大模型目前的智力水平找個(gè)二本的理科專業(yè)已經(jīng)綽綽有余。

　　把大模型和人類的智力水平放進(jìn)同一個(gè)參照系，高考的成績(jī)讓我們看到，參加測(cè)試的大模型已經(jīng)接近半數(shù)有能力拿到一張一本文科的錄取通知書(shū)。但與此同時(shí)，測(cè)試結(jié)果也表明了，即使性能最頂尖的大模型產(chǎn)品們，目前也仍然在高考的數(shù)理化考題里疲于應(yīng)付。對(duì)于大模型而言，真正的“智能”還在路上。

(責(zé)任編輯：王晨曦)

版權(quán)聲明：
1.凡本網(wǎng)站注明“來(lái)源：中國(guó)網(wǎng)科技”的所有作品，均為本網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品。
2.未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明“來(lái)源及作者”。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。