今年的高考迎來(lái)一批有點(diǎn)特殊的考生。
隨著多地高考成績(jī)出爐,中國(guó)各家大模型的“趕考”情況也一目了然:字節(jié)跳動(dòng)旗下的豆包拿下中國(guó)“文科狀元”,大模型們的理科成績(jī)相對(duì)要差。
據(jù)極客公園6月24日發(fā)布的高考新課標(biāo)Ⅰ卷大模型評(píng)測(cè)報(bào)告中,排在文科總分第一的是國(guó)外公司OpenAI的GPT-4o考出的562分,從國(guó)內(nèi)公司來(lái)看,字節(jié)跳動(dòng)旗下的豆包拔得頭籌,成績(jī)是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小應(yīng)”的521分。
本次大模型高考評(píng)測(cè)與河南省考卷完全相同,河南高考錄取分?jǐn)?shù)線顯示,文科本科一批錄取分?jǐn)?shù)線為521分,豆包等三款國(guó)產(chǎn)AI成功沖上一本線,而豆包更是超出一本線20多分。
一:語(yǔ)言類考試成大模型拿手好戲
無(wú)論是語(yǔ)文還是英文,對(duì)于大模型而言,語(yǔ)言類考試顯得得心應(yīng)手。
作為本次評(píng)測(cè)的語(yǔ)文作文閱卷人,北京市級(jí)骨干教師、懷柔區(qū)語(yǔ)文學(xué)科帶頭人夏老師曾多次參加全國(guó)高考語(yǔ)文閱卷。夏老師認(rèn)為,Al寫(xiě)出的文章大多有清晰完整的結(jié)構(gòu),有邏輯性,語(yǔ)言通順流暢。但其理性有余,感性不足,缺乏感情色彩,自然就缺乏感染力。
值得注意的是,豆包語(yǔ)文成績(jī)排名第二,但其作文在匿名閱卷中,獲得閱卷老師的好評(píng)。
夏老師認(rèn)為,豆包的文章中顯出的對(duì)就業(yè)結(jié)構(gòu)、倫理方面的擔(dān)心,展現(xiàn)出豆包已經(jīng)具有不錯(cuò)的思想深度和思辨能力。在立住“問(wèn)題”后,豆包隨即用反問(wèn)句自然過(guò)渡,引出三個(gè)排比段提出解決問(wèn)題的方法——保持“問(wèn)題意識(shí)”。
其中,用發(fā)展的眼光分析問(wèn)題,結(jié)合現(xiàn)實(shí)生活揭示問(wèn)題產(chǎn)生的根源和危害的部分頗為亮點(diǎn),并且整體上“結(jié)構(gòu)嚴(yán)謹(jǐn),層層推進(jìn),語(yǔ)句流暢,認(rèn)識(shí)全面”。
英語(yǔ)則是大模型表現(xiàn)最優(yōu)異的學(xué)科,九個(gè)大模型的平均分高達(dá) 132 分(滿分 150),大部分大模型都可以做到客觀題接近滿分,而只在作文少量失分,這也是大模型表現(xiàn)最接近的學(xué)科。
在閱讀和語(yǔ)言運(yùn)用兩大項(xiàng)客觀問(wèn)題的考試上,GPT-4o、百小應(yīng)、通義千問(wèn)獲得80分滿分,豆包和文心一言4.0也接近滿分。
二:大模型普遍“偏科”,豆包文綜拿高分
語(yǔ)言類考試能力強(qiáng)的大模型也有點(diǎn)“偏科”,文科考試中的成績(jī)相比理科而言顯然要亮眼很多。
在由歷史、地理、政治組成的新課標(biāo)文綜考卷評(píng)測(cè)中,GPT-4o獲得237分的成績(jī),平均分達(dá)到79分,優(yōu)于多數(shù)人類考生。
國(guó)產(chǎn)大模型產(chǎn)品中,豆包的文綜成績(jī)最高,分?jǐn)?shù)達(dá)到224.5分,其中歷史科目拿到82.5分,在所有9款大模型中得分第一。
特別是歷史和政治兩科,測(cè)試選手中有三至四家能達(dá)到 80% 以上的得分率。歷史單科的桂冠歸屬豆包 82.5 的平均分,政治考試最強(qiáng)的卻意外是 GPT-4o,這個(gè)“外來(lái)的和尚”甚至在政治考試中得到了夸張的 91.5 分。而文心 4.0、百川 4.0,在歷史、政治兩大學(xué)科都能達(dá)到 80 分左右的水準(zhǔn)。
地理考卷則有大量圖片問(wèn)題,對(duì)一眾大模型是不小的挑戰(zhàn),圖像理解能力較強(qiáng)的GPT-4o得到最高分,但僅有68分。
三:數(shù)學(xué)掛科不少,理科建議“復(fù)讀”
讓大部分考生頭疼的數(shù)學(xué)試卷也難住了大模型,這與過(guò)往的印象有些不同,數(shù)學(xué)似乎一直都是計(jì)算機(jī)的強(qiáng)項(xiàng),但在中國(guó)高考卷上卻得不到印證。
GPT-4o 是高考數(shù)學(xué)卷中答的最好的,得了 70 分,這意味著在滿分150的情況下,測(cè)試中表現(xiàn)最好的的大模型仍然在數(shù)學(xué)考試?yán)铩皰炝丝啤?,甚至一半分都拿不到?/p>
總體的測(cè)試結(jié)果是,大模型解決數(shù)學(xué)問(wèn)題的能力明顯不足,在所有產(chǎn)品的 2 輪測(cè)試中,9 款產(chǎn)品的數(shù)學(xué)平均分只有 47 分。除了 GPT-4o,豆包和文心 4.0是平均分唯二超過(guò) 60 分的,分別是 62.5 分和 61.5 分,剩下的六位大模型考生中則只有百小應(yīng)能夠維持 40 分以上的平均分。
值得注意的是,從得分比例上來(lái)看,大模型在化學(xué)學(xué)科的表現(xiàn)要略差于物理,這可能跟化學(xué)標(biāo)記語(yǔ)言和化學(xué)結(jié)構(gòu)圖示相對(duì)更加復(fù)雜有關(guān)。在一道考察原子核外電子排布的化學(xué)題中,九個(gè)大模型幾乎全軍覆沒(méi),只有豆包正確分析出了對(duì)應(yīng)的原子序數(shù)以及類別。
對(duì)于河南高考理科 511 分的一本線,表現(xiàn)最好的文心 4.0 仍然有超過(guò) 30 分的差距,但從測(cè)試結(jié)果來(lái)看,大模型目前的智力水平找個(gè)二本的理科專業(yè)已經(jīng)綽綽有余。
把大模型和人類的智力水平放進(jìn)同一個(gè)參照系,高考的成績(jī)讓我們看到,參加測(cè)試的大模型已經(jīng)接近半數(shù)有能力拿到一張一本文科的錄取通知書(shū)。但與此同時(shí),測(cè)試結(jié)果也表明了,即使性能最頂尖的大模型產(chǎn)品們,目前也仍然在高考的數(shù)理化考題里疲于應(yīng)付。對(duì)于大模型而言,真正的“智能”還在路上。
(責(zé)任編輯:王晨曦)