大模型的數(shù)學能力究竟如何?其在數(shù)學學科教育場景中能夠發(fā)揮多大價值?結果值得期待。
2024年高考已順利落幕,讓大模型寫高考作文題已不稀奇,大眾通常認為大模型更擅長文科,不擅長進行數(shù)學計算和邏輯推理。當AI遇上高考數(shù)學題,大模型化身為“考生”答數(shù)學題,會交出怎樣的答卷?
我們選取了4名有代表性的大模型“考生”,分別是九章大模型、星火大模型(v3.5版本)、文心一言(3.5版)、智譜清言(GLM-4),選取2024全國高考數(shù)學新課標1卷客觀題部分進行測評。大模型的數(shù)學能力究竟如何?其在數(shù)學學科教育場景中能夠發(fā)揮多大價值?結果值得期待。
四位“考生”表現(xiàn)參差不齊
此次測評選取的4個大模型中,星火大模型(v3.5版本)、文心一言(3.5版)、智譜清言(GLM-4)為通用大模型,九章大模型則為以數(shù)學能力見長的教育垂類模型。
在試題選擇上,為便于評價統(tǒng)計,統(tǒng)一選擇了2024年數(shù)學新課標Ⅰ卷中的14道客觀題進行測試,其中包括8道單選題、3道多選題、3道填空題。此外,由于試題中存在圖形、大量數(shù)學符號,為防止以文本形式輸入題目產(chǎn)生偏差,統(tǒng)一選擇以圖片形式呈現(xiàn)題目并提供給大模型進行解答。
四個大模型在此次“考試”中,整體表現(xiàn)如何?
據(jù)新京報記者統(tǒng)計,14道題目中,九章大模型共答對11道,星火大模型共答對12道,二者不相上下。而另外兩位差別較大,文心一言共答對1道,智譜清言共答對4道。
最終統(tǒng)計結果顯示,四位“考生”此次作答正確率從高到低依次為星火大模型(85.71%)、九章大模型(78.57%)、智譜清言(28.57%)、文心一言(7.14%)。
四個大模型正確率測評統(tǒng)計數(shù)據(jù)。制圖/新京報記者 馮琪
從不同題目類型的答題情況來看,九章大模型8道單選題全部答對,3道多選題答錯2道,3道填空題答錯1道;星火大模型單選題全部答對,多選題答錯2道,填空題全部答對;文心一言僅答對1道單選題;智譜清言僅答對3道單選、1道多選(另有3道題目因大模型提示無法識別圖片未參與作答)。
需要指出的是,由于測試的是客觀題,上述正確率僅根據(jù)大模型作答的最終選項進行判斷和統(tǒng)計,不涉及解題過程。但記者在測評過程中注意到,的確存在不少選項正確、但解題過程存在差錯及瑕疵的情況。
部分大模型“蒙”對答案 計算推理過程存在明顯錯誤
正確率的背后受多個維度能力影響,而數(shù)學能力是此次測評關注的核心。在測評過程中記者注意到,幾位“考生”在題目理解能力、計算推理能力以及解析過程的詳略上,均存在差異和不同特征。
就正確率而言,星火大模型表現(xiàn)較好,但部分題目的計算推理過程卻經(jīng)不起推敲,雖然結果正確,但過程中出現(xiàn)了明顯錯誤。例如單選題第1題中,星火大模型的解題步驟中提到“2不在區(qū)間(?2.236,2.236)(?2.236,2.236)內(因為它超過了上界)”,存在明顯謬誤,但最后卻“蒙”對答案。再如單選題第2題,一位數(shù)學專業(yè)人士看到解題過程后評價稱“推理的上下兩行公式之間沒有任何關聯(lián),也無法推導得出這個答案,為何最終選出了正確選項,令人匪夷所思。”
九章大模型的部分解題過程也存在瑕疵。在一道多選題中,九章大模型在推理中明明認為C選項錯誤,但最后又把C選為正確答案,“這個表述上下文之間沒啥邏輯關系,讓人摸不到頭腦。”上述數(shù)學專業(yè)人士指出。
如果看看正確率排名倒數(shù)第一的“考生”文心一言的試卷,令人匪夷所思的地方就更多了。看完這位考生答對的唯一一道題目,上述專業(yè)人士稱,解題過程中連基本的輸入都有多處錯誤,能得出正確答案可能只是“歪打正著”。
測評中可以發(fā)現(xiàn),文心一言具備讀取圖片內容的能力,但無法識別僅帶有復雜分數(shù)的公式和圖形。且讀取后出現(xiàn)了理解錯誤,例如單選題第3題,明明成功讀出題目中的“⊥”符號為“垂直”,卻在后面的步驟中理解為“平行”(題面中未出現(xiàn)任何平行相關字眼或符號),經(jīng)提示,文心一言發(fā)現(xiàn)理解錯誤,卻在再次解答時又出現(xiàn)理解偏差。
實際上,從單選題第5題的答題情況不難看出,文心一言解答數(shù)學題并不是用數(shù)理邏輯,而是試圖用文字論證的方式去猜測一個接近的結果。在多次提示下,它仍然執(zhí)著于靠猜測來答題——“這個計算過程并不是題目所要求的,因為題目只需要我們根據(jù)給定的選項來選擇答案。”
文心一言幾乎對每一題都進行了詳細的推理,但最終大部分題目都得出了錯誤的答案。在第11題,文心一言非常坦誠地做出答復,并揭示了大模型處理數(shù)學問題背后的本質:“由于我們沒有具體的數(shù)學工具或方程來直接進行計算,只能根據(jù)給定的信息進行邏輯推理。因此,我無法確定任何選項的正確性。”對于第12題,文心一言也告知稱“我只能提供解題的思路和步驟,而不能直接給出確切值。”
智譜清言在部分題目中也存在類似的問題。在第12題中,經(jīng)過一番分析后,智譜清言告訴用戶無法計算出結果。在第13題中,智譜清言重復地分析、發(fā)現(xiàn)問題、重新審視問題,又一遍一遍地發(fā)現(xiàn)行不通,進行了十輪以上的死循環(huán),直到人工點擊暫停才停下。
面對多選題,能否自行判斷每個選項正確與否、有幾個選項符合題目要求,對大模型來說也是一個考驗。
經(jīng)測試,九章大模型、星火大模型、智譜清言均能夠在未提示此題目為多選題的情況下,識別出多個正確選項;而文心一言在這方面稍遜色,且在提示某題目為多選題的情況下,仍然只選出一個選項(且是錯的)。
根據(jù)此次測評的整體答題情況,一位不愿具名的數(shù)學教研專家對四個大模型的表現(xiàn)分別作出點評。他認為,其中,九章大模型回答較為簡單,缺少深入分析,部分題目的表達力度也比較低,回答也不夠全面。星火大模型的分析有一定的深度和見解,但有些地方的回答不夠簡潔,有的題目的回答不夠準確,在表述和數(shù)學符號的應用上存在一些問題。
文心一言(3.5版)思考比較全面,方方面面都會涵蓋,由此推測前期建模分類分得比較細,語言表達相對來說也比較流暢。但回答特別冗長,也沒有重點,答案也存在一些偏差。智譜清言的解答比較簡潔,一般會直接回應題目,也有一定的邏輯性和條理性,但答案不是特別詳細,也沒有深入分析。有些題目的回答和標準答案的匹配度不高,有些題目雖然答對了,但會漏掉一些關鍵點。
大模型在“數(shù)學圖形識別及圖文關系理解”等方面存在短板
當大模型應用于教育場景中,除準確性這個核心要求外,如何啟發(fā)學生思考、對學生進行引導也備受關注。從這個角度看,四個受測大模型均能夠做到“不直接給出答案”,而是呈現(xiàn)解題過程,這是有別于傳統(tǒng)產(chǎn)品“拍照搜題”之處。
在啟發(fā)引導方面,九章大模型能夠依次進行分析、詳解、點睛,最后才會給出答案,但在部分題目關鍵重難點步驟一帶而過,需要追問才會展開解答。星火大模型也能夠給出解題步驟及正確結果,但較少呈現(xiàn)每一步背后的思路和思考邏輯;智譜清言可以從入手點開始一步一步引導解答,最終給出正確答案,但偶有分析錯誤、重新分析的情況出現(xiàn);而文心一言在答題的每一步都會做詳細的推理分析,但分析方向往往是錯誤的。
題目的識別讀取對解題效率有較大影響。此次測試統(tǒng)一采取上傳題目圖片的方式由大模型進行識別讀取,也考驗著大模型的圖片處理能力。
對于多選題第11題,四個大模型均未能成功識別,也是唯一一道讓四個大模型“全軍覆沒”的題目。可以看到,四個大模型在數(shù)學圖形識別及圖文關系理解上,普遍存在短板。
九章大模型在圖片題目識別上,會先在輸入文本框中識別讀取出題面,并以文本形式呈現(xiàn),用戶可在框內確認題目的準確性。若發(fā)現(xiàn)識別錯誤,點擊即可出現(xiàn)數(shù)學符號的輔助輸入工具欄,進行編輯修改,防止題目讀取錯誤。
星火大模型在圖片題目識別上亦未出現(xiàn)明顯障礙,但由于并不顯示識別內容,而是直接作答,因此無法確定識別結果是否影響了答題。智譜清言則在多道題目中均給出“未能識別”的反饋,需要將題目以文本形式進行人工輸入,方可進行后續(xù)解答。文心一言對于圖片及數(shù)學符號的識別略優(yōu)于智譜清言,但復雜分數(shù)公式、圖形亦識別不佳。
記者在測評過程中發(fā)現(xiàn),幾個大模型對上下文語境及語義的理解能力也存在差異。這一能力在教育場景中則關乎與學生的互動能否順利達成。
記者注意到,文心一言在答數(shù)學題能力上雖然遜色,但通過一系列的追問、對話可以發(fā)現(xiàn),這位“考生”對語義語境的把控能力非常優(yōu)秀,很容易明白用戶在說什么,在用戶補充提醒的時候,它很快就可以知道根據(jù)新信息去解釋上面的題目。
如果說文心一言是個不錯的“文科生”,那九章大模型和星火大模型可以說是地地道道的“理科生”,雖然非常擅長解題,但上下文語義語境的理解是它們的弱勢。
例如,當用戶對星火大模型提出“上面這道題可以再詳細分析一下嗎”時,星火并不能理解指向的是什么,而是回答“很抱歉,由于我無法看到您提到的具體問題,所以無法為您提供更詳細的分析。請?zhí)峁﹩栴}的詳細信息,以便我能夠更好地幫助您。”
再如,當用戶對九章大模型追問“請你檢查一下這道題,D選項到底對不對”時,九章并不明白用戶問的是什么,回應稱“當然可以,請您提供題目的具體內容,包括選項D的表述,我會盡力幫助您檢查。”說明其比較擅長解題,但很難聯(lián)系上下文語境語義來與用戶互動對話。
大模型的數(shù)學能力取決于算法和數(shù)據(jù)量
在大模型這一新事物面世初期,不少網(wǎng)友用開源的大模型去測試一些簡單數(shù)學題,發(fā)現(xiàn)很多答案并不準確。與自然語言理解不同,大型語言模型在解決算術推理任務時性能欠佳。
九章大模型是此次四位“考生”中唯一一個、也是國內首個專為數(shù)學打造的大模型。2023年5月,好未來公布正在進行自研數(shù)學大模型的研發(fā),是以解題和講題算法為核心的數(shù)學垂直領域大模型,其官網(wǎng)顯示,其數(shù)學計算能力已覆蓋小學、初中、高中的數(shù)學題,題目類型涵蓋計算題、應用題、代數(shù)題等多個類型。
為何不同模型的正確率及使用體驗會存在差別?
中國社科院新聞與傳播研究所所長胡正榮指出,大模型雖然是語言模型,但這個語言不是人們通常理解的字面意思,音頻、解題等都是大模型可以做的。從理論上看,數(shù)學大模型這個技術方向是可行的,但最終結果如何,取決于兩個因素,一是算法是不是足夠好,二是是否有足夠量的數(shù)據(jù)做支撐。
數(shù)據(jù)是大模型最基本的要素之一,如果要讓大模型解題精準,那么訓練大模型的數(shù)據(jù)量需要足夠大。“正確率的差別,一方面是因為輸入的數(shù)據(jù)量的差別造成的。”之所以大模型解數(shù)學題會出錯、沒有達到理想效果,就是因為訓練的題庫不夠大,數(shù)據(jù)量越大、質量越高,精準度就會越好。
另一方面,胡正榮也強調了算法的重要性。“如果大模型的算法不夠聰明,不是真正的數(shù)學思維,也會影響到答題的正確率。”
北京教育科學研究院基礎教育教學研究中心中學數(shù)學教研員丁明怡指出,通過四位“考生”的答題狀況可以看到,都存在答案正確但過程錯誤的情況。從當下情況來看,如果應用到真實教育場景中,無論是給老師用還是給學生用,都還有較大的提升空間。
此次測評暴露出幾個大模型存在的幾個普遍問題。第一,題目識別上存在比較大的困難,涉及一些數(shù)學符號、分式等會影響識別效果,還有一些圖形、表格識別存在問題,以及一些數(shù)學專業(yè)術語的表述識別也不夠精準。
第二,幾個大模型在邏輯推理能力上還存在不足。邏輯推理強調連貫性、嚴謹性,但幾個大模型這方面做得不夠好,例如,經(jīng)常會出現(xiàn)跳步,或者關鍵步驟缺失的情況。有時候不見得是計算錯誤,而是邏輯推理出現(xiàn)問題,導致最后結果錯誤。
第三是解題方法較為單一。例如此次測試的第十二題,實際上是一道中等偏下難度的題目,通常會基于雙曲線的定義和性質進行求解,這樣可以避免比較復雜的坐標計算、聯(lián)立方程求解等,可以大幅減少計算量、節(jié)省考試時間,但是這幾位“考生”在答這道題時都使用了常規(guī)方法,計算量很大、步驟也特別多。大模型似乎只能按照固定的模板去答題,而不能依據(jù)題目的特征因地制宜地選擇最優(yōu)方法。“如果用這樣的方法指導學生,對于學生知識學習和知識結構建立都是有弊病的。”
若用于數(shù)學教育,大模型還需優(yōu)化對學生的啟發(fā)引導
針對上述大模型存在的普遍問題,丁明怡提出多方面建議。
首先是要提升題目的識別能力,包括術語、符號、圖形、表格等等的識別。第二,建議加強大模型的邏輯推理能力訓練,通過算法的優(yōu)化提升邏輯的嚴謹性、連貫性,改善跳步、表述不嚴謹?shù)膯栴}。第三,建議優(yōu)化解題方法,能夠運用概念應用、數(shù)學結合等方法,來對學生進行指導。實際教學中,無論是代數(shù)還是幾何,都要依靠數(shù)形結合的方法讓學生快速理解、簡潔解題。建議大模型提升畫圖技能和應用能力,包括幾何圖形、函數(shù)圖形、統(tǒng)計圖形等。
丁明怡特別強調,還有特別重要的一點,要提高大模型的思維能力。“在創(chuàng)新性題型和情景創(chuàng)設性題型上,大模型大多數(shù)不太擅長。這類題一般會基于比較復雜的現(xiàn)實情境,表述形式也比較綜合,可能會有文字、表格、圖像等,而且需要解決真實的問題,比如提出最優(yōu)策略或者建議等。這種題目是沒有答題模板的,考查學生的閱讀能力和問題解決能力。實際上這對大模型也提出了更高的要求,需要真正讀懂這道題說的是什么,然后再把它轉化成數(shù)學問題,再運用數(shù)學知識進行解答,隨后再回到現(xiàn)實問題中提出解決方案。這方面大模型還有比較大的提升空間。”丁明怡解釋道。
另外丁明怡提到,如果大模型應用到數(shù)學教育場景中,對于學生的啟發(fā)引導還需優(yōu)化。
“比如,拿到一道題,希望能夠先講一下題目所涉及的知識點和知識結構,再去講這道題求解的方法,假如說基于定義性質來求解,可以一邊畫圖,一邊結合知識結構進行分步講解,得出答案后,還可以再進行解法比較,提出更優(yōu)的方法等。既有前期知識框架的分析,又有后期一步步的啟發(fā)以及和前期框架之間的聯(lián)系。”在丁明怡看來,這才是大模型應用于教育場景中的價值體現(xiàn)。
來源:本文內容搜集或轉自各大網(wǎng)絡平臺,并已注明來源、出處,如果轉載侵犯您的版權或非授權發(fā)布,請聯(lián)系小編,我們會及時審核處理。
聲明:江蘇教育黃頁對文中觀點保持中立,對所包含內容的準確性、可靠性或者完整性不提供任何明示或暗示的保證,不對文章觀點負責,僅作分享之用,文章版權及插圖屬于原作者。
Copyright©2013-2025 ?JSedu114 All Rights Reserved. 江蘇教育信息綜合發(fā)布查詢平臺保留所有權利
蘇公網(wǎng)安備32010402000125
蘇ICP備14051488號-3技術支持:南京博盛藍睿網(wǎng)絡科技有限公司