第一個國產中文o1來了，直接數學競賽題伺候！

：2024年11月29日：量子位

分享到：

家人們，o1大模型，最近著實是有點火啊。就在今天，昆侖萬維的Skywork o1首發中文邏輯推理能力，并開啟了邀測。那一波實測，這不就得安排一下么。類似o1模型最大的特點就是其強悍的推理能力，因此，我們...

家人們，o1大模型，最近著實是有點火啊。

就在今天，昆侖萬維的Skywork o1首發中文邏輯推理能力，并開啟了邀測。

那一波實測，這不就得安排一下么。

類似o1模型最大的特點就是其強悍的推理能力，因此，我們直接上一道AIME數學競賽題，看看夠不夠“開門”。

（AIME：美國數學邀請賽，是介于AMC10、AMC12及美國數學奧林匹克競賽之間的一個數學競賽。）

第一個國產中文o1來了，直接數學競賽題伺候！

題目翻譯過來是這樣的：

每天早晨，Aya會進行一段長度為9公里的散步，然后在一家咖啡店停留。當她以每小時s公里的恒定速度行走時，整個散步加上在咖啡店停留的時間一共需要4小時，其中包含在咖啡店停留的t分鐘。當她以s+2公里每小時的速度行走時，整個過程（包括在咖啡店停留的時間）需要2小時24分鐘。假設Aya以s+1/2公里每小時的速度行走，求她在這種情況下（包括在咖啡店停留的時間）的總時間（以分鐘為單位）。

上下滑動查看所有內容：

第一個國產中文o1來了，直接數學競賽題伺候！

從Skywork o1整體的回答來看，它先是將問題分解為不同場景，通過建立方程組描述步行速度、時間和距離的關系。

隨后利用代數方法求解，確保了表達式簡化和單位換算的正確性。

而比較重要的一點，是Skywork o1可以代入結果驗證計算過程的自洽性，并明確得出總時間。

最終，它所給出的答案“204”，與今年AIME這道題的標準答案一致。

接下來，我們再拿今年的高考數學題做一番測試。

AI請聽題：

已知函數$f(x) = a(x - 1) - \ln x + 1$.(1)求f(x)的單調區間；(2)當α小于等于2時，證明：當x大于1時， $f(x) < e^{x-1}$ 恒成立。

對于這個問題，Skywork o1給出的思考和答案如下（上下滑動查看所有內容）：

第一個國產中文o1來了，直接數學競賽題伺候！

AI整體的思路和剛才一樣，都是屬于分步而治之，主打的就是一個step by step。

期間哪怕是遇到“陷阱”，Skywork o1也會及時發現并提醒自己，整個過程宛如把人類思考的過程復刻并呈現了出來一般。

最終給出的答案也是與標準答案一致。

第一個國產中文o1來了，直接數學競賽題伺候！

需要注意的是，Skywork o1其實是一個系列，更具體而言，包括三個細分模型：

Skywork o1 Open：基于Llama 3.1的8B開源模型，解鎖了許多輕量級模型無法解決的復雜數學任務。 Skywork o1 Lite：具備完整的思考能力，具有更好的中文支持和更快的推理和思考速度。 Skywork o1 Preview：本次完整版的推理模型，搭配自研的線上推理算法，使推理過程更完善、高質量。

不僅如此，Skywork o1 Open也參與到了類o1模型Benchmark的比較，能力上可謂是有了大幅的提高。

將Llama-3.1-8B的性能拉到同生態位SOTA（超越Qwen-2.5-7B-Instruct）。

同時，8B的Skywork o1 Open也解鎖了很多較大量級模型，如GPT 4o，無法完成的數學推理任務（如24點計算）。

這也為推理模型在輕量級設備上部署提供了可能性。

第一個國產中文o1來了，直接數學競賽題伺候！

在MATH數據集上，Q*（論文地址：https://arxiv.org/abs/2406.14283）幫助Llama-3.1-7B提升并超越了同生態位的SOTA Qwen2.5-7B-instruct。

同時，昆侖萬維也將開源兩個的推理任務的Process Reward Model（PRM）：Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B，相比此前開源的Skywork-Reward-Model僅對整個模型回答進行打分，Skywork o1 Open-PRM能給模型回答中的每個步驟進行打分。

對比開源社區現有的PRM，Skywork o1 Open-PRM-1.5B能達到開源社區8B的模型效果，例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data，OpenR的Math-psa-7B，Skywork o1 Open-PRM-7B能同時在大部分benchamrk上接近/超過10倍量級的Qwen2.5-Math-RM-72B。

Skywork o1 Open-PRM也是第一款適配代碼類任務的開源PRM。下面表格為以Skywork-o1-Open-8B作為基礎模型，使用不同PRM在數學和代碼評測集上的評估結果。

第一個國產中文o1來了，直接數學競賽題伺候！

詳細技術報告也將在不久后發布。目前模型和相關介紹已在Huggingface開源 (https://tinyurl.com/skywork-o1)。

那么除了純數學題之外，Skywork o1在其它推理任務上的表現又會如何？

接下來，我們繼續用更多維度的測試來考驗一番。

AI自我思考、規劃和反思

9.9和9.11哪個大？

首先，我們就用曾經難倒一眾AI大模型的經典問題“9.9和9.11哪個大”來做一下測試。

雖然現在幾乎所有大模型都能給出正確答案，但在這個測試中，我們將更關注AI思考的過程。

第一個國產中文o1來了，直接數學競賽題伺候！

從過程來看，Skywork o1依然采用分而治之的策略。

先比較整數位，判定二者的整數位相同；再判斷小數位，將其轉換為相同的格式，即0.90和0.11之間的比較，判定9.9大于9.11。

最后，Skywork o1還是把過程再次驗證了一遍，認定結果是正確的。

從它的思路來看，和人類比較這兩個數字的邏輯是一致的。

腦筋急轉彎

接下來，我們再來一道腦筋急轉彎：

一個箱子里裝了2個蘋果，拿走了兩個，但箱子里還是有2個蘋果。這可能嗎？

第一個國產中文o1來了，直接數學競賽題伺候！

對于這樣的腦筋急轉彎，很多人思考的過程，會先看下是否符合常理；若是屬于“不按套路出牌”的那種，就會再找找題面有沒有trick了。

那么到了AI這邊，它又會如何思考？

第一個國產中文o1來了，直接數學競賽題伺候！

Skywork o1先審視了一下題目，初步判定不符合常理，應當就開始抓細節了，腦洞大開地想了好幾種可能。

例如又有人放了2個蘋果進去、畫上去的蘋果、光學錯覺、箱子里有鏡子等等……

但上述的想法都被自己給否了，理由是太牽強。

最后，Skywork o1認定，這個題目的trick就在“拿走”這個詞兒身上，給出的解釋也是正解：

把蘋果從箱子里拿出來，但沒有帶離箱子，仍在箱子的范圍內。

加密問題

測試大模型的邏輯推理，加密問題可以說是一種非常適合的類型。

因為加密問題往往需要從有限的已知條件推導出未知信息，這需要模型具備強大的邏輯推理能力，能夠在多個條件之間找到關聯并推導出結論。

那么，話不多說，AI請聽題：

已知 ukwmfvhxyondhxjz rhfvpfjzxn ukjzwmkajzhxyo -> practice makes perfect 請基于這個例子找到密文 ukqgfvsi gwjzkatjwmjz dttjzp hxtjiyjz 對應的原文。

第一個國產中文o1來了，直接數學競賽題伺候！

Skywork o1從已知的加密規則和密文-明文對中歸納出字符映射關系，并基于映射規則對新密文進行解碼。

在這個過程中，模型邏輯清晰，分步拆解問題，逐步驗證假設，并在映射不完整的情況下，通過推測加密模式進一步完善解碼方案。

尤其是它對加密規則的歸納能力，不僅識別了每個字母被映射為兩個字符的規律，還通過字符位置和字母表的偏移發現了加密過程的具體算法（奇偶位置的偏移邏輯）。

但也并非完美

雖然Skywork o1在目前種種推理任務中表現還算不錯，但當我們把任務難度降到極低的時候，也發現了一個問題——有點啰嗦了。

例如問它“1+1等于幾”：

第一個國產中文o1來了，直接數學競賽題伺候！

Emmmm……繁瑣，著實有點繁瑣了。

但同時，模型考慮到了這道問題是否是在問不同進制情況下的答案，也體現了模型多樣性的思考能力。

不過在與昆侖萬維團隊交流過程中我們得知，對于這樣簡單的問題，團隊后續也會進一步對Skywork o1的解答做優化。

在看完效果之后，接下來的一個問題便是：

怎么做到的？

整體來看，Skywork o1之所以能有如此的思考、規劃及反思能力，主要得益于一個三階段的自研技術方案。

首先第一階段，是一個推理反思能力訓練的過程。

Skywork o1通過自研的多智能體體系構造出高質量的分步思考、反思和驗證數據。

這些多樣化的長思考數據用于對基礎模型進行進一步的預訓練和監督微調，從而提升了模型在復雜任務中的推理能力。

其次第二階段，是推理能力強化學習。

Skywork o1團隊研發了Skywork o1 Process Reward Model（PRM），適用于分步推理的強化學習過程。

該模型能夠有效捕捉到復雜推理任務中每一步對最終答案的影響；通過結合自研的分步推理強化算法，模型的推理和思考能力得到了顯著增強。

PRM的核心在于其對推理過程的精細化獎勵機制。

傳統的強化學習模型往往只關注最終結果的正確性，而PRM則在每一個推理步驟中引入了獎勵評估，從而確保模型能夠在每一步中不斷優化其推理路徑。

PRM能夠對模型的每一個思考過程進行評分，從而幫助模型糾正錯誤思維鏈，提升整體推理質量。

Skywork o1團隊還在PRM中加入了多任務訓練數據，使其不僅能夠在單一領域表現出色，同時具備在多樣化任務場景中靈活應用的能力。

通過這種方式，Skywork o1能夠有效應對各類復雜的推理挑戰。

最后，則是推理規劃（planning）。

這也是昆侖萬維首次將Q*算法應用并公開，用于線上推理。

Q*算法與模型的在線思考能力結合，能夠尋找最佳推理路徑，從而顯著提高了模型的在線推理能力。

值得一提的是，這也是全球首次實現Q*算法落地，使得Skywork o1的推理能力進一步領先于其他同類模型。

為什么類o1模型重要？

早在Sam Altman發布o1模型之際，他便對此問題做了一些點評：

o1標志著一種新范式的開始：能夠進行通用復雜推理的AI。

第一個國產中文o1來了，直接數學競賽題伺候！

這一趨勢也離不開行業發展的大背景，即市場對于具有強大推理能力的模型需求日益增加。

而類o1模型模型的推出，正好滿足了這一需求，尤其是在需要復雜邏輯推理的應用場景中，如科學研究、編程、數據分析等領域。

因為它們對性能提升方式不同于傳統的大規模預訓練方式（通過增加參數量和數據量），是通過增加推理時的算力和時間投入，實現了性能的顯著提升，這為模型的發展帶來了新的Scaling Law。

并且通過內置思維鏈（CoT）逐步解決問題的方式，一定程度上模擬了人類慢思考過程；這種方式使得模型在推理時能夠進行自我糾正，當模型檢測到偏離正確的推理路徑時，它可以回溯并嘗試其他方案。

一言蔽之，是符合市場和行業硬需求。

而縱觀昆侖萬維在大模型時代這兩年的表現，毫不夸張的說，每一次的技術新潮來臨之際，國產選手中定然有它的身影出現，而且是屬于早一批的那種。

例如其大底座天工大模型系列，包括天工1.0、天工2.0、天工3.0，以及今天正式邀請測試的「天工大模型4.0」 o1版（Skywork o1）。

其次在其它模態上，還包括AI搜索（天工AI搜索）、AI音樂（天工SkyMusic）、AI社交（Linky）、AI視頻（AI短劇平臺SkyReels）、實時語音對話助手（Skyo）等。

并且開源，也是從昆侖萬維從一開始布局至今以來的特點之一；正如此次的開源模型Skywork o1 Open，也將加速國內開源社區復現o1的進程。

最后，Skywork o1邀測地址放下面嘍，感興趣的小伙伴快去申請吧~

第一個國產中文o1來了，直接數學競賽題伺候！

[我要糾錯]

[編輯：宋聰喬 &發表于江蘇]

關鍵詞：人們大模型最近著實是有

來源：本文內容搜集或轉自各大網絡平臺，并已注明來源、出處，如果轉載侵犯您的版權或非授權發布，請聯系小編，我們會及時審核處理。
聲明：江蘇教育黃頁對文中觀點保持中立，對所包含內容的準確性、可靠性或者完整性不提供任何明示或暗示的保證，不對文章觀點負責，僅作分享之用，文章版權及插圖屬于原作者。

點個贊

踩一腳

上一篇內蒙古今年已發放18億元助學貸款

下一篇強強聯合東北地區“國優計劃”研究生培養共同體成立

免费在线a视频-免费在线观看a视频-免费在线观看大片影视大全-免费在线观看的视频-色播丁香-色播基地

第一個國產中文o1來了，直接數學競賽題伺候！

[編輯：宋聰喬 &發表于江蘇]

關鍵詞：人們大模型最近著實是有

您在閱讀：第一個國產中文o1來了，直接數學競賽題伺候！

最熱文章

教育百科

相關新聞

聯系我們

用戶服務

客戶服務

網站公告

媒體我們

微信公眾號

新浪微博

全國統一熱線： 025-81550000

免费在线a视频-免费在线观看a视频-免费在线观看大片影视大全-免费在线观看的视频-色播丁香-色播基地

第一個國產中文o1來了，直接數學競賽題伺候！

[編輯：宋聰喬 &發表于江蘇]

關鍵詞： 人們 大模型 最近 著實 是有

最新文章

您在閱讀：第一個國產中文o1來了，直接數學競賽題伺候！

最熱文章

教育百科

相關新聞

聯系我們

用戶服務

客戶服務

網站公告

媒體我們

微信公眾號

新浪微博

全國統一熱線： 025-81550000

關鍵詞：人們大模型最近著實是有