一道步驟難懂的數學奧賽試題、一場組會中的“頭腦風暴”、一個需要做大量“功課”才能做出的生活決策——當大模型能像人類一樣思考時,你會發現,這一切都將在一次回車的敲下后迎刃而解。
“什么樣的場景最適合讓AI鍛煉思考能力?我們認為是數學場景。”11月16日,月之暗面創始人楊植麟發布了新一代數學能力可對標OpenAI o1系列的數學推理模型k0-math,在中考、高考、考研以及包含競賽題的MATH等數學基準測試中,k0-math初代模型成績已經超過o1-mini和o1-preview模型。
“這可以說是,在OpenAI o1發布后,國內首個摸索出并實現o1思路的公司。”對于k0-math的推出,一位國內頭部互聯網公司的大模型技術人員表示,k0-math模型采用的全新強化學習和思維鏈(CoT)推理技術,正是業內普遍認為OpenAI o1系列的技術關鍵所在,國內多家互聯網巨頭均在破解這一“新思路”,但在k0-math發布時,尚未有其他類似模型問世。
在“百模大戰”開戰的一年多里,新技術、新團隊、新應用不斷涌現,戰況也隨之頻繁變動。從月之暗面、零一萬物等“新AI六小龍”和字節跳動、阿里等互聯網大廠團隊在混戰中脫穎而出,到如今應用最廣的AI智能助手陸續上線,可以觀察到的是,豆包和Kimi的領先讓AI智能助手領域逐漸呈現出了“兩超多強”的新格局。
新模型登場
Kimi對標o1
“如果你有100枚硬幣,每枚硬幣正面朝上。每次翻轉包含當前正面朝上的硬幣和它相鄰的兩枚硬幣。最少需要翻轉多少次才能使所有硬幣反面朝上?”
仿佛一個數學天才型選手,Kimi數學版在40秒鐘里完成了對該題的問題分解、3種思路嘗試、解法驗證并正確作答的全套解題流程。
值得注意的是,其中,“意識到逐個翻轉硬幣不可行,我開始思考如何最大化每次翻轉的效果”“意識到翻轉之間隔兩枚硬幣會導致重疊,我考慮增加間隔”等對思維鏈推理的展示,均是模型自我思考能力的體現。
今年9月,被Open AI創始人Sam Altman喻為“新范式開始”的o1誕生,以模仿人類思維過程進行的強化學習和思維鏈技術,突破了AI推理瓶頸。自此,行業的技術焦點也從預訓練轉向了推理和強化學習。
11月16日,Kimi率先交出國內首份答卷。據介紹,相較于以盡快提供答案為關鍵目標的常規模型,新推出的k0-math模型在做題過程中會花更長的時間來推理,包括思考和規劃思路,并且在必要時自行反思改進解題思路,提升答題的成功率。
發布會上,月之暗面公布了k0-math的目前測評得分:在業界最常使用的數學能力基準測試MATH中,k0-math模型得分93.8分,超過o1-mini的90分和o1-preview的85.5分,且k0-math這一成績僅次于o1完全版的94.8分。
在兩個難度更大的競賽級別的數學題庫OMNI-MATH和AIME基準測試中,k0-math初代模型的表現分別達到了o1-mini最高成績的90%和83%。
從線上AI社區的討論中選取一道數學題進行實測,Kimi數學版用時2分10秒完成了對該題的正確解答。從線上該帖的評論區反饋來看,在求解該題時,o1-mini和o1-preview在用時上有約30秒的優勢,但多次測試均未得出正確答案。