偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

陶哲軒:通義千問QwQ奧數(shù)真厲害,開源大模型頂流

人工智能 新聞
據(jù)陶哲軒介紹,就在不到一天前有參賽團隊使用 QwQ-32B 的特定實例已經(jīng)拿到了 18/20 的成績,該模型似乎比之前的開源模型在解決數(shù)學競賽問題方面表現(xiàn)得更好。

一個剛發(fā)布兩天的開源模型,正在 AI 數(shù)學奧林匹克競賽 AIMO 上創(chuàng)造新紀錄。

本周五,知名數(shù)學家、加州大學洛杉磯分校教授、菲爾茨獎得主陶哲軒(Terence Tao)介紹了第二屆 AIMO 競賽的最新進展。比賽在數(shù)據(jù)競賽平臺 Kaggle 上已經(jīng)持續(xù)了一個月,現(xiàn)在有隊伍快要觸發(fā)「Early Sharing Prize」的門檻了。

圖片

Early Sharing Prize 是為了鼓勵 AIMO 參賽者在比賽早期分享高分模型經(jīng)驗設立的獎項,需要選手在競賽中第一個獲得 20/50 分,且公開自己的 notebook,獎金為額外的兩萬美元。

據(jù)陶哲軒介紹,就在不到一天前有參賽團隊使用 QwQ-32B 的特定實例已經(jīng)拿到了 18/20 的成績,該模型似乎比之前的開源模型在解決數(shù)學競賽問題方面表現(xiàn)得更好。

今年 7 月,陶哲軒在國際數(shù)學奧賽 IMO 上給第一屆 AIMO 的獲獎團隊進行了頒獎,分享了自己對 AI 在數(shù)學研究中應用范式的思考,也打響了 AIMO 競賽的名聲。

AI 數(shù)學奧林匹克競賽 AIMO 的初衷是讓參與者使用 AI 模型解決國際數(shù)學難題,這將有助于推動人工智能模型的數(shù)學推理能力,并促進前沿知識的發(fā)展。

圖片

由于大模型技術的快速進步,人們對 AI 解決數(shù)學問題的能力寄予厚望,第一屆 AIMO 的獲獎隊伍分獲了 104.8 萬美元的獎金,而現(xiàn)在第二屆,獎池已經(jīng)上升到了 211.7 萬美元。

AIMO 競賽要求參賽團隊公開發(fā)布其代碼、方法、數(shù)據(jù)和模型參數(shù)。剛剛結束的第一屆比賽里大家使用的模型各不相同,包括 Mixtral 8x7b、Gemma、Llama 3 等等,有的來自大廠,有的來自 AI 創(chuàng)業(yè)公司,呈現(xiàn)百花齊放的態(tài)勢。

而到了這一屆,現(xiàn)在似乎已經(jīng)變成了 Qwen 系列在刷屏,其他模型偶爾出現(xiàn):

圖片

剛剛發(fā)布的 QwQ,還在把開源大模型推向新的高度。

QwQ 的能力也并不僅限于奧數(shù)這一個方面,最近社交網(wǎng)絡上也有不少人在夸它的推理能力。

圖片

HuggingFace 的產(chǎn)品設計人員也表示:測試了一下 QwQ,結果令人驚嘆:

圖片

有人說,QwQ 就是一個在冉冉升起的新神,雖然有時仍會出錯,但令人著迷的就是它的推理路徑,就像給 o1 再來一個巨大的加號。

圖片

更有趣的是,有人發(fā)現(xiàn)這個模型用于思考的原生語言似乎是中文:

圖片

難不成這就是 QwQ 邏輯能力強大的原因之一?無論如何,開源大模型領域的風向,似乎已經(jīng)變了。

11 月 28 日,阿里云通義團隊發(fā)布了全新 AI 推理模型 QwQ-32B-Preview,并同步開源。評測數(shù)據(jù)顯示,預覽版本的 QwQ 已展現(xiàn)出研究生水平的科學推理能力,在數(shù)學和編程方面表現(xiàn)尤為出色,整體推理水平比肩 OpenAI 的 o1。

  • HuggingFace 開源地址:https://huggingface.co/Qwen/QwQ-32B-Preview
  • HuggingFace Space 體驗:https://huggingface.co/spaces/Qwen/QwQ-32B-preview

據(jù)介紹,QwQ(Qwen with Questions)是通義千問 Qwen 大模型最新推出的實驗性研究模型,也是阿里云首個開源的 AI 推理模型。阿里云通義千問團隊研究發(fā)現(xiàn),當模型有足夠的時間思考、質(zhì)疑和反思時,其對數(shù)學和編程的理解就會深化?;诖?,QwQ 取得了解決復雜問題的突破性進展。

圖片在考察科學問題解決能力的 GPQA 評測集上,QwQ 獲得了 65.2% 的準確率,具備研究生水平的科學推理能力;在涵蓋綜合數(shù)學主題的 AIME 評測中,QwQ 以 50% 的勝率證明其擁有解決數(shù)學問題的豐富技能;在全面考察數(shù)學解題能力的 MATH-500 評測中,QwQ 斬獲 90.6% 的高分,一舉超越了 o1-preview 和 o1-mini;在評估高難度代碼生成的 LiveCodeBench 評測中,QwQ 答對一半的題,在編程競賽題場景中也有出色表現(xiàn)。

另外當面對復雜問題時,QwQ 展現(xiàn)了深度自省的能力,會質(zhì)疑自身假設,進行深思熟慮的自我對話,并仔細審視其推理過程的每一步。

比如,在經(jīng)典智力題「猜牌問題」中,QwQ 會通過梳理各方對話并推演現(xiàn)實情況,它像個擅長思考的人一樣,能揣摩「這句話有點 tricky」,反思「等一下,也許我需要更仔細地思考」,最終分析得出正確答案,這似乎是以前沒有 AI 能做到的事情。

面對目前高漲的熱度,通義團隊表示,盡管 QwQ 展現(xiàn)了強大的分析能力,但該模型仍是個供研究的實驗型模型,存在不同語言的混合使用、偶有不恰當偏見、對專業(yè)領域問題不了解等局限。隨著研究深入模型迭代,這些問題將逐步得到解決。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-12-16 12:47:59

2025-06-12 14:20:35

谷歌DeepMindAI

2023-08-03 19:11:45

2023-10-04 08:07:06

CopilotGitHub

2023-10-10 12:30:51

AI模型

2025-06-03 08:15:00

2023-05-22 13:31:06

GPT-4語言能力智商

2023-04-07 14:01:18

ChatGPT人工智能

2025-03-06 10:18:38

2024-12-09 09:35:00

AI數(shù)據(jù)訓練

2024-10-30 11:06:59

SpringAI模型

2024-08-30 15:19:22

2023-12-01 13:36:01

阿里云通義千問

2023-12-01 12:31:22

AI模型

2023-12-04 09:55:58

AI大模型

2024-07-08 13:08:04

2023-09-05 17:43:04

人工智能AI

2023-04-11 15:49:17

阿里云峰會人工智能

2025-05-06 15:31:17

陶哲軒AI工具

2023-04-11 13:40:22

阿里云大模型通義千問
點贊
收藏

51CTO技術棧公眾號