偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<legend id="xm6vo"><track id="xm6vo"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

陶哲軒：通義千問QwQ奧數(shù)真厲害，開源大模型頂流

作者：機(jī)器之心 2024-12-02 08:00:00

人工智能新聞

據(jù)陶哲軒介紹，就在不到一天前有參賽團(tuán)隊(duì)使用 QwQ-32B 的特定實(shí)例已經(jīng)拿到了 18/20 的成績，該模型似乎比之前的開源模型在解決數(shù)學(xué)競賽問題方面表現(xiàn)得更好。

一個(gè)剛發(fā)布兩天的開源模型，正在 AI 數(shù)學(xué)奧林匹克競賽 AIMO 上創(chuàng)造新紀(jì)錄。

本周五，知名數(shù)學(xué)家、加州大學(xué)洛杉磯分校教授、菲爾茨獎(jiǎng)得主陶哲軒（Terence Tao）介紹了第二屆 AIMO 競賽的最新進(jìn)展。比賽在數(shù)據(jù)競賽平臺 Kaggle 上已經(jīng)持續(xù)了一個(gè)月，現(xiàn)在有隊(duì)伍快要觸發(fā)「Early Sharing Prize」的門檻了。

Early Sharing Prize 是為了鼓勵(lì) AIMO 參賽者在比賽早期分享高分模型經(jīng)驗(yàn)設(shè)立的獎(jiǎng)項(xiàng)，需要選手在競賽中第一個(gè)獲得 20/50 分，且公開自己的 notebook，獎(jiǎng)金為額外的兩萬美元。

據(jù)陶哲軒介紹，就在不到一天前有參賽團(tuán)隊(duì)使用 QwQ-32B 的特定實(shí)例已經(jīng)拿到了 18/20 的成績，該模型似乎比之前的開源模型在解決數(shù)學(xué)競賽問題方面表現(xiàn)得更好。

今年 7 月，陶哲軒在國際數(shù)學(xué)奧賽 IMO 上給第一屆 AIMO 的獲獎(jiǎng)團(tuán)隊(duì)進(jìn)行了頒獎(jiǎng)，分享了自己對 AI 在數(shù)學(xué)研究中應(yīng)用范式的思考，也打響了 AIMO 競賽的名聲。

AI 數(shù)學(xué)奧林匹克競賽 AIMO 的初衷是讓參與者使用 AI 模型解決國際數(shù)學(xué)難題，這將有助于推動人工智能模型的數(shù)學(xué)推理能力，并促進(jìn)前沿知識的發(fā)展。

由于大模型技術(shù)的快速進(jìn)步，人們對 AI 解決數(shù)學(xué)問題的能力寄予厚望，第一屆 AIMO 的獲獎(jiǎng)隊(duì)伍分獲了 104.8 萬美元的獎(jiǎng)金，而現(xiàn)在第二屆，獎(jiǎng)池已經(jīng)上升到了 211.7 萬美元。

AIMO 競賽要求參賽團(tuán)隊(duì)公開發(fā)布其代碼、方法、數(shù)據(jù)和模型參數(shù)。剛剛結(jié)束的第一屆比賽里大家使用的模型各不相同，包括 Mixtral 8x7b、Gemma、Llama 3 等等，有的來自大廠，有的來自 AI 創(chuàng)業(yè)公司，呈現(xiàn)百花齊放的態(tài)勢。

而到了這一屆，現(xiàn)在似乎已經(jīng)變成了 Qwen 系列在刷屏，其他模型偶爾出現(xiàn)：

剛剛發(fā)布的 QwQ，還在把開源大模型推向新的高度。

QwQ 的能力也并不僅限于奧數(shù)這一個(gè)方面，最近社交網(wǎng)絡(luò)上也有不少人在夸它的推理能力。

HuggingFace 的產(chǎn)品設(shè)計(jì)人員也表示：測試了一下 QwQ，結(jié)果令人驚嘆：

有人說，QwQ 就是一個(gè)在冉冉升起的新神，雖然有時(shí)仍會出錯(cuò)，但令人著迷的就是它的推理路徑，就像給 o1 再來一個(gè)巨大的加號。

更有趣的是，有人發(fā)現(xiàn)這個(gè)模型用于思考的原生語言似乎是中文：

難不成這就是 QwQ 邏輯能力強(qiáng)大的原因之一？無論如何，開源大模型領(lǐng)域的風(fēng)向，似乎已經(jīng)變了。

11 月 28 日，阿里云通義團(tuán)隊(duì)發(fā)布了全新 AI 推理模型 QwQ-32B-Preview，并同步開源。評測數(shù)據(jù)顯示，預(yù)覽版本的 QwQ 已展現(xiàn)出研究生水平的科學(xué)推理能力，在數(shù)學(xué)和編程方面表現(xiàn)尤為出色，整體推理水平比肩 OpenAI 的 o1。

HuggingFace 開源地址：https://huggingface.co/Qwen/QwQ-32B-Preview
HuggingFace Space 體驗(yàn)：https://huggingface.co/spaces/Qwen/QwQ-32B-preview

據(jù)介紹，QwQ（Qwen with Questions）是通義千問 Qwen 大模型最新推出的實(shí)驗(yàn)性研究模型，也是阿里云首個(gè)開源的 AI 推理模型。阿里云通義千問團(tuán)隊(duì)研究發(fā)現(xiàn)，當(dāng)模型有足夠的時(shí)間思考、質(zhì)疑和反思時(shí)，其對數(shù)學(xué)和編程的理解就會深化。基于此，QwQ 取得了解決復(fù)雜問題的突破性進(jìn)展。

在考察科學(xué)問題解決能力的 GPQA 評測集上，QwQ 獲得了 65.2% 的準(zhǔn)確率，具備研究生水平的科學(xué)推理能力；在涵蓋綜合數(shù)學(xué)主題的 AIME 評測中，QwQ 以 50% 的勝率證明其擁有解決數(shù)學(xué)問題的豐富技能；在全面考察數(shù)學(xué)解題能力的 MATH-500 評測中，QwQ 斬獲 90.6% 的高分，一舉超越了 o1-preview 和 o1-mini；在評估高難度代碼生成的 LiveCodeBench 評測中，QwQ 答對一半的題，在編程競賽題場景中也有出色表現(xiàn)。

另外當(dāng)面對復(fù)雜問題時(shí)，QwQ 展現(xiàn)了深度自省的能力，會質(zhì)疑自身假設(shè)，進(jìn)行深思熟慮的自我對話，并仔細(xì)審視其推理過程的每一步。

比如，在經(jīng)典智力題「猜牌問題」中，QwQ 會通過梳理各方對話并推演現(xiàn)實(shí)情況，它像個(gè)擅長思考的人一樣，能揣摩「這句話有點(diǎn) tricky」，反思「等一下，也許我需要更仔細(xì)地思考」，最終分析得出正確答案，這似乎是以前沒有 AI 能做到的事情。

面對目前高漲的熱度，通義團(tuán)隊(duì)表示，盡管 QwQ 展現(xiàn)了強(qiáng)大的分析能力，但該模型仍是個(gè)供研究的實(shí)驗(yàn)型模型，存在不同語言的混合使用、偶有不恰當(dāng)偏見、對專業(yè)領(lǐng)域問題不了解等局限。隨著研究深入模型迭代，這些問題將逐步得到解決。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<center id="mhjpr"></center>

<style id="mhjpr"></style>

<s id="mhjpr"><li id="mhjpr"></li></s>

<cite id="mhjpr"></cite>