偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

超強(qiáng)o1模型智商已超120！1小時(shí)寫出NASA博士1年代碼，最新編程賽超越99.8%選手

作者：新智元 2024-09-18 08:40:00

人工智能新聞

OpenAI博士級(jí)別的智能，真的實(shí)現(xiàn)了！一位UCI物理學(xué)博士實(shí)測(cè)o1，發(fā)現(xiàn)自己用時(shí)1年完成的博士論文代碼，竟被AI在1個(gè)小時(shí)之內(nèi)實(shí)現(xiàn)了。

o1模型已經(jīng)強(qiáng)到，能夠直出博士論文代碼了！

來自加州大學(xué)歐文分校（UCI）的物理學(xué)博士Kyle Kabasares，實(shí)測(cè)o1 preview+mini后發(fā)現(xiàn)：

自己肝了大約1年的博士代碼，o1竟在1小時(shí)內(nèi)完成了。

他稱，在大約6次提示后，o1便創(chuàng)建了一個(gè)運(yùn)行版本的Python代碼，描述出研究論文「方法」部分的內(nèi)容。

雖然AI生成的代碼框架，模擬了Kabasares實(shí)際代碼功能，但它使用的是「合成數(shù)據(jù)」，并非真實(shí)的天文數(shù)據(jù)。

論文地址：https://iopscience.iop.org/article/10.3847/1538-4357/ac7a38/meta

不過，o1能夠在這么短時(shí)間輸出復(fù)雜代碼，足以震撼。

視頻右下角中，Kabasares連連喊出「oh my god」，各種難以形容的動(dòng)作表情，被震驚到懷疑人生。

YouTube視頻一出，便在全網(wǎng)掀起熱議，網(wǎng)友們紛紛表示太瘋狂了。

好巧不巧的是，o1在最新門薩智商測(cè)試中，IQ水平竟超過了120分。

35個(gè)智商題，答對(duì)了25道，把其他模型甩出好幾條街。

然而，這僅僅是o1模型的preview版本。

OpenAI研究人員David Dohan曾發(fā)文暗示，一個(gè)月后，o1模型還將有全新的升級(jí)版本。

屆時(shí)，還不知o1性能，將有多么逆天？！

物理學(xué)博士論文，AI 1小時(shí)直出200行代碼

2022年，物理學(xué)博士Kabasares以第一作者身份，在「天文物理期刊」發(fā)表了這篇關(guān)于，通過對(duì)天文數(shù)據(jù)建模來測(cè)量黑洞質(zhì)量的論文。

當(dāng)然，這篇研究不僅僅是寫代碼，但實(shí)現(xiàn)這段代碼，是Kabasares博士第一年的關(guān)鍵突破。

可以說，在他博士研究的階段的第一年（2018年7月-2019年4月），花費(fèi)了大量時(shí)間，才讓這段代碼初版正確運(yùn)行起來。

這也是，為什么o1能在1小時(shí)內(nèi)，給出一個(gè)可運(yùn)行的Python代碼，讓Kabasares印象深刻。

視頻中，看到o1輸出的代碼后，Kabasares緩了好大一陣兒，才開始接下來的解釋。

他向ChatGPT o1提供了論文中，「方法」部分的內(nèi)容（即第4節(jié)），并提示閱讀我的論文，根據(jù)所給信息，寫出一段Python運(yùn)行代碼。

他多次強(qiáng)調(diào)，自己沒有向o1展示自己代碼。

在于ChatGPT對(duì)話頁面中，Kabasares向大家展示，并細(xì)數(shù)了下o1是在6次提示下，完成200行代碼。

不過，他也提出警告，實(shí)際上還需要我們自己去做一些額外的工作。就像論文中這個(gè)曲線圖，還得需要在另一個(gè)軟件，比如銀河圖像軟件中完成。

當(dāng)網(wǎng)友詢問到，有沒有可能o1就著你自己的代碼，完成的訓(xùn)練？

Kabasares認(rèn)為，o1輸出的200行代碼，與自己1100行代碼有著很大的不同，這是論文代碼「最簡(jiǎn)版本」。

深夜測(cè)試，o1挑戰(zhàn)大學(xué)、博士物理題

為此，Kabasares又發(fā)了第二彈視頻，向所有人解釋o1可能真的沒有接受過數(shù)據(jù)訓(xùn)練。

值得一提的是，他從辦公室拿到的私密文件，是由教授親自設(shè)計(jì)的天體物理學(xué)問題。

這些題目，都是Kabasares在博士期間完成的，并沒有發(fā)布到互聯(lián)網(wǎng)上。

他專門為o1出了一個(gè)測(cè)試集，一共有4道題目。

而在沒有訓(xùn)練數(shù)據(jù)的情況下，o1輸出的結(jié)果不用說。甚至，有的題它僅在16秒內(nèi)，完成了解答。

還記得，OpenAI CTO Mira Murati在接受采訪中表示，GPT-4之后的新模型將達(dá)到博士級(jí)別的智能。

o1現(xiàn)在的表現(xiàn)，已經(jīng)是關(guān)鍵的一瞥。

代碼編程賽，大師級(jí)別

作為OpenAI的研究主管兼現(xiàn)任的IOI美國隊(duì)教練，Mark Chen分享了o1模型在Codeforces比賽上的最新進(jìn)展。

在Codeforces昨天的實(shí)時(shí)比賽中，一位名為AryanDLuffy的選手使用了o1-mini模型參加比賽，結(jié)果相當(dāng)驚艷。

用Mark Chen的話來說，達(dá)到了「接近大師級(jí)別的表現(xiàn)」。

AryanDLuffy發(fā)帖表示，自己沒有進(jìn)行任何提示工程，僅僅是給出問題陳述，并告訴模型用C++解題。

7道題目中，o1-mini僅在B2、D和E2遇到了困難，其中D和E2是不少排名前50的選手也沒能得分的，也是提交人數(shù)最少的兩道題目。

最終，o1-mini幫助AryanDLuffy獲得了3922分的總成績(jī)，在超過16萬參賽者中排名277，也就是排名在前0.17%。

這遠(yuǎn)遠(yuǎn)超過了OpenAI自己做的基準(zhǔn)測(cè)試結(jié)果。o1模型在他們的模擬Codeforces比賽中還只是超過了89%的人類選手。

277的排名相比AryanDLuffy本人之前的紀(jì)錄提高了158位，達(dá)到了4年來最大的進(jìn)步幅度。

對(duì)此，Mark Chen和很多網(wǎng)友的想法是，IMO和Codeforces的競(jìng)賽題也許可以作為新型的LLM基準(zhǔn)測(cè)試。然而，Codeforces的主辦方擔(dān)心的是另一件事。

競(jìng)賽創(chuàng)始人Mike Mirzayanov為此特地制定了一條新規(guī)：禁止使用GPT、Gemini、Gemma、Llama和Claude等各種模型來解決Codeforces競(jìng)賽中的編程問題。

但是這條新規(guī)并不是要求參賽者完全摒棄AI，他們依舊可以讓模型輔助翻譯問題陳述，或者向Copilot尋求語法幫助和次要的編碼建議。

簡(jiǎn)而言之，競(jìng)賽問題的核心邏輯、算法，以及bug的診斷調(diào)試，都必須由人類選手獨(dú)立完成，CF也會(huì)進(jìn)行作弊檢測(cè)。在非競(jìng)爭(zhēng)性問題中，AI工具的使用則完全不受限制。

但也有用戶指出，作弊檢測(cè)實(shí)質(zhì)上很難執(zhí)行，參賽者簡(jiǎn)單修改一下AI生成的代碼就可以「逃過法眼」。競(jìng)爭(zhēng)性編程競(jìng)賽的未來，很大程度上決定于選手們自己能否守信。

CF也表示，會(huì)持續(xù)關(guān)注AI技術(shù)的進(jìn)展，并根據(jù)需要及時(shí)調(diào)整規(guī)則。

在博文中，Mirzayanov將神經(jīng)網(wǎng)絡(luò)的進(jìn)展稱為「技術(shù)奇跡」，因?yàn)椴痪们斑@些模型還很難完成競(jìng)賽中最簡(jiǎn)單的任務(wù)，但現(xiàn)在卻達(dá)到了不容忽視的高度。

他表示，「我們有理由相信，這種進(jìn)步會(huì)持續(xù)下去，AI可能會(huì)在編程競(jìng)賽領(lǐng)域繼續(xù)取得新的突破。」

陶哲軒實(shí)測(cè)后續(xù)

除了Codeforces，陶哲軒大神也表示，由于大家對(duì)他之前測(cè)試的興趣，因此繼續(xù)放出了一些其他的o1 preview實(shí)驗(yàn)結(jié)果。

第一個(gè)實(shí)驗(yàn)，是找術(shù)語。

2010年，我正在尋找「乘法積分」的正確術(shù)語，但當(dāng)時(shí)沒有用搜索引擎找到。于是我轉(zhuǎn)而在MathOverflow上提出了問題，并從人類專家那里得到了滿意的答案：

14年后的今天，陶哲軒再次向o1模型提出了相同的問題，問題表述都和MathOverflow上的帖子幾乎一模一樣。

相比人類專家，o1給出的答案更加全面而且完美。不僅包含了5個(gè)可能的術(shù)語，還附上了相應(yīng)的數(shù)學(xué)表示、應(yīng)用領(lǐng)域和參考文獻(xiàn)。

陶哲軒表示，雖然這篇MathOverflow上的帖子可能已經(jīng)包含在o1的訓(xùn)練數(shù)據(jù)中了，但依舊能展現(xiàn)模型在語義搜索方面的強(qiáng)大功能，而且搜集、總結(jié)出的答案的質(zhì)量可以與MathOverflow這類專業(yè)的問答網(wǎng)站相當(dāng)。

另一個(gè)實(shí)驗(yàn)則更具創(chuàng)造性，與陶哲軒本人的研究直接相關(guān)。

作為另一個(gè)小實(shí)驗(yàn)，我給了o1我最近的博客文章的前半部分，其中總結(jié)了之前我自己能夠解決的鄂爾多斯問題的進(jìn)展。

要將之前的部分進(jìn)展轉(zhuǎn)換為全面的解決方案，仍缺失一些要素，我要求o1模型找到這些轉(zhuǎn)換要素，但結(jié)果有點(diǎn)令人失望。

本質(zhì)上，模型提出的策略與博客中重述的最新研究是相同的，并針對(duì)該策略沒有提供任何創(chuàng)造性的改變。

總的來說，我覺得雖然LLM工具有一定的能力，可以隨機(jī)生成創(chuàng)造性策略，但這方面的LLM工具仍然相當(dāng)薄弱。

多篇論文闡述o1運(yùn)作機(jī)制，DeepMind上大分

o1模型發(fā)布不到一周，我們就已經(jīng)見證了這么多驚人的用例，AI技術(shù)界對(duì)o1背后的機(jī)制和原理也是眾說紛紜。

前谷歌搜索工程師、Menlo Ventures風(fēng)投家Deedy Das曾大膽猜測(cè)，其主要原理來自DeepMind一篇今年8月發(fā)表的論文。

論文地址：https://arxiv.org/abs/2408.03314

論文提出，讓LLM進(jìn)行更多的「測(cè)試時(shí)計(jì)算」（test-time computation），對(duì)于構(gòu)建能在開放語境下操作、能實(shí)現(xiàn)自我提升的agent，是關(guān)鍵的一步

而這篇論文就重點(diǎn)研究了擴(kuò)展「推理期計(jì)算」（inference-time computation）這個(gè)問題。

研究團(tuán)隊(duì)分析了擴(kuò)展測(cè)試時(shí)計(jì)算的兩種主要機(jī)制：（1）針對(duì)密集的、基于過程的驗(yàn)證器獎(jiǎng)勵(lì)模型進(jìn)行搜索；（2）根據(jù)測(cè)試時(shí)得到的提示詞，自適應(yīng)更新模型對(duì)響應(yīng)的分布。

結(jié)果顯示，在這兩種情況下，對(duì)測(cè)試時(shí)計(jì)算的不同擴(kuò)展方法的有效性，很大程度上取決于提示詞的難度。

基于此，研究團(tuán)隊(duì)提出了一種「計(jì)算最優(yōu)」擴(kuò)展策略——通過為每個(gè)提示詞自適應(yīng)地分配測(cè)試時(shí)計(jì)算，使測(cè)試時(shí)計(jì)算的擴(kuò)展的效率提高4倍以上。

另外，在FLOPs一致的評(píng)估中，對(duì)于那些較小的基礎(chǔ)模型已取得一定程度非平凡成功率的問題，測(cè)試時(shí)計(jì)算可以使其超越規(guī)模大14倍的模型。

此外，HuggingFace技術(shù)主管Philipp Schmid也開列了一份論文清單，包含了o1模型可能的工作原理，主要關(guān)于通過訓(xùn)練/RLHF而非提示工程，提升LLM在復(fù)雜任務(wù)上的推理性能。

這5篇論文都發(fā)表于今年或去年，可以說是代表了細(xì)分方向的前沿進(jìn)展。

第一篇是斯坦福和Notbad在今年3月提出的Quiet-STaR（Self-Taught Reasoner）。

論文地址：https://arxiv.org/abs/2403.09629

論文的想法來源于這樣一個(gè)直覺：在寫作和說話時(shí)，人們有時(shí)會(huì)停下來思考，但思考和推理的內(nèi)容不會(huì)顯式地表達(dá)出來，而是隱含在書面文本中。

因此，理想情況下，語言模型可以學(xué)習(xí)推斷文本中未闡明的基本原理。

Quiet-STaR是對(duì)2022年發(fā)表的STaR的推廣，讓模型為每個(gè)token生成基本原理來解釋未來的文本，從而提升預(yù)測(cè)能力。

第二篇同樣是斯坦福學(xué)者和MultiOn在今年8月合作發(fā)表的AgentQ框架。

論文地址：https://arxiv.org/abs/2408.07199

他們將蒙特卡羅樹搜索（MCTS）與自我批評(píng)機(jī)制相結(jié)合，并使用直接偏好優(yōu)化（DPO）算法的off-policy變體對(duì)agent的交互進(jìn)行迭代微調(diào)。

這種方法允許LLM agent同時(shí)從成功和不成功的軌跡中進(jìn)行有效學(xué)習(xí)，從而提高在復(fù)雜的多步驟推理任務(wù)中的泛化能力。

第三篇?jiǎng)t針對(duì)數(shù)學(xué)推理，以期提升模型的問題理解能力和「反思」能力。

論文地址：https://arxiv.org/abs/2406.12050

具體來說，論文提出了一種新穎的「反思增強(qiáng)」方法，將問題的反思嵌入到每個(gè)訓(xùn)練實(shí)例，訓(xùn)練模型考慮其他可能的視角，并進(jìn)行抽象和類比，通過反思性推理促進(jìn)更全面的理解。

V-STaR這篇文章同樣是對(duì)STaR框架的推廣，發(fā)表于今年2月。

論文地址：https://arxiv.org/abs/2402.06457

論文提出，原有的STaR方法在迭代過程中丟棄了大量不正確的解決方案，可能忽略了其中有價(jià)值的信息。

V-STaR正是要彌補(bǔ)這個(gè)缺陷，它同時(shí)利用了自我改進(jìn)過程中生成的正確和錯(cuò)誤的解決方案，用DPO訓(xùn)練出一個(gè)驗(yàn)證模型，以判斷生成的解決方案的正確性。該驗(yàn)證器在推理時(shí)使用，從候選解決方案中進(jìn)行選擇。

實(shí)驗(yàn)發(fā)現(xiàn)，運(yùn)行V-STaR進(jìn)行多次迭代，可以逐漸訓(xùn)練出性能更好的推理模型和驗(yàn)證模型。

Let's Verify Step by Step這篇論文，便是由AI大牛Ilya帶隊(duì)完成。

論文地址：https://arxiv.org/abs/2305.20050

論文中，主要探討了大模型在復(fù)雜推理中，如何優(yōu)化訓(xùn)練策略的問題，尤其是，如何利用CoT進(jìn)行思考。

他們提出了過程監(jiān)督方法（process supervision），由此訓(xùn)練的一種全新模型，在解決數(shù)學(xué)問題上取得了突破。

這一策略的強(qiáng)大之處在于，比起結(jié)果監(jiān)督，在推理過程中逐步獎(jiǎng)勵(lì)，進(jìn)而讓模型性能顯著提升。

除了推特帖中一開始涉及的5篇，Schimid還在HuggingFace上單開了一個(gè)網(wǎng)頁，持續(xù)搜羅相關(guān)論文，目前已經(jīng)涵蓋了7篇。

https://huggingface.co/collections/philschmid/llm-reasoning-papers-66e6abbdf5579b829f214de8

o1能否實(shí)現(xiàn)自我提升

Jim Fan在一篇分析帖中指出，o1模型給我們帶來的關(guān)鍵見解是這兩條曲線的齊頭并進(jìn)——訓(xùn)練時(shí)的scaling law和推理時(shí)的scaling law，而后者才是真正戰(zhàn)勝收益遞減的關(guān)鍵因素。

此外，他還cue到了兩篇論文，能夠解決我們關(guān)于「o1自我提升能力」的疑問。一篇是Meta和NYU在今年1月提出的「自我獎(jiǎng)勵(lì)的語言模型」。

論文地址：https://arxiv.org/abs/2401.10020

這篇文章基于一個(gè)非常簡(jiǎn)單的想法：對(duì)同一個(gè)LLM進(jìn)行提示，引導(dǎo)它生成響應(yīng)并自我獎(jiǎng)勵(lì)，進(jìn)行迭代自舉。

論文稱，獎(jiǎng)勵(lì)建模能力不再屬于一個(gè)固定、獨(dú)立的模型，而是可以跟隨主模型的步伐提升。但有趣的是，最多3次迭代之后，依舊會(huì)出現(xiàn)模型飽和。

對(duì)此，Jim Fan的想法是，作為評(píng)論者（critic）的獎(jiǎng)勵(lì)模型，提升速度小于作為行動(dòng)者（actor）的生成模型，因此盡管二者都在提升，最多3輪迭代后，后者就會(huì)追上前者，達(dá)到飽和。

另一篇文章是DeepMind去年8月就發(fā)表的ReST（Reinforced Self-Training），其實(shí)驗(yàn)結(jié)果也很類似：在達(dá)到收益遞減前，最多進(jìn)行3輪迭代。

論文地址：https://arxiv.org/abs/2308.08998

這兩篇論文似乎證明了，評(píng)論家和行動(dòng)者之間不存在可持續(xù)的能力差距，除非引入外部驅(qū)動(dòng)信號(hào)，比如符號(hào)定理驗(yàn)證、單元測(cè)試套件或編譯器反饋。

但這些都是特定領(lǐng)域的高度專業(yè)化的內(nèi)容，要想實(shí)現(xiàn)我們理想中的LLM的通用自我提升，還需要發(fā)掘和探索更多的研究想法。

責(zé)任編輯：張燕妮來源：新智元

智能模型 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="9tsop"><samp id="9tsop"><small id="9tsop"></small></samp></blockquote>

<var id="9tsop"></var>

<abbr id="9tsop"></abbr>