偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI谷歌Anthropic罕見聯(lián)手發(fā)研究!Ilya/Hinton/Bengio帶頭支持,共推CoT監(jiān)測方案

人工智能 新聞
OpenAI、谷歌DeepMind、Anthropic帶頭,聯(lián)合各企業(yè)非盈利組織公開發(fā)表了一篇立場文件。

難得難得,幾大AI巨頭不競爭了不搶人了,改聯(lián)合一起發(fā)研究了。

而且還同時拉來了Hinton、Ilya、John Schulman幾位大佬,一起為研究提供專家支持。

圖片

OpenAI、谷歌DeepMind、Anthropic帶頭,聯(lián)合各企業(yè)非盈利組織公開發(fā)表了一篇立場文件。

一共40余位頂尖機構的合著者,包含圖靈獎得主Yoshua Bengio、OpenAI 首席研究員Mark Chen、OpenAI首席科學家Jakub Pachocki、谷歌DeepMind聯(lián)合創(chuàng)始人 Shane Legg也在內(nèi)。

圖片

他們提出一個全新的概念:CoT監(jiān)測,并認為這也許是控制AI Agent的核心方法,來保障前沿AI的安全性。

對于這種巨頭集結起來探討AI安全這種喜聞樂見的事情,各位大佬們隨即趕來支持——

  • Hinton:諾獎得主、始終倡導AI安全
  • Ilya:OpenAI聯(lián)創(chuàng),創(chuàng)立的SSI估值320億美元
  • John Schulman:OpenAI聯(lián)創(chuàng),現(xiàn)已加入Mira新公司
  • Samuel Bowman:在Anhtropic主要負責AI安全

與這一景象形成鮮明對比的,就是小扎豪擲百萬乃至上億美金的薪酬,從這三家巨頭挖走頂尖研究人員。其中最搶手的人才正是那些構建AI Agent和推理模型的研究人員們。

而在這篇研究中,也僅有一位Meta的研究者,高級研究員Joshua Saxe,是有點那么個意思了嗷~

三大巨頭聯(lián)合聲明:CoT提供了獨特的安全機會

智能體的不透明性是其潛在風險的核心根源,如果能解讀系統(tǒng),那么風險管控就會變得更為可行。

這樣一個邏輯下,他們將目光瞄準在了思維鏈CoT。

它通過提示模型think out loud,既能提升其能力,又使更多關鍵計算過程以自然語言形式呈現(xiàn),也許能提供一種獨特的安全方法。

而思維鏈CoT可被監(jiān)測,關鍵原因主要有兩點。

1、外顯推理過程(think out loud)的必要性。

對于某些任務,模型需要將推理過程外化,因為沒有 CoT,它們就無法完成任務。

比如將Transformer架構可視化,主要展示重點展示自回歸采樣過程中的信息流動。

圖中藍色箭頭代表CoT作為工作記憶的運作方式:它是信息從深層向淺層回傳的唯一通道。

圖片

這意味著在固定token數(shù)量的前提下,最長的信息流路徑必須依賴CoT,認知序列再冗長都須經(jīng)由CoT傳遞;多數(shù)信息交互脫離CoT將無法實現(xiàn)。就像圖示兩個高亮節(jié)點間的信息傳遞,若繞過CoT則完全無法達成。

而只要模型持續(xù)以自然語言形式進行推理,且危害最大的風險行為往往需要復雜推理鏈條,這一特性就能幫助可靠地檢測嚴重異常行為。

2、CoT在實踐中往往是可監(jiān)測的。

即使某些任務無需CoT即可完成,模型仍可能自發(fā)展示推理過程。

目前,CoT監(jiān)測已在安全研究領域展現(xiàn)出多重價值,比如檢測模型不良行為、發(fā)現(xiàn)對齊偏離的早期信號、識別評估缺陷。

雖然這種方式通常不夠穩(wěn)健,但通過分析其外顯的思維軌跡(例如矛盾陳述或危險意圖的早期征兆),仍能提供一定的風險預警能力。

不過CoT的可監(jiān)測性可能高度依賴前沿模型的訓練范式,未來可能通過以下途徑弱化。

包括不限于RL規(guī)模化導致的語義偏移。

當前推理模型依賴純結果導向的RL訓練,當計算規(guī)模大幅提升時,可能不再激勵CoT的可讀性。早期研究表明,基于結果獎勵微調(diào)的模型會出現(xiàn)自然語言可讀性退化。

還有CoT直接監(jiān)督的悖論。

純結果導向RL僅獎勵正確輸出,不約束推理過程。而過程監(jiān)督通過強制CoT簡短、合規(guī)或風格統(tǒng)一,雖能提升安全性,卻可能扭曲模型真實的決策邏輯。這一領域需權衡:過程監(jiān)督能否在保持監(jiān)測可信度的同時確保推理安全?

以及新型架構的挑戰(zhàn),像潛在空間連續(xù)推理模型,可能完全內(nèi)化思考過程,使CoT監(jiān)測失效。這種架構演進將從根本上剝奪CoT帶來的安全優(yōu)勢。

談完了CoT的潛在機遇和局限性,他們將落點落到當前AI研究員和開發(fā)者上。他們認為研究者應該系統(tǒng)性探索模型可監(jiān)測性的決定因素,并且將CoT可監(jiān)測性納入模型安全評估體系。

最后,他們表示,所有的監(jiān)測和監(jiān)督方法都有局限性,會讓一些錯誤行為不被察覺。因此,未來AI Agent的安全措施可能需要采用多個監(jiān)測層,希望這些監(jiān)測層具有不相關的失效模式。

CoT監(jiān)測為前沿人工智能的安全措施提供了寶貴的補充,同時也了解到AI Agent如何做出決策的。然而,我們無法保證當前的可視程度會持續(xù)下去。

作者們怎么說?

有意思的是,雖然這次幾家巨頭一起聯(lián)合,但他們關注的重點可能完全不同——

OpenAI很樂觀,但Anthropic則有點焦慮了。

OpenAI:CoT監(jiān)測已經(jīng)呈現(xiàn)出價值

事實上,CoT監(jiān)測已經(jīng)呈現(xiàn)出價值。此次文章的合著者之一Bowen Baker分享了他們OpenAI 3月份的一篇研究,展示了如何通過 CoT 監(jiān)測捕獲代碼中的獎勵攻擊。

圖片

他們用GPT-4o作為監(jiān)測器,結果成功標記出了Agent試圖破壞單元測試的例子。

圖片

另外,他們建議不要直接對前沿推理模型的CoT施加強大的優(yōu)化壓力,而應該對CoT進行不受限制的監(jiān)測,不然該作弊的還是會作弊。

圖片

另一位合著者,OpenAI首席科學家Jakub Pachocki進一步闡述了這一功能的重要性。

我對思路鏈忠實性和可解釋性的潛力感到非常興奮。從 o1-preview 開始,它對我們推理模型的設計產(chǎn)生了重大影響。

圖片

Anthropic:CoT監(jiān)測真的可靠嗎?我很擔心

而過往始終關注模型安全的Anthropic,他們自身研究更多是在對CoT監(jiān)測可靠性的擔憂上。

此前一項研究發(fā)現(xiàn),推理模型通常會隱藏真實的思維過程,即時被明確要求展示工作內(nèi)容。

圖片

在受控實驗中,他們模型提供了關于正確答案的微妙提示,并測量了模型在推理過程中承認使用這些提示的頻率。

結果令人擔憂——Claude 3.7 Sonnet 僅 25% 提到了提示,而 DeepSeek的R1模型則高達 39%。

當提示涉及可能存在問題的信息時,例如告訴模型它們“未經(jīng)授權訪問了系統(tǒng)”,忠誠度會進一步下降。

模型通常會為自己的答案編造精心設計的錯誤理由,而不是承認自己使用了可疑的捷徑。

而且另外一項研究證明,CoT監(jiān)測這一方式,窗口可能已經(jīng)比最初預想的要窄了。

風險很高,時間緊迫,所以大家應該行動起來。

責任編輯:張燕妮 來源: 量子位
相關推薦

2021-07-02 14:30:31

深度學習神經(jīng)網(wǎng)絡人工智能

2025-04-10 10:41:36

2024-02-19 14:47:47

2011-09-20 12:14:46

惠普

2009-11-13 19:46:12

IBMInfo物流

2024-09-30 13:30:00

2023-11-21 07:56:23

2024-11-14 14:20:00

生成式AI數(shù)據(jù)

2024-10-31 13:40:24

GitHubCopilot人工智能

2010-05-26 09:26:42

云計算VMwareGoogle

2025-04-01 09:23:00

2025-05-19 08:33:00

2023-10-27 08:41:15

AI安全OpenAI

2024-12-31 12:26:57

人工智能OpenAIAI

2024-05-29 13:02:03

2023-10-28 09:59:30

2025-01-09 09:00:00

訓練數(shù)據(jù)AI

2009-11-19 11:09:06

北塔軟件

2024-06-03 08:15:00

2023-03-30 13:47:11

AI
點贊
收藏

51CTO技術棧公眾號