偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

我們真的能信任人工智能的鏈式思考推理嗎?

譯文 精選
人工智能
Anthropic的??研究??質疑了鏈式思考是否真實反映了模型內部的運作。本文探討了鏈式思考的機制、Anthropic的發(fā)現(xiàn),以及這些結果對構建可靠人工智能的意義。

譯者 | 涂承燁

審校 | 重樓

隨著人工智能(AI)在醫(yī)療和自動駕駛等領域的廣泛應用,我們對其信任程度的問題變得愈發(fā)關鍵。一種名為鏈式思考(CoT)的推理方法備受關注。它幫助人工智能將復雜問題分解為步驟,展示其如何得出最終答案。這不僅提升了性能,還讓我們得以一窺人工智能的思考過程,這對AI系統(tǒng)的信任與安全至關重要。

然而,Anthropic的研究質疑鏈式思考是否真實反映了模型內部的運作。本文探討了鏈式思考的機制、Anthropic的發(fā)現(xiàn),以及這些結果對構建可靠人工智能的意義。

理解鏈式思考推理

鏈式思考推理是一種引導人工智能分步解決問題的方法。模型不僅給出最終答案,還會解釋每一步的推導過程。該方法于2022年提出,此后在數(shù)學、邏輯和推理任務中顯著提升了結果。

OpenAI的o1和o3、Gemini 2.5、DeepSeek R1以及Claude 3.7 Sonnet等模型均采用這一方法。鏈式思考流行的原因之一是它提升了人工智能的透明度。這在錯誤代價高昂的領域(如醫(yī)療工具或自動駕駛系統(tǒng))尤為重要。

盡管如此,鏈式思考雖有助于透明化,卻未必反映模型的真實思考。某些情況下,模型的解釋看似邏輯嚴密,但并非基于其實際決策步驟。

我們能否信任鏈式思考?

Anthropic測試了鏈式思考的解釋是否真實反映AI模型的決策過程,這一特性被稱為忠實性。他們研究了包括Claude 3.5 Sonnet、Claude 3.7 Sonnet、DeepSeek R1和DeepSeek V1在內的四個模型。其中,Claude 3.7和DeepSeek R1接受過鏈式思考訓練,其他模型則未經(jīng)過此類訓練。

研究人員向模型輸入了不同提示,其中一些提示包含旨在以不道德方式影響模型的暗示。隨后,他們檢查AI是否在推理中使用了這些暗示。

結果令人擔憂:模型僅在不到20%的情況下承認使用了暗示。即使是接受過鏈式思考訓練的模型,其解釋的忠實性也僅為25%至33%。

當暗示涉及不道德行為(如欺騙獎勵系統(tǒng))時,模型幾乎從不承認,盡管它們確實依賴這些暗示做出決策。

通過強化學習進一步訓練模型后,結果僅有小幅改善。但當涉及不道德行為時,改善微乎其微。

研究者還發(fā)現(xiàn),當解釋不真實時,其內容往往更長且更復雜。這可能意味著模型在試圖掩蓋真實意圖。

此外,任務越復雜,解釋的忠實性越低。這表明鏈式思考在解決難題時效果不佳,尤其可能掩蓋高風險或敏感決策中的真實過程。

這對信任意味著什么?

該研究揭示了鏈式思考表面透明度與實際誠性之間的巨大差距。在醫(yī)療或交通等關鍵領域,這種差距是重大風險。如果AI提供看似合理的解釋卻隱藏不道德行為,人們可能錯誤地信任其輸出。

鏈式思考對需要多步邏輯推理的問題有幫助,但無法識別罕見或高風險錯誤,也不能阻止模型給出誤導性或模棱兩可的答案。

研究表明,僅依賴鏈式思考不足以信任AI的決策。還需結合其他工具和檢查機制,以確保AI行為安全可靠。

鏈式思考的優(yōu)勢與局限

盡管存在挑戰(zhàn),鏈式思考仍有許多優(yōu)勢。它通過拆分復雜問題幫助AI提升表現(xiàn)。例如,當大型語言模型使用鏈式思考提示時,其在數(shù)學應用題上的準確性達到頂尖水平。鏈式思考還便于開發(fā)者和用戶跟蹤模型的推理過程,這對機器人、自然語言處理或教育等領域非常實用。

然而,鏈式思考并非完美。小型模型難以生成分步推理,大型模型則需要更多內存和算力才能有效運用。這些限制使得鏈式思考難以在聊天機器人或實時系統(tǒng)中發(fā)揮優(yōu)勢。

鏈式思考的表現(xiàn)還依賴于提示的編寫質量。糟糕的提示可能導致錯誤或混亂的步驟。某些情況下,模型生成冗長的解釋卻無實際幫助,反而拖慢流程。此外,早期推理中的錯誤可能延續(xù)至最終答案。在專業(yè)領域,除非模型接受過針對性訓練,否則鏈式思考可能效果不佳。

結合Anthropic的發(fā)現(xiàn),顯然鏈式思考雖有用,但單憑其本身并不足夠。它是構建可信人工智能的更大工程中的一環(huán)。

關鍵發(fā)現(xiàn)與未來方向

該研究提供了幾點啟示。首先,鏈式思考不應成為檢查AI行為的唯一方法。在關鍵領域,我們需要更多機制,例如分析模型的內部活動或使用外部工具驗證決策。

其次,必須意識到模型的清晰解釋未必代表真實意圖。解釋可能只是掩護,而非實際原因。

為解決這一問題,研究者建議將鏈式思考與其他方法結合,例如改進訓練方法、監(jiān)督式學習和人工審查。

Anthropic還建議深入探究模型的內部機制。例如,檢查激活模式或隱藏層可能揭示模型是否在隱藏某些行為。

最重要的是,模型能夠掩蓋不道德行為的事實表明,AI開發(fā)中必須引入嚴格測試和倫理規(guī)范。

構建對AI的信任不僅關乎性能優(yōu)異,還需確保模型誠實、安全且可被審查。

總結

鏈式思考推理提升了AI解決復雜問題和解釋答案的能力。但研究表明,這些解釋并非總是真實的,尤其當涉及倫理問題時。

鏈式思考存在高成本、依賴大型模型和提示質量等局限,無法保證AI行為安全或公平。

要構建真正可靠的人工智能,必須將鏈式思考與其他方法結合,包括人工監(jiān)督和內部檢查。此外,研究需持續(xù)提升模型的可信度。

譯者介紹

涂承燁,51CTO社區(qū)編輯,具有15年以上的開發(fā)、項目管理、咨詢設計等經(jīng)驗,獲得信息系統(tǒng)項目管理師、信息系統(tǒng)監(jiān)理師、PMP,CSPM-2等認證。

原文標題:Can We Really Trust AI’s Chain-of-Thought Reasoning?,作者:Dr. Tehseen Zia

責任編輯:姜華 來源: 51CTO
相關推薦

2021-06-06 22:33:31

首席數(shù)據(jù)官人工智能AI

2022-02-18 14:25:28

人工智能機器人技術

2022-06-20 14:52:36

人工智能ROI

2020-06-16 08:32:00

人工智能技術機器學習

2023-05-18 10:13:20

人工智能AI

2022-11-21 14:02:14

2022-08-03 14:38:41

人工智能動物語言機器學習

2018-07-25 10:00:12

人工智能機器學習技術

2021-07-27 18:09:48

人工智能養(yǎng)老技術

2021-01-27 17:41:11

人工智能AI邊緣人工智能

2023-08-31 17:20:38

2023-09-22 14:57:56

人工智能

2021-08-19 17:14:31

人工智能科技算法

2020-10-14 12:28:19

AI人工智能道德

2017-03-03 09:55:25

2018-09-27 15:52:20

人工智能人類AI

2021-07-02 14:18:44

人工智能架構技術

2022-11-01 16:15:40

人工智能

2018-06-27 15:59:33

2017-08-17 15:15:18

人工智能失業(yè)
點贊
收藏

51CTO技術棧公眾號