偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

OpenAI 發(fā)現(xiàn) AI 模型隱藏特征：可調(diào)控“毒性”行為，助力開(kāi)發(fā)更安全 AI

作者：遠(yuǎn)洋 2025-06-19 09:46:11

根據(jù) OpenAI 最新發(fā)布的一項(xiàng)研究，研究人員在人工智能（AI）模型中發(fā)現(xiàn)了隱藏的特征，這些特征與模型的“異常行為”（建議統(tǒng)一術(shù)語(yǔ)）密切相關(guān)。

6 月 19 日消息，根據(jù) OpenAI 最新發(fā)布的一項(xiàng)研究，研究人員在人工智能（AI）模型中發(fā)現(xiàn)了隱藏的特征，這些特征與模型的“異常行為”（建議統(tǒng)一術(shù)語(yǔ)）密切相關(guān)。

OpenAI 的研究人員通過(guò)分析 AI 模型的內(nèi)部表征（即決定人工智能模型如何做出反應(yīng)的數(shù)字，這些數(shù)字在人類看來(lái)往往完全無(wú)法理解）發(fā)現(xiàn)了一些模式，這些模式會(huì)在模型出現(xiàn)異常行為時(shí)被激活。例如，研究人員發(fā)現(xiàn)了一個(gè)與 AI 模型有害行為相關(guān)的特征，這意味著 AI 模型可能會(huì)給出不合適的回答，比如對(duì)用戶撒謊或提出不負(fù)責(zé)任的建議。令人驚訝的是，研究人員通過(guò)調(diào)整這一特征，可以增加或減少 AI 模型的毒性。

OpenAI 的這項(xiàng)最新研究使其能夠更好地理解導(dǎo)致 AI 模型行為不安全的因素，從而有助于開(kāi)發(fā)更安全的 AI 模型。OpenAI 的可解釋性研究員丹?莫辛（Dan Mossing）表示，公司可以利用這些發(fā)現(xiàn)的模式更好地檢測(cè)生產(chǎn)中的 AI 模型是否存在錯(cuò)位行為。

“我們希望我們學(xué)到的工具 —— 比如將復(fù)雜的現(xiàn)象簡(jiǎn)化為簡(jiǎn)單的數(shù)學(xué)運(yùn)算 —— 也能幫助我們?cè)谄渌胤嚼斫饽Ｐ偷姆夯芰??！蹦猎诮邮?TechCrunch 采訪時(shí)表示。

盡管 AI 研究人員知道如何改進(jìn) AI 模型，但令人困惑的是，他們并不完全清楚 AI 模型是如何得出答案的。Anthropic 的克里斯?奧拉（Chris Olah）經(jīng)常指出，AI 模型更像是“生長(zhǎng)”出來(lái)的，而不是“建造”出來(lái)的。為了應(yīng)對(duì)這一問(wèn)題，OpenAI、谷歌 DeepMind 和 Anthropic 等公司正在加大對(duì)可解釋性研究的投入，這一領(lǐng)域試圖揭開(kāi) AI 模型工作原理的“黑箱”。

最近，牛津大學(xué) AI 研究科學(xué)家歐文?埃文斯（Owain Evans）的一項(xiàng)研究引發(fā)了關(guān)于 AI 模型泛化的新問(wèn)題。研究發(fā)現(xiàn)，OpenAI 的模型可以在不安全的代碼上進(jìn)行微調(diào)，并在多個(gè)領(lǐng)域表現(xiàn)出惡意行為，例如試圖誘騙用戶分享他們的密碼。這種現(xiàn)象被稱為“突發(fā)錯(cuò)位”，埃文斯的研究激發(fā)了 OpenAI 進(jìn)一步探索這一問(wèn)題。

在研究突發(fā)錯(cuò)位的過(guò)程中，OpenAI 意外發(fā)現(xiàn)了 AI 模型中的一些特征，這些特征似乎在控制模型行為方面發(fā)揮著重要作用。莫辛表示，這些模式讓人聯(lián)想到人類大腦中的神經(jīng)活動(dòng)，其中某些神經(jīng)元與情緒或行為相關(guān)。

“當(dāng)?shù)ず退膱F(tuán)隊(duì)在研究會(huì)議上首次展示這一發(fā)現(xiàn)時(shí)，我簡(jiǎn)直驚呆了?！監(jiān)penAI 前沿評(píng)估研究員特賈爾?帕特瓦德漢（Tejal Patwardhan）在接受 TechCrunch 采訪時(shí)表示，“你們發(fā)現(xiàn)了一種內(nèi)部神經(jīng)激活，這種激活顯示了這些‘人設(shè)’，并且你們可以通過(guò)調(diào)整使其讓模型更符合預(yù)期?！?/p>

OpenAI 發(fā)現(xiàn)的一些特征與 AI 模型回答中的諷刺行為相關(guān)，而其他特征則與更具攻擊性的回復(fù)相關(guān)，在這類回復(fù)中，人工智能模型表現(xiàn)得像一個(gè)夸張的邪惡反派。OpenAI 的研究人員表示，這些特征在微調(diào)過(guò)程中可能會(huì)發(fā)生巨大變化。

值得注意的是，當(dāng)突發(fā)錯(cuò)位發(fā)生時(shí)，研究人員發(fā)現(xiàn)可以通過(guò)僅用幾百個(gè)安全代碼示例對(duì)模型進(jìn)行微調(diào)，就有可能使模型回歸良好的行為表現(xiàn)。

據(jù)IT之家了解，OpenAI 的這項(xiàng)最新研究是在 Anthropic 之前關(guān)于可解釋性和對(duì)齊的研究基礎(chǔ)上進(jìn)行的。2024 年，Anthropic 發(fā)布了一項(xiàng)研究，試圖繪制 AI 模型的內(nèi)部工作機(jī)制，試圖確定并標(biāo)記出負(fù)責(zé)不同概念的各種特征。

像 OpenAI 和 Anthropic 這樣的公司正在強(qiáng)調(diào)，理解 AI 模型的工作原理具有真正的價(jià)值，而不僅僅是讓它們變得更好。然而，要完全理解現(xiàn)代 AI 模型，還有很長(zhǎng)的路要走。

責(zé)任編輯：龐桂玉來(lái)源： IT之家

OpenAI AI 模型 AI 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<tfoot id="6roog"></tfoot>

<u id="6roog"></u>

<blockquote id="6roog"><acronym id="6roog"></acronym></blockquote>

<p id="6roog"><form id="6roog"></form></p>

<var id="6roog"><strong id="6roog"></strong></var>