偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI 發(fā)現(xiàn) AI 模型隱藏特征:可調(diào)控“毒性”行為,助力開(kāi)發(fā)更安全 AI

人工智能
根據(jù) OpenAI 最新發(fā)布的一項(xiàng)研究,研究人員在人工智能(AI)模型中發(fā)現(xiàn)了隱藏的特征,這些特征與模型的“異常行為”(建議統(tǒng)一術(shù)語(yǔ))密切相關(guān)。

6 月 19 日消息,根據(jù) OpenAI 最新發(fā)布的一項(xiàng)研究,研究人員在人工智能(AI)模型中發(fā)現(xiàn)了隱藏的特征,這些特征與模型的“異常行為”(建議統(tǒng)一術(shù)語(yǔ))密切相關(guān)。

OpenAI 的研究人員通過(guò)分析 AI 模型的內(nèi)部表征(即決定人工智能模型如何做出反應(yīng)的數(shù)字,這些數(shù)字在人類看來(lái)往往完全無(wú)法理解)發(fā)現(xiàn)了一些模式,這些模式會(huì)在模型出現(xiàn)異常行為時(shí)被激活。例如,研究人員發(fā)現(xiàn)了一個(gè)與 AI 模型有害行為相關(guān)的特征,這意味著 AI 模型可能會(huì)給出不合適的回答,比如對(duì)用戶撒謊或提出不負(fù)責(zé)任的建議。令人驚訝的是,研究人員通過(guò)調(diào)整這一特征,可以增加或減少 AI 模型的毒性。

OpenAI 的這項(xiàng)最新研究使其能夠更好地理解導(dǎo)致 AI 模型行為不安全的因素,從而有助于開(kāi)發(fā)更安全的 AI 模型。OpenAI 的可解釋性研究員丹?莫辛(Dan Mossing)表示,公司可以利用這些發(fā)現(xiàn)的模式更好地檢測(cè)生產(chǎn)中的 AI 模型是否存在錯(cuò)位行為。

“我們希望我們學(xué)到的工具 —— 比如將復(fù)雜的現(xiàn)象簡(jiǎn)化為簡(jiǎn)單的數(shù)學(xué)運(yùn)算 —— 也能幫助我們?cè)谄渌胤嚼斫饽P偷姆夯芰??!蹦猎诮邮?TechCrunch 采訪時(shí)表示。

盡管 AI 研究人員知道如何改進(jìn) AI 模型,但令人困惑的是,他們并不完全清楚 AI 模型是如何得出答案的。Anthropic 的克里斯?奧拉(Chris Olah)經(jīng)常指出,AI 模型更像是“生長(zhǎng)”出來(lái)的,而不是“建造”出來(lái)的。為了應(yīng)對(duì)這一問(wèn)題,OpenAI、谷歌 DeepMind 和 Anthropic 等公司正在加大對(duì)可解釋性研究的投入,這一領(lǐng)域試圖揭開(kāi) AI 模型工作原理的“黑箱”。

最近,牛津大學(xué) AI 研究科學(xué)家歐文?埃文斯(Owain Evans)的一項(xiàng)研究引發(fā)了關(guān)于 AI 模型泛化的新問(wèn)題。研究發(fā)現(xiàn),OpenAI 的模型可以在不安全的代碼上進(jìn)行微調(diào),并在多個(gè)領(lǐng)域表現(xiàn)出惡意行為,例如試圖誘騙用戶分享他們的密碼。這種現(xiàn)象被稱為“突發(fā)錯(cuò)位”,埃文斯的研究激發(fā)了 OpenAI 進(jìn)一步探索這一問(wèn)題。

在研究突發(fā)錯(cuò)位的過(guò)程中,OpenAI 意外發(fā)現(xiàn)了 AI 模型中的一些特征,這些特征似乎在控制模型行為方面發(fā)揮著重要作用。莫辛表示,這些模式讓人聯(lián)想到人類大腦中的神經(jīng)活動(dòng),其中某些神經(jīng)元與情緒或行為相關(guān)。

“當(dāng)?shù)ず退膱F(tuán)隊(duì)在研究會(huì)議上首次展示這一發(fā)現(xiàn)時(shí),我簡(jiǎn)直驚呆了?!監(jiān)penAI 前沿評(píng)估研究員特賈爾?帕特瓦德漢(Tejal Patwardhan)在接受 TechCrunch 采訪時(shí)表示,“你們發(fā)現(xiàn)了一種內(nèi)部神經(jīng)激活,這種激活顯示了這些‘人設(shè)’,并且你們可以通過(guò)調(diào)整使其讓模型更符合預(yù)期?!?/p>

OpenAI 發(fā)現(xiàn)的一些特征與 AI 模型回答中的諷刺行為相關(guān),而其他特征則與更具攻擊性的回復(fù)相關(guān),在這類回復(fù)中,人工智能模型表現(xiàn)得像一個(gè)夸張的邪惡反派。OpenAI 的研究人員表示,這些特征在微調(diào)過(guò)程中可能會(huì)發(fā)生巨大變化。

值得注意的是,當(dāng)突發(fā)錯(cuò)位發(fā)生時(shí),研究人員發(fā)現(xiàn)可以通過(guò)僅用幾百個(gè)安全代碼示例對(duì)模型進(jìn)行微調(diào),就有可能使模型回歸良好的行為表現(xiàn)。

據(jù)IT之家了解,OpenAI 的這項(xiàng)最新研究是在 Anthropic 之前關(guān)于可解釋性和對(duì)齊的研究基礎(chǔ)上進(jìn)行的。2024 年,Anthropic 發(fā)布了一項(xiàng)研究,試圖繪制 AI 模型的內(nèi)部工作機(jī)制,試圖確定并標(biāo)記出負(fù)責(zé)不同概念的各種特征。

像 OpenAI 和 Anthropic 這樣的公司正在強(qiáng)調(diào),理解 AI 模型的工作原理具有真正的價(jià)值,而不僅僅是讓它們變得更好。然而,要完全理解現(xiàn)代 AI 模型,還有很長(zhǎng)的路要走。

責(zé)任編輯:龐桂玉 來(lái)源: IT之家
相關(guān)推薦

2024-04-11 13:36:23

2023-05-23 12:28:04

2023-08-27 15:28:53

人工智能語(yǔ)言模型

2025-06-06 09:15:00

2023-10-26 07:52:11

2024-04-25 09:01:53

2025-04-16 10:25:42

2024-01-04 10:20:47

OpenAI人工智能物聯(lián)網(wǎng)

2023-10-12 10:12:28

OpenAIAI 模型

2024-09-24 07:31:52

2025-02-28 08:20:00

2022-09-09 16:12:53

人工智能機(jī)器學(xué)習(xí)autoML

2024-07-15 00:15:00

OpenAI人工智能AI安全風(fēng)險(xiǎn)

2019-02-15 10:42:08

AI數(shù)據(jù)科技

2025-06-17 09:26:09

2025-03-14 09:59:54

2023-11-08 07:55:48

2023-05-10 15:08:26

OpenAI語(yǔ)言模型人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)