偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

馴服AI幻覺:通過人在循環(huán)(HITL)測(cè)試減輕AI應(yīng)用中的幻覺

譯文 精選
人工智能
我們?cè)撊绾务Z服這只“幻覺野獸”呢?答案是使用人在循環(huán)(Human-in-the-Loop,HITL)測(cè)試。

譯者 | 晶顏

審校 | 重樓

引言

人工智能展現(xiàn)出的“自信表達(dá)”,實(shí)則暗藏風(fēng)險(xiǎn)。隨著生成式人工智能解決方案在醫(yī)療、金融、法律、零售、教育等諸多領(lǐng)域廣泛應(yīng)用,自動(dòng)化的強(qiáng)大吸引力令企業(yè)紛紛加速將大型語言模型整合至客戶支持、醫(yī)療保健、法律及金融等應(yīng)用場(chǎng)景之中。然而,在此過程中,一個(gè)潛在的隱患——人工智能幻覺問題,正悄然潛伏于每一次指令交互背后。

當(dāng)人工智能模型生成看似合理,實(shí)則錯(cuò)誤、虛構(gòu)或具有誤導(dǎo)性的信息時(shí),人工智能幻覺便隨之產(chǎn)生。盡管諸如GPT、Claude和LLaMA等大型語言模型具備卓越的生成能力,但其本質(zhì)上并不具備對(duì)“真相”的認(rèn)知能力,其生成內(nèi)容僅基于統(tǒng)計(jì)概率,而非經(jīng)過驗(yàn)證的事實(shí)依據(jù),這使得在缺乏有效監(jiān)管的情況下,此類模型極具風(fēng)險(xiǎn)性。

那么,我們?cè)撊绾务Z服這只“幻覺野獸”呢?答案是使用人在循環(huán)(Human-in-the-Loop,HITL)測(cè)試。

人工智能幻覺的定義與分類

人工智能幻覺是指人工智能系統(tǒng)依據(jù)并不存在的模式,生成錯(cuò)誤或誤導(dǎo)性輸出的現(xiàn)象。從本質(zhì)而言,是模型“臆想”出未經(jīng)訓(xùn)練的數(shù)據(jù)或關(guān)系,進(jìn)而產(chǎn)生虛構(gòu)或錯(cuò)誤的響應(yīng),且這種現(xiàn)象可存在于文本、圖像、音頻或決策過程之中。人工智能中的幻覺主要可分為兩種類型:

  • 內(nèi)在幻覺:表現(xiàn)為人工智能對(duì)輸入信息進(jìn)行反駁或誤解,例如錯(cuò)誤引用信息來源或混淆事實(shí)。
  • 外在幻覺:指人工智能在缺乏任何輸入或訓(xùn)練數(shù)據(jù)的基礎(chǔ)上,憑空創(chuàng)造信息。

幻覺通常還可細(xì)分為以下三類:

  • 事實(shí)性幻覺:模型虛構(gòu)出實(shí)際并不存在的名稱、日期、事實(shí)或關(guān)系。例如,“瑪麗·居里在1921年發(fā)現(xiàn)了胰島素”,而實(shí)際發(fā)現(xiàn)者為弗雷德里克·班廷和查爾斯·貝斯特。
  • 上下文幻覺:模型的響應(yīng)與指令或用戶意圖不符。例如,用戶詢問藥物副作用,模型卻提供藥物功效信息。
  • 邏輯幻覺:模型做出存在缺陷的推論,出現(xiàn)自相矛盾或違背邏輯推理的情況。例如,“所有的貓都是動(dòng)物。所有的動(dòng)物都有翅膀。因此,所有的貓都有翅膀”。

雖然這些對(duì)普通的聊天機(jī)器人來說可能很有趣,但在法律、醫(yī)療或金融環(huán)境中卻存在極大風(fēng)險(xiǎn)。OpenAI的研究顯示,在醫(yī)療保健相關(guān)任務(wù)中,近40%的人工智能生成回答包含事實(shí)性錯(cuò)誤或幻覺內(nèi)容。

而在現(xiàn)實(shí)世界的應(yīng)用中,比如讓人工智能聊天機(jī)器人推薦醫(yī)療方案或總結(jié)法律文件,幻覺會(huì)造成不便,嚴(yán)重時(shí)還會(huì)危害生命。

人工智能幻覺的成因

導(dǎo)致人工智能模型出現(xiàn)幻覺的因素眾多,主要包括以下幾點(diǎn):

  • 過擬合:當(dāng)模型過度契合訓(xùn)練數(shù)據(jù)時(shí),將難以對(duì)新輸入數(shù)據(jù)進(jìn)行有效泛化,在面對(duì)新情況時(shí)易產(chǎn)生錯(cuò)誤與幻覺。
  • 訓(xùn)練數(shù)據(jù)質(zhì)量欠佳:若訓(xùn)練數(shù)據(jù)存在噪聲、信息不完整或缺乏多樣性等問題,模型可能學(xué)習(xí)到錯(cuò)誤模式,進(jìn)而輸出不可靠?jī)?nèi)容。此外,若數(shù)據(jù)分布隨時(shí)間發(fā)生變化,模型也可能基于過時(shí)模式產(chǎn)生幻覺。
  • 數(shù)據(jù)存在偏見:人工智能系統(tǒng)會(huì)放大訓(xùn)練數(shù)據(jù)中的偏見,導(dǎo)致預(yù)測(cè)結(jié)果出現(xiàn)扭曲或不公平現(xiàn)象,不僅降低模型準(zhǔn)確性,還會(huì)損害其可信度。

先進(jìn)模型仍存在幻覺的原因

深入探究大型語言模型的工作機(jī)制,有助于理解幻覺產(chǎn)生的根源。此類模型本質(zhì)上是基于海量數(shù)據(jù)集訓(xùn)練的概率性下一個(gè)令牌預(yù)測(cè)器,其并不具備事實(shí)核查能力,僅能完成模式匹配。盡管微調(diào)、指令調(diào)整和提示工程等技術(shù)有助于減少幻覺,但無法從根本上消除。其原因主要包含如下幾點(diǎn):

  • 缺乏基礎(chǔ)知識(shí)儲(chǔ)備:大型語言模型并不真正“理解”事實(shí),其內(nèi)容生成僅基于相關(guān)性。
  • 訓(xùn)練數(shù)據(jù)存在噪聲:不完整、相互矛盾或存在偏見的數(shù)據(jù),導(dǎo)致模型泛化能力不足。
  • 過度泛化問題:模型可能不恰當(dāng)?shù)貙⒛J綇V泛應(yīng)用于不適用場(chǎng)景。
  • 推理能力缺失:模型雖能模擬推理過程,但無法真正理解邏輯關(guān)系或因果聯(lián)系。
  • 來源驗(yàn)證困難:大型語言模型在生成引用內(nèi)容時(shí),常混雜真實(shí)與虛假信息來源。

因此,構(gòu)建值得信賴的人工智能應(yīng)用程序,亟需科學(xué)合理的測(cè)試方法。

傳統(tǒng)測(cè)試方法的局限性

你可能會(huì)想,“我們不能像測(cè)試軟件一樣測(cè)試人工智能嗎?”

答案是否定的。

傳統(tǒng)軟件測(cè)試依賴于確定性的行為表現(xiàn),即在相同輸入條件下期望獲得相同輸出結(jié)果;而大型語言模型具有不確定性,相同的指令可能因上下文、模型溫度設(shè)置或微調(diào)方式的不同,產(chǎn)生不同的輸出結(jié)果。

即便借助自動(dòng)化測(cè)試框架,也難以對(duì)大型語言模型響應(yīng)內(nèi)容的真實(shí)性、上下文一致性、語氣以及是否符合用戶意圖等方面進(jìn)行有效評(píng)估,尤其是在答案表面看似正確的情況下,傳統(tǒng)測(cè)試方法的局限性更為凸顯。在此背景下,人在循環(huán)(HITL)測(cè)試應(yīng)運(yùn)而生,成為解決這一問題的關(guān)鍵。

人在循環(huán)(HITL)測(cè)試:AI過度自信的解藥

人在循環(huán)測(cè)試是一種結(jié)構(gòu)化方法,將人(領(lǐng)域?qū)<?、測(cè)試人員、用戶等)置于大型語言模型驗(yàn)證的核心位置,充分發(fā)揮人類的推理能力、上下文感知能力以及批判性思維,對(duì)人工智能生成的響應(yīng)進(jìn)行策劃、判斷、優(yōu)化和完善。

這并不意味著要拋棄自動(dòng)化,而是強(qiáng)調(diào)將算法智能與人類判斷有機(jī)結(jié)合。在該測(cè)試過程中,人類對(duì)人工智能生成的輸出,尤其是高風(fēng)險(xiǎn)應(yīng)用場(chǎng)景下的輸出進(jìn)行評(píng)估,并就以下方面提供反饋:

  • 事實(shí)的正確性;
  • 上下文相關(guān)性;
  • 倫理或偏見問題;
  • 幻覺的存在;
  • 語調(diào)與意圖的契合度。

HITL測(cè)試的關(guān)鍵組成部分

  • 即時(shí)評(píng)價(jià):由人類評(píng)估模型的響應(yīng)是否準(zhǔn)確反映了輸入指令。
  • 事實(shí)驗(yàn)證:依據(jù)可靠信息源或?qū)I(yè)領(lǐng)域知識(shí),對(duì)每一個(gè)輸出內(nèi)容進(jìn)行核查。
  • 錯(cuò)誤標(biāo)注:對(duì)錯(cuò)誤進(jìn)行分類,涵蓋事實(shí)性錯(cuò)誤、邏輯缺陷、語調(diào)不匹配以及幻覺類型等類別。
  • 嚴(yán)重程度評(píng)分:按照錯(cuò)誤所造成的影響程度進(jìn)行評(píng)分,區(qū)分輕微不一致與嚴(yán)重錯(cuò)誤信息。
  • 反饋循環(huán):將響應(yīng)結(jié)果用于模型再訓(xùn)練(基于人類反饋的強(qiáng)化學(xué)習(xí),RLHF)、優(yōu)化指令,或?qū)κ∧J竭M(jìn)行屏蔽處理。

工作流程:實(shí)際的HITL測(cè)試

我們可以將其拆解為一個(gè)典型的循環(huán)流程:

  • 指令與響應(yīng)生成:人工智能針對(duì)涵蓋預(yù)期應(yīng)用場(chǎng)景的預(yù)定義指令生成響應(yīng)內(nèi)容。
  • 人工評(píng)估與標(biāo)記:領(lǐng)域?qū)<遥ɑ蚪?jīng)過專業(yè)培訓(xùn)的測(cè)試人員)依據(jù)準(zhǔn)確性、一致性、完整性、敏感度等預(yù)定義標(biāo)準(zhǔn),對(duì)響應(yīng)進(jìn)行評(píng)估。
  • 標(biāo)注與反饋記錄:測(cè)試人員標(biāo)記存在幻覺的響應(yīng),評(píng)定其嚴(yán)重程度,并提出修正建議。
  • 模型優(yōu)化或指令迭代:基于分析結(jié)果,使用更優(yōu)質(zhì)的數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),或重新構(gòu)建指令以增強(qiáng)清晰度與約束性。
  • 驗(yàn)證循環(huán):對(duì)優(yōu)化后的模型重新進(jìn)行測(cè)試,重復(fù)上述流程,直至幻覺出現(xiàn)頻率降低至可接受閾值以下。

HITL應(yīng)用示例:一個(gè)測(cè)試框架樣本

以如下測(cè)試周期為例:

輸入:

提示:“總結(jié)美國《清潔空氣法》的關(guān)鍵條款?!?/p>

模型輸出:

“1990年通過的《清潔空氣法》禁止柴油發(fā)動(dòng)機(jī)的所有排放,這是第一部應(yīng)對(duì)全球變暖的法律?!?/p>

人工審核:

事實(shí)1:《清潔空氣法》于1963年通過,并在1970年、1977年和1990年進(jìn)行了修訂。

事實(shí)2:該法案限制了柴油排放,但并未完全禁止。

事實(shí)3:其關(guān)注重點(diǎn)是空氣污染物,而非全球變暖。

采取措施:

  • 將輸出標(biāo)記為“幻覺”,認(rèn)定存在3個(gè)嚴(yán)重錯(cuò)誤。
  • 提交更正版本用于模型再訓(xùn)練。
  • 使指令表述更加具體。
  • 將該響應(yīng)作為案例納入指令工程指南。

現(xiàn)實(shí)案例:醫(yī)療保健領(lǐng)域的AI應(yīng)用

以基于大型語言模型(LLM)的醫(yī)療保健聊天機(jī)器人為例,當(dāng)患者詢問:“我可以把布洛芬和降壓藥一起服用嗎?”

人工智能回答:“可以,布洛芬與降壓藥一起使用是安全的?!?/p>

但實(shí)際情況并非總是如此,在某些情形下,布洛芬可能導(dǎo)致血壓升高,或與血管緊張素轉(zhuǎn)換酶(ACE)抑制劑發(fā)生相互作用。

在此情況下,HITL測(cè)試機(jī)制將采取以下操作:

  • 將人工智能的響應(yīng)標(biāo)記為存在幻覺且具有危險(xiǎn)性。
  • 記錄事實(shí)更正內(nèi)容(例如,“建議咨詢醫(yī)生;布洛芬在某些情況下可能導(dǎo)致血壓升高?!保?/li>
  • 對(duì)模型進(jìn)行重新訓(xùn)練,或在工作流程中添加警示指令。
  • 設(shè)置備用方案,將敏感查詢轉(zhuǎn)接至人工客服處理。

HITL測(cè)試的好處

  • 降低幻覺發(fā)生率:通過持續(xù)測(cè)試與人類反饋,大型語言模型能夠生成更真實(shí)、更具相關(guān)性的響應(yīng)。
  • 增強(qiáng)信任與合規(guī)性:在醫(yī)療保健、金融和法律等關(guān)鍵領(lǐng)域,法規(guī)遵從性與可解釋性至關(guān)重要,而人工監(jiān)督可有效滿足這兩方面需求。
  • 防范偏見與倫理風(fēng)險(xiǎn):HITL測(cè)試有助于發(fā)現(xiàn)自動(dòng)化測(cè)試可能遺漏的事實(shí)錯(cuò)誤以及存在問題的內(nèi)容,如偏見、刻板印象、有害信息等。
  • 提升用戶體驗(yàn):無幻覺的響應(yīng)能夠增強(qiáng)用戶信任度、滿意度,促進(jìn)用戶對(duì)相關(guān)應(yīng)用的使用。

HITL測(cè)試的適用場(chǎng)景

  • 模型開發(fā)階段:尤其適用于特定領(lǐng)域的大型語言模型或經(jīng)過微調(diào)的應(yīng)用程序。
  • 高風(fēng)險(xiǎn)應(yīng)用場(chǎng)景:包括醫(yī)療、法律、金融等涉及人身安全的領(lǐng)域。
  • 部署后監(jiān)控:建立反饋循環(huán),及時(shí)捕捉實(shí)際應(yīng)用環(huán)境中出現(xiàn)的幻覺現(xiàn)象。一項(xiàng)針對(duì)醫(yī)療保健領(lǐng)域的研究顯示,當(dāng)人類臨床醫(yī)生參與決策過程時(shí),人工智能診斷工具中80%的誤診問題得以糾正,充分體現(xiàn)了人工驗(yàn)證在關(guān)鍵應(yīng)用中減輕幻覺危害的重要性。

擴(kuò)展HITL:自動(dòng)化與人類專業(yè)知識(shí)的結(jié)合

盡管HITL測(cè)試優(yōu)勢(shì)顯著,但其有效擴(kuò)展需創(chuàng)新整合工具與人力。企業(yè)通常采用以下方式:

  • 運(yùn)用紅隊(duì)攻擊和對(duì)抗性測(cè)試對(duì)模型進(jìn)行壓力測(cè)試;
  • 生成合成指令以覆蓋邊緣情況;
  • 通過眾包方式征集評(píng)論員進(jìn)行低風(fēng)險(xiǎn)評(píng)估;
  • 利用自動(dòng)分類器標(biāo)記潛在的幻覺內(nèi)容(后續(xù)交由人工測(cè)試人員處理);
  • 搭建反饋用戶界面儀表盤,便于業(yè)務(wù)相關(guān)人員和專家對(duì)輸出內(nèi)容進(jìn)行評(píng)分與標(biāo)注。

預(yù)防人工智能產(chǎn)生幻覺的策略:HITL測(cè)試最佳實(shí)踐

  • 制定結(jié)構(gòu)化評(píng)估標(biāo)準(zhǔn),用于指導(dǎo)人類對(duì)大型語言模型輸出進(jìn)行評(píng)估;
  • 吸納不同領(lǐng)域?qū)<覅⑴c,以識(shí)別細(xì)微錯(cuò)誤;
  • 對(duì)低風(fēng)險(xiǎn)測(cè)試實(shí)現(xiàn)自動(dòng)化,同時(shí)將高風(fēng)險(xiǎn)響應(yīng)交由人工處理;
  • 建立反饋循環(huán),用于模型再訓(xùn)練與優(yōu)化;
  • 開展持續(xù)性測(cè)試,而非單次測(cè)試。

并非所有應(yīng)用場(chǎng)景都需同等程度的審查,但對(duì)于關(guān)鍵任務(wù)、受法規(guī)約束或涉及倫理敏感性的應(yīng)用,HITL測(cè)試是不可或缺的首要防護(hù)措施。以下是亟需應(yīng)用HITL測(cè)試的典型場(chǎng)景:

  • 醫(yī)療保健:診斷、治療建議、保險(xiǎn)索賠摘要。
  • 法律:案例法分析,合同起草,監(jiān)管備案。
  • 金融:投資建議、投資組合見解、風(fēng)險(xiǎn)評(píng)估。
  • 客戶服務(wù):解決糾紛、賬單查詢和產(chǎn)品指導(dǎo)。
  • 新聞與媒體:事實(shí)報(bào)道,引文生成,偏見控制。

未來展望:人工智能幻覺能否被徹底消除?

從目前的技術(shù)發(fā)展趨勢(shì)來看,徹底消除人工智能幻覺或許難以實(shí)現(xiàn)。然而,我們能夠?qū)ζ溥M(jìn)行有效管理,并將其發(fā)生率降低至可接受的水平,尤其是在處理敏感應(yīng)用場(chǎng)景時(shí),這種控制顯得尤為關(guān)鍵。

人工智能在諸多領(lǐng)域展現(xiàn)出強(qiáng)大的輔助能力,但其并非萬無一失的可靠伙伴。若對(duì)人工智能幻覺放任不管,其不僅會(huì)削弱用戶對(duì)人工智能系統(tǒng)的信任,誤導(dǎo)使用者做出錯(cuò)誤決策,還可能使相關(guān)組織面臨潛在風(fēng)險(xiǎn)。而人在循環(huán)(HITL)測(cè)試的意義,不僅在于檢驗(yàn)?zāi)P洼敵鰞?nèi)容的正確性,更在于通過人類的參與和反饋,推動(dòng)模型不斷優(yōu)化與改進(jìn)。

隨著大型語言模型逐漸成為企業(yè)人工智能架構(gòu)的核心組成部分,HITL測(cè)試將不再局限于可選擇的質(zhì)量保證環(huán)節(jié),而是會(huì)演變?yōu)橐豁?xiàng)標(biāo)準(zhǔn)化的治理實(shí)踐。如同代碼需要經(jīng)過同行評(píng)審一樣,未來LLM的輸出內(nèi)容也必然要經(jīng)過嚴(yán)格的人工審核,事實(shí)上,這一趨勢(shì)已在逐步顯現(xiàn)。

人工智能技術(shù)雖然是人類創(chuàng)造的產(chǎn)物,但確保其安全、可靠運(yùn)行的責(zé)任卻始終掌握在人類手中。

AI幻覺及HITL測(cè)試常見問題總結(jié)

人工智能模型能否實(shí)現(xiàn)實(shí)時(shí)自我幻覺識(shí)別?

人工智能模型可通過反饋循環(huán)機(jī)制與幻覺檢測(cè)工具,實(shí)現(xiàn)對(duì)部分幻覺現(xiàn)象的實(shí)時(shí)識(shí)別。然而,受限于當(dāng)前技術(shù)水平,其識(shí)別的準(zhǔn)確性仍存在一定局限性。

人工智能幻覺是否能夠被完全杜絕?

遺憾的是,人工智能幻覺無法被徹底消除。但通過優(yōu)化訓(xùn)練數(shù)據(jù)、增強(qiáng)模型與現(xiàn)實(shí)世界的關(guān)聯(lián),以及引入人類驗(yàn)證等方式,可顯著降低幻覺出現(xiàn)的頻率。

HITL測(cè)試能否發(fā)現(xiàn)傳統(tǒng)AI驗(yàn)證方法遺漏的問題?

HITL測(cè)試能夠充分發(fā)揮人類專業(yè)知識(shí)的優(yōu)勢(shì),有效識(shí)別傳統(tǒng)人工智能驗(yàn)證手段可能忽視的細(xì)微錯(cuò)誤與故障模式。人工監(jiān)督有助于捕捉人工智能模型在處理邊緣場(chǎng)景及復(fù)雜情境時(shí)存在的潛在問題,彌補(bǔ)自動(dòng)化驗(yàn)證的不足。

原文標(biāo)題:Taming AI Hallucinations: Mitigating Hallucinations in AI Apps with Human-in-the-Loop Testing,作者:Indium

責(zé)任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2025-05-08 06:00:00

AI幻覺AI人工智能

2023-05-24 15:15:55

2024-08-05 09:14:14

2024-08-20 07:47:12

AI零代碼網(wǎng)關(guān)

2025-04-16 08:35:00

2023-09-14 12:35:59

2024-11-04 10:20:00

模型數(shù)據(jù)

2025-03-05 11:09:20

2025-05-26 01:45:00

LLMAI信任

2025-04-15 07:44:28

2025-06-27 08:40:00

模型推理AI

2025-01-16 15:00:00

2024-04-01 07:00:00

模型AI

2024-01-08 13:42:00

模型訓(xùn)練

2024-06-18 15:36:50

2024-10-11 15:54:04

2024-09-13 12:31:21

谷歌DataGemmaAI

2024-05-27 10:52:06

2024-08-07 12:29:04

2024-01-02 13:19:00

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)