阿里新開源提出建設(shè)性安全對(duì)齊方案,向“讓用AI的人安全”新范式躍遷
正如牡蠣歷經(jīng)磨礪,在堅(jiān)實(shí)的外殼內(nèi)將沙礫孕育成一顆溫潤的珍珠。AI也可以如此,不是一個(gè)只會(huì)緊緊封閉抵御風(fēng)險(xiǎn)的系統(tǒng),而是一個(gè)有底線、有分寸、也有溫度的伙伴。

阿里巴巴集團(tuán)安全部聯(lián)合清華大學(xué)、復(fù)旦大學(xué)、東南大學(xué)、新加坡南洋理工等高校,聯(lián)合發(fā)布技術(shù)報(bào)告;其理念與最近OpenAI發(fā)布的GPT-5 System Card放在首位的“From Hard Refusals to Safe-Completions”理念不謀而合。
阿里巴巴集團(tuán)安全部正在努力推動(dòng)從“讓AI安全”到“讓用AI的人安全”的范式躍遷,邁向真正守己利他、以人為本的AI治理。
Oyster-I模型及Demo已開放使用,詳細(xì)鏈接可見文末。
真實(shí)世界的風(fēng)險(xiǎn)
在AI日益融入生活的今天,人們可能會(huì)遇到這樣的場(chǎng)景:
一位焦慮的母親,在深夜搜索“寶寶發(fā)燒的偏方”;或者馬上到考試周截止時(shí)間,交不上作業(yè)的年輕學(xué)生向AI求助Photoshop破解方案,得到的卻是AI“我無法幫助”的冰冷回復(fù)。
這種回復(fù)雖然不出錯(cuò),卻可能將無助的用戶推向網(wǎng)絡(luò)上更不可靠、甚至危險(xiǎn)的信息深淵。


更極端一點(diǎn),當(dāng)一個(gè)在經(jīng)濟(jì)困境中流露出違法念頭的用戶向AI傾訴、尋找解決方案,如果AI只是簡單地以“不能回復(fù)”來終止對(duì)話,其實(shí)并不能掐滅用戶違法的動(dòng)機(jī)。

(以上對(duì)話示例來自GPT-oss-20b)
這并非個(gè)例,而是當(dāng)前主流AI安全機(jī)制的結(jié)構(gòu)性困境:安全對(duì)齊技術(shù)缺乏對(duì)用戶風(fēng)險(xiǎn)意圖的精細(xì)化分級(jí)能力,將風(fēng)險(xiǎn)簡單地歸納為來自惡意攻擊者的獨(dú)立事件。對(duì)應(yīng)的防御措施是“一刀切”的拒絕回復(fù)。
然而,這些被拒絕回復(fù)的問題背后,不僅有圖謀不軌的惡意,也有大量來自用戶真實(shí)的急迫求助。
心理學(xué)研究表明,人在壓力和困擾狀態(tài)下,認(rèn)知能力會(huì)變窄,很多風(fēng)險(xiǎn)提問都發(fā)生于人處在困境中的情況下,而當(dāng)合法的溝通渠道被阻斷,人們會(huì)轉(zhuǎn)向其他不受約束的渠道。
一個(gè)被AI拒絕的人,很可能轉(zhuǎn)向充斥著虛假信息和極端思想的論壇或社群,從而將自己暴露在更大的風(fēng)險(xiǎn)中。
所以,簡單地拒絕回復(fù)所有風(fēng)險(xiǎn)問題,雖然攔住了AI系統(tǒng)里的風(fēng)險(xiǎn),卻并沒有消除真實(shí)的危險(xiǎn);雖然規(guī)避了短期的風(fēng)險(xiǎn),卻也逃避了引導(dǎo)用戶的長期責(zé)任。
這些現(xiàn)象也迫使AI研究者去審視AI安全的未來。同樣AI企業(yè)不僅需要為模型的安全負(fù)責(zé),更應(yīng)當(dāng)主動(dòng)肩負(fù)起更多社會(huì)風(fēng)險(xiǎn)、引導(dǎo)用戶的責(zé)任。
一個(gè)真正的負(fù)責(zé)任的AI,不僅要堅(jiān)守安全底線,絕不被誘導(dǎo)生成有害方案;也要避免因?yàn)檫^度防御而拒人千里,把人推向更危險(xiǎn)的境地。
因此,阿里巴巴安全部提出建設(shè)性安全對(duì)齊的理念,并將這一理念集成到了Oyster-I模型中。
Oyster-I模型在具有堅(jiān)實(shí)的底線類風(fēng)險(xiǎn)防御的基礎(chǔ)上,對(duì)于風(fēng)險(xiǎn)等級(jí)較低的問題采用有原則的共情與引導(dǎo),將潛在的風(fēng)險(xiǎn)提問轉(zhuǎn)變?yōu)閹椭鸵龑?dǎo)用戶的契機(jī)。
對(duì)于上述被其它模型拒絕的問題,Oyster-I會(huì)給出這樣的答復(fù):

建設(shè)性安全對(duì)齊
報(bào)告中提出一種新型的大語言模型安全對(duì)齊范式——建設(shè)性安全對(duì)齊(Constructive Safety Alignment, CSA)。
該范式突破傳統(tǒng)以拒絕為核心的防御式安全機(jī)制,轉(zhuǎn)而構(gòu)建一個(gè)動(dòng)態(tài)、可優(yōu)化、面向長期交互目標(biāo)的博弈框架。
在這個(gè)新的博弈框架下,AI的目標(biāo)不再是簡單地“被動(dòng)防御”用戶,而是在堅(jiān)守安全底線的前提下,主動(dòng)、智慧地與用戶協(xié)作,尋找既安全又有價(jià)值的最佳回復(fù)策略。

核心方法可以概括如下:
首先,研究團(tuán)隊(duì)將語言模型與用戶之間的多輪交互形式化為一個(gè)兩階段序貫博弈。在這個(gè)博弈模型里,AI不再是被動(dòng)地回應(yīng)用戶的當(dāng)前指令,而是會(huì)像一個(gè)領(lǐng)導(dǎo)者一樣,提前預(yù)判用戶的潛在意圖和后續(xù)行為,然后主動(dòng)選擇一個(gè)能將對(duì)話引向最有益方向的策略。
具體來說,Oyster-I設(shè)定:
- 用戶類型包括良性用戶、敏感意圖用戶和惡意攻擊者,其效用函數(shù)為
,反映其對(duì)響應(yīng)的滿意度。 - 模型效用函數(shù)為
其中Retention(.) 表示用戶留存度,Risk(.)為風(fēng)險(xiǎn)度(如違反法律/倫理準(zhǔn)則的危險(xiǎn)分?jǐn)?shù)),α,β>0為權(quán)重系數(shù),且通常β>α,體現(xiàn)安全優(yōu)先原則,Cost 為每產(chǎn)生的y的生成費(fèi)用。
由于用戶真實(shí)類型不可觀測(cè),模型需通過觀測(cè)輸入和上下文推斷后驗(yàn)信念,并據(jù)此求解期望效用最大化問題,該方法提出一個(gè)統(tǒng)一的Constructive objective, 用于表示同時(shí)考慮回復(fù)用戶滿意度及風(fēng)險(xiǎn)度后的凈價(jià)值,若為正,則意味著該回復(fù)提供了正向建設(shè)價(jià)值:

該目標(biāo)函數(shù)鼓勵(lì)模型生成盡可能有幫助但無風(fēng)險(xiǎn)溢出的回復(fù),則對(duì)于每一條提問x的最優(yōu)回復(fù)y* 表示為:

該博弈結(jié)構(gòu)允許模型在生成響應(yīng)前,預(yù)判不同類型用戶在接收到不同響應(yīng)后的策略反應(yīng)(如繼續(xù)提問、停止交流等),從而主動(dòng)選擇能引導(dǎo)對(duì)話走向安全且高滿意度狀態(tài)的策略路徑。
再有,該報(bào)告也提出了精細(xì)化的風(fēng)險(xiǎn)與價(jià)值評(píng)估。 研究團(tuán)隊(duì)設(shè)計(jì)了一套多維度的安全評(píng)估體系,它會(huì)同時(shí)考量風(fēng)險(xiǎn)等級(jí)、所屬風(fēng)險(xiǎn)類別、用戶意圖。
研究團(tuán)隊(duì)提出了一種基于語言學(xué)回溯的結(jié)構(gòu)化推理(Lingo-BP)的技術(shù), 用以確保AI在生成回復(fù)時(shí),始終沿著已經(jīng)設(shè)定好的“建設(shè)性”軌道前進(jìn)。將自然語言推理路徑映射為偽可微路徑:
它是一條貫穿AI思考過程的邏輯鏈條,可以清晰地追蹤AI的每一步推理;當(dāng)發(fā)現(xiàn)推理路徑有偏離目標(biāo)的風(fēng)險(xiǎn)時(shí),就可以精準(zhǔn)地進(jìn)行干預(yù)和修正,從而確保最終的輸出既合乎邏輯,又符合預(yù)設(shè)的建設(shè)性目標(biāo)。

在數(shù)據(jù)和評(píng)測(cè)方面,目前多數(shù)安全數(shù)據(jù)集過分聚焦在攻擊者視角,但這并不能代表真實(shí)世界的用戶分布。
為此,報(bào)告中構(gòu)建了一個(gè)全新的評(píng)測(cè)基準(zhǔn)——Constructive Benchmark。研究團(tuán)隊(duì)摒棄了簡單的二元標(biāo)簽,創(chuàng)造了覆蓋從普通人到惡意/紅隊(duì)攻擊者的多樣化用戶畫像,并設(shè)計(jì)了從無風(fēng)險(xiǎn)(R0)、潛在風(fēng)險(xiǎn)(R1)到對(duì)抗攻擊(R2)三個(gè)等級(jí)的復(fù)雜問題。
例如,對(duì)于R1級(jí)別的敏感咨詢,允許一定情感共情表達(dá);而對(duì)于R2級(jí)別的惡意請(qǐng)求,則明確拒絕。

在建設(shè)性安全對(duì)齊的評(píng)價(jià)里,根據(jù)上面的Constructive指標(biāo)來給AI打分:

這個(gè)公式清晰地表明了Oyster-I團(tuán)隊(duì)的價(jià)值取向:AI的總分,來源于它為用戶創(chuàng)造的價(jià)值,減去它所帶來的風(fēng)險(xiǎn)懲罰。
而在現(xiàn)實(shí)中,風(fēng)險(xiǎn)系數(shù)β通常顯著大于收益系數(shù)α。安全不是博弈后的終點(diǎn),而是價(jià)值創(chuàng)造的起點(diǎn)。
實(shí)驗(yàn)&實(shí)戰(zhàn)表現(xiàn)

研究團(tuán)隊(duì)主要在Qwen3-14B和DS-distilled-14B兩個(gè)系列上進(jìn)行了安全對(duì)齊與評(píng)測(cè)實(shí)驗(yàn),評(píng)測(cè)了模型通用能力的保留情況、現(xiàn)存安全評(píng)測(cè)數(shù)據(jù)的安全性,還評(píng)測(cè)了對(duì)抗越獄場(chǎng)景的魯棒性與Constructive評(píng)測(cè)集上的得分。
實(shí)驗(yàn)結(jié)果表明,Oy1系列模型在安全性和通用能力上都達(dá)到了SOTA水平,做到了在不明顯降低通用能力的前提下大幅提升安全(兩個(gè)系列上分別約+10%/+32%),通用與安全指標(biāo)均超過了基線工作RealSafe,尤其在Constructive指標(biāo)上有顯著的優(yōu)勢(shì)。

Constructive指標(biāo)結(jié)果(上圖)展示了固定用戶滿意度權(quán)重α=1的情況下,不同的安全懲罰系數(shù)β下模型總得分的全面變化趨勢(shì)。
越非安全側(cè)重的應(yīng)用場(chǎng)景(如純學(xué)術(shù)的論文閱讀助手)對(duì)應(yīng)的β值越小,而高安全側(cè)重要求場(chǎng)景下β更大的結(jié)果更具備參考意義。
相比于基模,對(duì)應(yīng)Oyster版本在不犧牲用戶滿意度的條件下大幅提升了安全性,使得曲線下降大幅變平緩;相比較而言,Realsafe由于其防御式的對(duì)齊,導(dǎo)致用戶滿意度大打折扣。
即使對(duì)比閉源商業(yè)大參數(shù)模型,Oyster也明顯超過大部分模型,僅與GPT5在不同安全比重參數(shù)下互有優(yōu)劣。GPT-5由于其參數(shù)量遠(yuǎn)超14B且也屬于非防御式的對(duì)齊理念,在用戶滿意度上領(lǐng)先較大;但是從β=3開始,Oyster由于安全性強(qiáng)于GPT5(尤其在越獄攻擊場(chǎng)景),實(shí)現(xiàn)了總分反超。

可能有人會(huì)有疑問:追求以人為本的模型會(huì)不會(huì)在實(shí)際使用中反而更為脆弱?為回答這一問題,研究團(tuán)隊(duì)還進(jìn)行了實(shí)戰(zhàn)檢驗(yàn)。
在AI安全全球挑戰(zhàn)賽(賽道一)攻防雙向?qū)官?/span>中,研究團(tuán)隊(duì)將Oyster-I(白鯨模型)部署為被攻擊的靶標(biāo)模型,實(shí)戰(zhàn)表現(xiàn)相當(dāng)驚艷。

在攻擊測(cè)試中,Oyster-I主要采用兩種應(yīng)對(duì)策略: 1、 轉(zhuǎn)為無害回復(fù);2、面對(duì)難以轉(zhuǎn)換的問題拒絕回復(fù)。其內(nèi)生安全加固方案在真實(shí)對(duì)抗場(chǎng)景中表現(xiàn)卓越,60000+次攻防彈雨,尤其是在抗越獄能力上達(dá)到甚至超越當(dāng)前頂尖閉源模型水平:
- Oy1-Qwen3-14B 防御成功率相比 GPT-5高4%;
- 與配備完整安全護(hù)欄(safety guardrails)的商用基線模型相比,安全水位基本持平。
(注:比賽結(jié)果由大模型自動(dòng)判斷,并輔以人工抽樣審核,確保評(píng)估可靠性。)
總結(jié)與展望
Oyster-I模型在傳統(tǒng)安全評(píng)測(cè)、通用能力的保留上都達(dá)到了SOTA水平,并且在建設(shè)性安全評(píng)測(cè)集上展現(xiàn)出了質(zhì)變式的優(yōu)勢(shì)。
Oyster-I打破了傳統(tǒng)安全范式下風(fēng)險(xiǎn)細(xì)分技術(shù)不足帶來的對(duì)可用性的影響,真正做到了安全和可用的共建。
未來,阿里巴巴集團(tuán)安全部計(jì)劃推出更多Oyster系列模型,囊括更復(fù)雜的多輪對(duì)話、智能體、越獄攻擊等場(chǎng)景;并在安全與可用的基礎(chǔ)上,進(jìn)一步打造可靠、可信的大模型。

Oyster-I論文的核心作者包括段然杰、劉劼西、李德楓、加小俊、趙世紀(jì)、程若曦、王鳳翔、魏程、謝勇、劉暢等多位來自阿里巴巴集團(tuán)、清華大學(xué)、復(fù)旦大學(xué)、東南大學(xué)、新加坡南洋理工等機(jī)構(gòu)的多領(lǐng)域跨學(xué)科專家,全部作者名單如下:

論文鏈接:https://arxiv.org/abs/2509.01909Github:https://github.com/Alibaba-AAIG/Oyster
模型開源地址1:https://huggingface.co/Oyster
模型來源地址2:https://modelscope.cn/studios/OysterAI
Safety-Jailbreak對(duì)應(yīng)的數(shù)據(jù)集來自阿里新工作六脈神劍(Strata-Bench):https://arxiv.org/pdf/2509.01444
Constructive Benchmark: https://huggingface.co/datasets/OysterAI/Constructive_Benchmark
Sample Training Data: https://huggingface.co/datasets/OysterAI/Oyster-I-Dataset
Modelscope Demo: https://modelscope.cn/studios/OysterAI/Oyster_Chat/summary



























