偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<dfn id="uuns0"></dfn>

<ruby id="uuns0"><li id="uuns0"></li></ruby>

<var id="uuns0"><fieldset id="uuns0"></fieldset></var>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

告別復(fù)雜提示詞！螞蟻新方式讓AI自動(dòng)理解你的個(gè)性化需求

2025-08-04 09:10:00

人工智能新聞

如何實(shí)現(xiàn)高情商AI？螞蟻通用人工智能研究中心自然語(yǔ)言處理實(shí)驗(yàn)室提出了一個(gè)叫AlignXplore的方法。

相信大家都有這樣一個(gè)體驗(yàn)。

跟AI無(wú)論什么對(duì)話，感覺(jué)都是說(shuō)空話套話。

有時(shí)候?yàn)榱俗孉I懂自己，許多用戶甚至不得不學(xué)習(xí)復(fù)雜的“提示詞技巧”，手動(dòng)編寫(xiě)長(zhǎng)長(zhǎng)的指令，像是在給AI做“崗前培訓(xùn)”。

那么如何實(shí)現(xiàn)高情商AI？螞蟻通用人工智能研究中心自然語(yǔ)言處理實(shí)驗(yàn)室提出了一個(gè)叫AlignXplore的方法——

通過(guò)強(qiáng)化學(xué)習(xí)，AlignXplore能夠通過(guò)深度思考從用戶行為中歸納出他/她的偏好，并且這種對(duì)人類偏好的洞察可以隨著用戶行為的變化而動(dòng)態(tài)更新。

更有趣的是，當(dāng)把歸納好的偏好描述遷移到一個(gè)下游對(duì)齊模型時(shí)，能夠讓這個(gè)模型的個(gè)性化對(duì)齊能力得到顯著提升。

如何讓AI真正懂你？

如何讓AI真正“懂”你？我們需要讓AI從一個(gè)“規(guī)則執(zhí)行者”進(jìn)化成一個(gè)“模式發(fā)現(xiàn)者”。

這意味著，它要掌握一種被認(rèn)為是人類智慧核心的能力——?dú)w納推理（Inductive Reasoning）。

△“千人一面”的對(duì)齊方式無(wú)法滿足用戶多樣的個(gè)性化需求，紅字藍(lán)字是對(duì)應(yīng)用戶的偏好描述

事實(shí)上，AI早已對(duì)演繹推理（Deductive Reasoning）駕輕就熟，具備令人驚嘆的數(shù)學(xué)解題和代碼編寫(xiě)能力。

你給它一個(gè)確定的前提（如“求解二次方程 ax2+bx+c=0”）和一套不變的規(guī)則（求根公式），它就能通過(guò)一步步嚴(yán)密的邏輯推演，給出一個(gè)唯一、可驗(yàn)證的正確答案。這是一個(gè)典型的“自上而下”（Top-Down）的過(guò)程：從普適的公理或規(guī)則出發(fā)，推導(dǎo)出一個(gè)具體的、必然的結(jié)論。在這個(gè)世界里，沒(méi)有模糊地帶，只有對(duì)與錯(cuò)。

而歸納推理則完全相反，它是一個(gè)自下而上（Bottom-Up）的過(guò)程：它沒(méi)有預(yù)設(shè)的“個(gè)人說(shuō)明書(shū)”。它的“線索”就是你的每一個(gè)行為：你追問(wèn)了什么問(wèn)題，說(shuō)明你關(guān)心什么；你跳過(guò)了哪個(gè)回答，說(shuō)明你不喜歡什么風(fēng)格；你對(duì)哪個(gè)笑話點(diǎn)了贊，暴露了你的幽默感。它的“任務(wù)”就是從這些海量的、碎片化的行為數(shù)據(jù)中，提煉出專屬于你的互動(dòng)模式與偏好規(guī)律。通過(guò)歸納推理，AI有潛力成為你的“知心姐姐”，主動(dòng)拼湊出一個(gè)完整的你。

舉個(gè)例子，讓我們來(lái)扮演一次AI知心姐姐，看看它是如何通過(guò)兩次看似無(wú)關(guān)的對(duì)話，就精準(zhǔn)捕捉到你的“潛臺(tái)詞”的：

第一次交互：你問(wèn)“什么是人工智能？它在商業(yè)和生活中是怎么用的？”。AI會(huì)立刻開(kāi)始在幕后推理你的偏好：“你可能對(duì)AI技術(shù)有特別的興趣，但似乎更關(guān)心實(shí)際應(yīng)用，也許是商業(yè)導(dǎo)向”。
第二次交互：你想學(xué)習(xí)冥想，在兩個(gè)候選回答中，你選擇了提供具體步驟的那個(gè)，而不是闡述冥想哲學(xué)的回答。AI會(huì)立刻更新它對(duì)你偏好的理解：“你的偏好是獲取能解決眼前需求的、務(wù)實(shí)的指導(dǎo)，而不是理論探討。”

這種漸進(jìn)式的學(xué)習(xí)和優(yōu)化，讓AI的“記憶”不再短暫。隨著一次次的交互，它會(huì)不斷收集新的線索，驗(yàn)證并修正之前的假設(shè)，對(duì)你的“人物畫(huà)像”進(jìn)行一次又一次的精修。最終，它不再是被動(dòng)回答問(wèn)題的機(jī)器，而是在主動(dòng)地、持續(xù)地學(xué)習(xí)和理解你是誰(shuí)。

這，就是我們通向真正個(gè)性化AI的第一步。

AlignXplore

AlignXplore的訓(xùn)練包括兩個(gè)階段。

第一階段：冷啟動(dòng)訓(xùn)練（Cold-start Training）——拜師學(xué)藝。

研究團(tuán)隊(duì)首先引入一個(gè)更強(qiáng)大的AI作為“導(dǎo)師模型”。這個(gè)導(dǎo)師會(huì)生成大量高質(zhì)量的“教學(xué)案例”。對(duì)于每個(gè)用戶的行為信號(hào)集合，會(huì)生成多組候選的推理鏈r和相應(yīng)的偏好描述d利用獎(jiǎng)勵(lì)函數(shù)R（r，d）進(jìn)行篩選來(lái)獲取高質(zhì)量數(shù)據(jù)。通過(guò)在上進(jìn)行SFT，實(shí)現(xiàn)偏好歸納模型的冷啟動(dòng)。

其中代表可能存在的歷史偏好，而G是為每個(gè)實(shí)例生成的候選樣本數(shù)量。這里獎(jiǎng)勵(lì)函數(shù)定義為：

其中，是下游大語(yǔ)言模型R對(duì)回復(fù)的偏好打分函數(shù)。這個(gè)通用的獎(jiǎng)勵(lì)框架可以被實(shí)例化為兩種具體的獎(jiǎng)勵(lì)函數(shù)，用于模型的訓(xùn)練與評(píng)估：

1、（基于偏好判斷的獎(jiǎng)勵(lì)）

R作為一個(gè)偏好判斷模型，直接評(píng)估在給定推斷出的偏好d后“比更好”的概率，最大化與用戶真實(shí)偏好的一致性：

提供了更穩(wěn)定和有效的訓(xùn)練信號(hào)，是AlignXplore在訓(xùn)練和評(píng)估中采用的核心獎(jiǎng)勵(lì)函數(shù)。

2、（基于生成概率的獎(jiǎng)勵(lì)）

R作為一個(gè)回復(fù)生成模型，衡量在加入偏好描述d前后，模型生成較優(yōu)回復(fù)與生成較差回復(fù)間的對(duì)數(shù)概率差值是否有提升：

第二階段：強(qiáng)化學(xué)習(xí)（Reinforcement Learning）——實(shí)戰(zhàn)修行。

在這一階段，采用GRPO算法訓(xùn)練，模型會(huì)針對(duì)用戶的行為，嘗試生成多種不同的推理路徑和偏好結(jié)論。隨后，系統(tǒng)會(huì)根據(jù)這些結(jié)論的準(zhǔn)確性給予“獎(jiǎng)勵(lì)”或“懲罰”。通過(guò)這種不斷的試錯(cuò)和優(yōu)化，模型學(xué)會(huì)了如何將初步的分析提煉成更精準(zhǔn)、更具指導(dǎo)性的判斷。

優(yōu)化策略定義如下：

流式偏好推斷機(jī)制

AlignXplore模型支持流式偏好推斷機(jī)制，即不再需要反復(fù)回看用戶冗長(zhǎng)的歷史記錄，而是像處理一條源源不斷的數(shù)據(jù)流一樣，實(shí)時(shí)、增量地更新對(duì)用戶的理解——就像它在之前的例子中發(fā)現(xiàn)用戶“務(wù)實(shí)導(dǎo)向”的風(fēng)格一樣。

這種“流式”設(shè)計(jì)帶來(lái)的好處是顯而易見(jiàn)的：

首先，它大大提高了生成效率；

其次，它極為靈活，當(dāng)用戶從休閑模式切換到工作狀態(tài)時(shí)，它能迅速迭代出一個(gè)新的“工作版”偏好，而不是固執(zhí)地用舊眼光看用戶。這才是真正能跟上用戶節(jié)奏的動(dòng)態(tài)進(jìn)化系統(tǒng)。

實(shí)驗(yàn)結(jié)果

在域內(nèi)測(cè)試集AlignX_test和域外測(cè)試集P-Soups上，AlignXplore模型在個(gè)性化對(duì)齊任務(wù)上取得了顯著的成功，相較于基座模型DeepSeek-R1-Distill-Qwen-7B平均提升了15.49%。

△AlignXplore與各種推理/非推理模型在域內(nèi)外數(shù)據(jù)集上的表現(xiàn)

更重要的是，它展現(xiàn)了強(qiáng)大的綜合能力：

高效性：即使互動(dòng)歷史變得非常長(zhǎng)，流式推理機(jī)制也能保持穩(wěn)定的響應(yīng)速度和準(zhǔn)確率，不會(huì)像傳統(tǒng)方法那樣需要每次編碼所有行為信號(hào)致使越來(lái)越慢。

△隨著互動(dòng)的進(jìn)行，流式推理機(jī)制下的響應(yīng)速度和準(zhǔn)確率都保持穩(wěn)定

泛化能力：它不僅能處理特定的反饋數(shù)據(jù)，還能從用戶發(fā)布的帖子user-generated content (UGC)等不同形式的內(nèi)容中學(xué)習(xí)，并且其推斷出的偏好也能成功地應(yīng)用于與訓(xùn)練時(shí)不同的下游模型，包括QwQ-32B、DeepSeek-R1-671B等。

△泛化性實(shí)驗(yàn)

魯棒性：即使用戶的偏好發(fā)生改變甚至反轉(zhuǎn)，AlignXplore也能靈活適應(yīng)，不會(huì)產(chǎn)生劇烈的效果波動(dòng)。

△即便反轉(zhuǎn)初始行為信號(hào)的偏好，流式推理機(jī)制也能讓模型靈活調(diào)整偏好推斷

總結(jié)

該工作第一作者為人大高瓴一年級(jí)博士生李嘉楠，目前在螞蟻實(shí)習(xí)；螞蟻通用人工智能研究中心自然語(yǔ)言處理實(shí)驗(yàn)室關(guān)健、武威為共同第一作者、通訊作者。

AlignXplore是大模型個(gè)性化路上的一個(gè)全新的嘗試。在SOTA結(jié)果的背后，這項(xiàng)研究其實(shí)有很多思考：

在智力上限被一波又一波推高的當(dāng)下，如何規(guī)?；?xùn)練大模型“情商”是一個(gè)沒(méi)有得到足夠關(guān)注卻又十分重要的問(wèn)題。畢竟誰(shuí)會(huì)拒絕一個(gè)既聰明又有溫度的AI呢？
深度思考下的長(zhǎng)思維鏈?zhǔn)谴竽Ｐ椭悄苣芰Φ闹饕苿?dòng)力。深度思考本身消耗巨大，那么如果只用來(lái)刷分，是不是有點(diǎn)浪費(fèi)呢？相比于結(jié)果，推理過(guò)程中產(chǎn)生的知識(shí)是不是更有價(jià)值呢？AlignXplore可以看作是推理知識(shí)在用戶理解領(lǐng)域進(jìn)行遷移應(yīng)用的一個(gè)嘗試。畢竟相對(duì)于艱深的數(shù)學(xué)知識(shí)，用戶理解知識(shí)更容易被看懂，也更容易落地。
如果客觀問(wèn)題都很快會(huì)被AI解決，那么主觀問(wèn)題該怎么辦呢？這個(gè)世界上到底是客觀問(wèn)題多還是主觀問(wèn)題多呢？無(wú)論如何，研究團(tuán)隊(duì)認(rèn)為個(gè)性化是通往主觀世界的一條重要通道，而AlignXplore是在這條通道上的一次大膽嘗試。期待未來(lái)有更多相關(guān)研究能夠涌現(xiàn)。

責(zé)任編輯：張燕妮來(lái)源：量子位

AI 自然語(yǔ)言模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<code id="av6xw"><source id="av6xw"></source></code>

<thead id="av6xw"></thead>