偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線(xiàn)教育平臺(tái)

革新GUI自動(dòng)化：V-Zen模型引領(lǐng)多模態(tài)語(yǔ)言模型新紀(jì)元精華

發(fā)布于 2024-5-28 11:33

瀏覽

0收藏

革新GUI自動(dòng)化：V-Zen模型引領(lǐng)多模態(tài)語(yǔ)言模型新紀(jì)元-AI.x社區(qū)

在人工智能領(lǐng)域不斷發(fā)展的今天，多模態(tài)大型語(yǔ)言模型（MLLMs）已經(jīng)成為一種變革性的力量，它們能夠跨越不同數(shù)據(jù)表現(xiàn)形式的鴻溝，實(shí)現(xiàn)數(shù)據(jù)的理解和整合。這些模型擅長(zhǎng)從多種模態(tài)（如文本和圖像）中整合信息，顯著擴(kuò)展了研究和實(shí)際應(yīng)用的范圍。在這一領(lǐng)域內(nèi)，一個(gè)關(guān)鍵的研究方向是圖形用戶(hù)界面（GUI）的任務(wù)自動(dòng)化。GUI任務(wù)的自動(dòng)化為提高各種應(yīng)用的效率和生產(chǎn)力提供了巨大的潛力。然而，現(xiàn)有的模型和基準(zhǔn)主要集中在基于文本的任務(wù)上，這種方法忽視了多模態(tài)代理有效處理和整合視覺(jué)信息以解決問(wèn)題的巨大潛力。我們研究的主要推動(dòng)力是這些模型的應(yīng)用，特別強(qiáng)調(diào)在GUI圖像上下文中的“著陸”概念。在MLLMs領(lǐng)域，著陸指的是將語(yǔ)言中的詞語(yǔ)或短語(yǔ)與其他模態(tài)中的相應(yīng)實(shí)體關(guān)聯(lián)起來(lái)的過(guò)程。例如，在文本-圖像配對(duì)中，“蘋(píng)果”一詞將與蘋(píng)果的圖像相對(duì)應(yīng)。MLLMs在自動(dòng)化GUI任務(wù)中有效且精確地進(jìn)行著陸尤為關(guān)鍵。

論文標(biāo)題、機(jī)構(gòu)、論文鏈接

論文標(biāo)題: IV-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM

機(jī)構(gòu): SuperAGI Research

論文鏈接: http://arxiv.org/pdf/2405.15341

本研究旨在通過(guò)開(kāi)發(fā)一種能夠有效導(dǎo)航、理解和與GUI元素高精度交互的多模態(tài)大型語(yǔ)言模型（MLLM），推動(dòng)基于多模態(tài)代理的GUI任務(wù)自動(dòng)化的邊界。

V-Zen模型介紹

V-Zen是一種新型的多模態(tài)大型語(yǔ)言模型（MLLM），專(zhuān)為圖形用戶(hù)界面（GUI）的理解和精確定位而設(shè)計(jì)。它不僅僅是一個(gè)多模態(tài)語(yǔ)言模型，而是一個(gè)高級(jí)的GUI代理，能夠準(zhǔn)確處理圖像和文本輸入，解釋自然語(yǔ)言指令，精確識(shí)別GUI元素，并在網(wǎng)站上執(zhí)行操作以完成用戶(hù)定義的目標(biāo)。

V-Zen的核心在于其視覺(jué)定位模塊，該模塊利用DINO檢測(cè)器的功能，使其能夠有效處理多模態(tài)定位任務(wù)。除了LLM的文本響應(yīng)之外，定位模塊還單獨(dú)提供定位坐標(biāo)，取代了典型的對(duì)象檢測(cè)模塊，從而確保坐標(biāo)的精確性。此外，模型的性能通過(guò)高交叉分辨率模塊（HRCM）得到進(jìn)一步增強(qiáng)，該模塊使模型能夠處理高分辨率特征并理解圖像中的文本。

為了推動(dòng)基于代理的多模態(tài)GUI任務(wù)自動(dòng)化的研究邊界，我們還創(chuàng)建了一個(gè)名為GUIDE（Graphical User Interface Data for Execution）的數(shù)據(jù)集，這是一個(gè)前沿的基準(zhǔn)數(shù)據(jù)集，包括跨各種GUI平臺(tái)收集的邊界框注釋和帶有思維鏈的文本描述。GUIDE數(shù)據(jù)集在推動(dòng)代理研究方面起到了助推作用，最終導(dǎo)致了更靈活、響應(yīng)更快、更類(lèi)似于人的代理在多個(gè)領(lǐng)域的發(fā)展。

革新GUI自動(dòng)化：V-Zen模型引領(lǐng)多模態(tài)語(yǔ)言模型新紀(jì)元-AI.x社區(qū)

多模態(tài)融合與視覺(jué)理解

多模態(tài)融合是指在一個(gè)模型中整合來(lái)自不同數(shù)據(jù)源（如文本、圖像、聲音等）的信息的過(guò)程。在V-Zen模型中，這一過(guò)程尤為關(guān)鍵，因?yàn)樗枰幚砗屠斫鈦?lái)自GUI的圖像和文本指令。V-Zen通過(guò)幾個(gè)關(guān)鍵的技術(shù)模塊來(lái)實(shí)現(xiàn)這一點(diǎn)：

1. 低分辨率視覺(jué)特征提取器（LRVFE）：這一模塊使用低分辨率編碼器（如EVA-2-CLIP）處理輸入圖像，提取圖像的關(guān)鍵特征，為后續(xù)的高級(jí)處理做準(zhǔn)備。

2. 多模態(tài)投影適配器（MPA）：此模塊負(fù)責(zé)將從LRVFE提取的特征轉(zhuǎn)換成適合LLM處理的格式，確保圖像特征與文本模態(tài)能夠在同一多模態(tài)嵌入空間中對(duì)齊。

3. 預(yù)訓(xùn)練的帶視覺(jué)專(zhuān)家的語(yǔ)言模型（PLMVE）：這一模塊結(jié)合了視覺(jué)專(zhuān)家層和原始LLM層，用于生成基于處理后的圖像特征和文本輸入的文本輸出。

4. 高分辨率交叉視覺(jué)模塊（HRCVM）：靈感來(lái)自于CogAgent，設(shè)計(jì)用于處理更高分辨率的輸入，它使用更小的視覺(jué)編碼器和交叉注意力機(jī)制，將高分辨率圖像特征與PLMVE的每一層融合。

5. 高精度定位模塊（HPGM）：這一模塊采用增強(qiáng)的DETR對(duì)象檢測(cè)器（命名為DINO），從PLMVE中提取的隱藏狀態(tài)用作視覺(jué)定位的查詢(xún)，以精確地定位GUI元素。

通過(guò)這些模塊的協(xié)同工作，V-Zen不僅能夠理解GUI的視覺(jué)和文本信息，還能精確地執(zhí)行定位任務(wù)，極大地提高了模型在真實(shí)世界應(yīng)用中的實(shí)用性和效率。

精確定位與執(zhí)行：高精度定位模塊（HPGM）

在多模態(tài)大型語(yǔ)言模型（MLLM）的研究和應(yīng)用中，精確地定位和執(zhí)行任務(wù)是至關(guān)重要的一環(huán)。特別是在圖形用戶(hù)界面（GUI）自動(dòng)化的背景下，高精度定位模塊（HPGM）的作用尤為突出。HPGM不僅僅是一個(gè)普通的對(duì)象檢測(cè)模塊，它通過(guò)使用增強(qiáng)的DETR（名為DINO）對(duì)象檢測(cè)器，能夠以極高的精度輸出邊界框坐標(biāo)。

這一模塊的核心在于它如何處理和利用從預(yù)訓(xùn)練語(yǔ)言模型帶有視覺(jué)專(zhuān)家（PLMVE）中提取的隱藏狀態(tài)。這些隱藏狀態(tài)被用作視覺(jué)定位的查詢(xún)，與多尺度特征集進(jìn)行交互，以精確地定位GUI元素。多尺度特征集是使用基于Swin Transformer的骨干網(wǎng)絡(luò)獲得的，這進(jìn)一步增強(qiáng)了模型對(duì)圖像中細(xì)微元素的識(shí)別能力。

通過(guò)這種方式，HPGM能夠精確地識(shí)別和互動(dòng)GUI元素，這對(duì)于提高自動(dòng)化任務(wù)的效率和準(zhǔn)確性至關(guān)重要。例如，在處理一個(gè)包含多個(gè)按鈕和圖標(biāo)的復(fù)雜GUI界面時(shí)，HPGM能夠準(zhǔn)確地識(shí)別出用戶(hù)指定的操作對(duì)象，從而有效地支持后續(xù)的自動(dòng)化操作。

GUIDE數(shù)據(jù)集的構(gòu)建與應(yīng)用

GUIDE（Graphical User Interface Data for Execution）數(shù)據(jù)集是為了推動(dòng)多模態(tài)大型語(yǔ)言模型（MLLM）在圖形用戶(hù)界面自動(dòng)化領(lǐng)域的應(yīng)用而特別設(shè)計(jì)的。這個(gè)數(shù)據(jù)集包含了124,000個(gè)數(shù)據(jù)點(diǎn)，涵蓋了從Apollo.io到Gmail等多種GUI平臺(tái)的用戶(hù)交互。

每個(gè)數(shù)據(jù)條目都包含一個(gè)圖像、一個(gè)任務(wù)描述、上一個(gè)動(dòng)作和下一個(gè)要執(zhí)行的動(dòng)作，以及執(zhí)行動(dòng)作所需的定位信息。此外，數(shù)據(jù)集還包括了一個(gè)思維鏈（Chain of Thought），記錄了之前的動(dòng)作歷史，這有助于模型在執(zhí)行任務(wù)時(shí)進(jìn)行上下文推理。

GUIDE數(shù)據(jù)集的構(gòu)建使用了先進(jìn)的注釋工具NEXTAG（Next Action Grounding and Annotation Tool），并且適配了多種操作系統(tǒng)和瀏覽器。通過(guò)多個(gè)注釋者的協(xié)作，數(shù)據(jù)集能夠捕捉到不同設(shè)計(jì)風(fēng)格和用戶(hù)交互方式的多樣性。

在實(shí)際應(yīng)用中，GUIDE數(shù)據(jù)集支持跨界面的自動(dòng)化任務(wù)研究，并鼓勵(lì)開(kāi)發(fā)能夠在多平臺(tái)上運(yùn)行的MLLM。數(shù)據(jù)集的設(shè)計(jì)不僅僅是為了訓(xùn)練模型識(shí)別下一個(gè)任務(wù)，更重要的是能夠準(zhǔn)確執(zhí)行與GUI元素（如按鈕、圖標(biāo)等）的交互，這對(duì)于實(shí)現(xiàn)高效的GUI自動(dòng)化至關(guān)重要。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

1. 實(shí)驗(yàn)設(shè)計(jì)

在我們的研究中，實(shí)驗(yàn)的設(shè)計(jì)旨在驗(yàn)證多模態(tài)大型語(yǔ)言模型（MLLM）V-Zen在圖形用戶(hù)界面（GUI）任務(wù)自動(dòng)化中的有效性。我們特別關(guān)注了兩個(gè)核心任務(wù)：下一任務(wù)預(yù)測(cè)和元素定位（Grounding）。

為了進(jìn)行這些實(shí)驗(yàn)，我們首先使用了GUIDE數(shù)據(jù)集，該數(shù)據(jù)集包括了124,000個(gè)數(shù)據(jù)點(diǎn)，涵蓋了多種GUI環(huán)境中的用戶(hù)交互。這些數(shù)據(jù)點(diǎn)不僅包括圖像和任務(wù)描述，還包括了執(zhí)行任務(wù)所需的具體動(dòng)作和位置信息。

我們的模型V-Zen在兩個(gè)階段接受訓(xùn)練：預(yù)訓(xùn)練和特定任務(wù)的微調(diào)。預(yù)訓(xùn)練階段，模型學(xué)習(xí)處理高分辨率圖像并適應(yīng)GUI應(yīng)用，強(qiáng)調(diào)文本識(shí)別、視覺(jué)定位和理解GUI圖像。微調(diào)階段則使用GUIDE數(shù)據(jù)集，使模型能夠?qū)W習(xí)復(fù)雜的工作流程和動(dòng)作歷史，從而在遇到新的GUI時(shí)，能夠做出準(zhǔn)確的推斷和執(zhí)行相關(guān)動(dòng)作。

2. 結(jié)果分析

在下一任務(wù)預(yù)測(cè)方面，V-Zen的表現(xiàn)優(yōu)于其他同類(lèi)模型，如CogAgent、GPT-4V等。V-Zen在這一任務(wù)中的準(zhǔn)確率達(dá)到了93.2%，這一結(jié)果表明V-Zen能夠準(zhǔn)確預(yù)測(cè)GUI環(huán)境中的后續(xù)任務(wù)，顯示出其在實(shí)際應(yīng)用中的潛力。

在元素定位任務(wù)中，V-Zen同樣表現(xiàn)出色，其定位準(zhǔn)確率達(dá)到了89.7%。這一成績(jī)不僅展示了V-Zen在精確定位GUI元素方面的能力，也突顯了其在GUI任務(wù)自動(dòng)化中的實(shí)用性。

這些實(shí)驗(yàn)結(jié)果驗(yàn)證了V-Zen在GUI理解和任務(wù)執(zhí)行方面的有效性，同時(shí)也展示了其在多模態(tài)大型語(yǔ)言模型領(lǐng)域中的先進(jìn)性。

討論與未來(lái)工作

1. 討論

V-Zen模型的成功歸功于其創(chuàng)新的架構(gòu)，該架構(gòu)有效地整合了低分辨率和高分辨率視覺(jué)模塊、多模態(tài)投影適配器和高精度定位模塊。這種設(shè)計(jì)使得V-Zen能夠有效處理和整合視覺(jué)與文本信息，從而提升了其在GUI理解和定位任務(wù)中的表現(xiàn)。

此外，GUIDE數(shù)據(jù)集的使用為模型提供了豐富的訓(xùn)練資源，使V-Zen能夠從復(fù)雜的工作流程和動(dòng)作歷史中學(xué)習(xí)，進(jìn)一步增強(qiáng)了其處理實(shí)際GUI元素和任務(wù)序列的能力。

2. 未來(lái)工作

盡管V-Zen在多個(gè)方面表現(xiàn)出色，但仍有改進(jìn)和擴(kuò)展的空間。未來(lái)的工作將集中在以下幾個(gè)方面：

性能提升：繼續(xù)優(yōu)化V-Zen的架構(gòu)，提高其在各種GUI平臺(tái)上的表現(xiàn)，尤其是在更復(fù)雜或未知的GUI環(huán)境中。
應(yīng)用擴(kuò)展：將V-Zen應(yīng)用到更廣泛的GUI平臺(tái)和實(shí)際復(fù)雜性場(chǎng)景中，驗(yàn)證和提升其泛化能力。
數(shù)據(jù)集發(fā)展：擴(kuò)展GUIDE數(shù)據(jù)集，包括更多種類(lèi)的GUI環(huán)境和任務(wù)類(lèi)型，以支持模型在更廣泛應(yīng)用中的訓(xùn)練和測(cè)試。

通過(guò)這些未來(lái)的研究工作，我們希望進(jìn)一步推動(dòng)多模態(tài)大型語(yǔ)言模型在GUI自動(dòng)化領(lǐng)域的發(fā)展，為實(shí)現(xiàn)更智能、更自動(dòng)的計(jì)算體驗(yàn)開(kāi)辟新的可能。

總結(jié)：V-Zen在多模態(tài)大型語(yǔ)言模型中的創(chuàng)新應(yīng)用及其對(duì)GUI自動(dòng)化的貢獻(xiàn)

在人工智能領(lǐng)域的快速發(fā)展中，多模態(tài)大型語(yǔ)言模型（MLLMs）已成為一種變革性的力量，它們能夠跨越不同數(shù)據(jù)表示之間的鴻溝，實(shí)現(xiàn)信息的整合和理解。這些模型擅長(zhǎng)從多種模態(tài)（如文本和圖像）中整合信息，顯著擴(kuò)展了研究和實(shí)際應(yīng)用的范圍。在這一領(lǐng)域中，一個(gè)關(guān)鍵的研究方向是圖形用戶(hù)界面（GUI）任務(wù)的自動(dòng)化。

1. V-Zen模型的創(chuàng)新設(shè)計(jì)

我們提出的模型V-Zen，不僅僅是一個(gè)MLLM，而是一個(gè)高級(jí)的GUI代理，能夠準(zhǔn)確處理圖像-文本輸入，解釋自然語(yǔ)言指令，精確識(shí)別GUI元素，并在網(wǎng)站上執(zhí)行動(dòng)作以完成用戶(hù)定義的目標(biāo)。V-Zen集成了一個(gè)視覺(jué)接地模塊，該模塊利用DINO檢測(cè)器的能力，有效地處理多模態(tài)接地任務(wù)。此外，該模型的性能通過(guò)高交叉分辨率模塊（HRCM）進(jìn)一步增強(qiáng)，該模塊使模型能夠處理高分辨率特征并理解圖像中的文本。

2. GUIDE數(shù)據(jù)集的開(kāi)發(fā)

為了推動(dòng)基于代理的研究，我們還創(chuàng)建了一個(gè)名為GUIDE（Graphical User Interface Data for Execution）的數(shù)據(jù)集，這是一個(gè)前沿的基準(zhǔn)數(shù)據(jù)集，包括跨各種GUI平臺(tái)收集的邊界框注釋和帶有思維鏈的文本描述。GUIDE數(shù)據(jù)集在提高模型性能方面發(fā)揮了關(guān)鍵作用，使V-Zen能夠在執(zhí)行多樣化GUI平臺(tái)上的任務(wù)時(shí)表現(xiàn)出色。

3. 實(shí)際應(yīng)用和未來(lái)的研究方向

V-Zen在GUI自動(dòng)化領(lǐng)域的應(yīng)用展示了MLLMs在實(shí)際操作中的巨大潛力。通過(guò)精確地識(shí)別和與GUI元素交互，V-Zen不僅增強(qiáng)了這些代理的功能，還顯著提高了它們?cè)诂F(xiàn)實(shí)世界應(yīng)用中的實(shí)用性。我們的研究目標(biāo)是通過(guò)開(kāi)發(fā)能夠有效導(dǎo)航、理解和與GUI元素高精度交互的多模態(tài)大型語(yǔ)言模型，推動(dòng)多模態(tài)代理基于GUI任務(wù)自動(dòng)化的邊界。

總之，V-Zen的引入標(biāo)志著在多模態(tài)大型語(yǔ)言模型及其在GUI自動(dòng)化中應(yīng)用的一個(gè)重要進(jìn)步。通過(guò)其創(chuàng)新的架構(gòu)和強(qiáng)大的功能，V-Zen為未來(lái)的研究和開(kāi)發(fā)奠定了堅(jiān)實(shí)的基礎(chǔ)，展望未來(lái)，我們預(yù)計(jì)將進(jìn)一步提升V-Zen的性能，并擴(kuò)展其適用于更廣泛的GUI平臺(tái)。

本文轉(zhuǎn)載自 ??AI論文解讀??，作者：柏企

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

如何構(gòu)建終極的AI自動(dòng)化系統(tǒng)：多代理協(xié)作指南

ermulong ? 3644瀏覽 ? 0回復(fù)
OpenDevin自動(dòng)化代碼生成工具評(píng)述

zhcs333 ? 3788瀏覽 ? 0回復(fù)
OpenDevin自動(dòng)化代碼生成工具評(píng)述

zhcs333 ? 6559瀏覽 ? 0回復(fù)
手機(jī)流暢運(yùn)行470億大模型：上交大提出PowerInfer-2引領(lǐng)智能手機(jī)大模型推理新紀(jì)元

AI論文解讀 ? 5066瀏覽 ? 0回復(fù)
RePrompt：提示詞自動(dòng)化優(yōu)化策略

大語(yǔ)言模型論文跟蹤 ? 5031瀏覽 ? 0回復(fù)
Google推出開(kāi)源代碼大模型CodeGemma：AI編程新紀(jì)元，代碼自動(dòng)完成和生成技術(shù)再升級(jí)

AI論文解讀 ? 3553瀏覽 ? 0回復(fù)
基于LangGraph多智能體技術(shù)，搭建AI寫(xiě)作自動(dòng)化系統(tǒng)

小虎哦哦 ? 4533瀏覽 ? 0回復(fù)
ECCV2024｜LightenDiffusion 超越現(xiàn)有無(wú)監(jiān)督方法，引領(lǐng)低光圖像增強(qiáng)新紀(jì)元！

angel ? 4717瀏覽 ? 0回復(fù)
中科大提出UniMEL框架 | 革新知識(shí)圖譜，引領(lǐng)多模態(tài)實(shí)體鏈接新紀(jì)元

AI論文解讀 ? 4658瀏覽 ? 0回復(fù)
AI科學(xué)家：大模型全自動(dòng)化撰寫(xiě)科研論文

AIRoobt ? 4489瀏覽 ? 0回復(fù)
mPLUG-DocOwl2:新模型無(wú)需OCR，多頁(yè)文檔理解邁入新紀(jì)元

AI論文解讀 ? 3805瀏覽 ? 0回復(fù)
多模態(tài)-故障診斷 | 大核卷積開(kāi)啟視覺(jué)新紀(jì)元!

Tang_Lan ? 4345瀏覽 ? 0回復(fù)
多模態(tài)-故障診斷 | 大核卷積開(kāi)啟視覺(jué)新紀(jì)元!

Tang_Lan ? 3130瀏覽 ? 0回復(fù)
數(shù)據(jù)分析自動(dòng)化：LIDA智能可視化的魔法！

Halo咯咯 ? 2919瀏覽 ? 0回復(fù)
Emu3：開(kāi)啟多模態(tài)人工智能新紀(jì)元 —— 視頻、圖像、文本三合一模型

穿越時(shí)空111 ? 2869瀏覽 ? 0回復(fù)
借助LLM實(shí)現(xiàn)模型選擇和試驗(yàn)自動(dòng)化

51CTO內(nèi)容精選 ? 2478瀏覽 ? 0回復(fù)
智能對(duì)話(huà)新紀(jì)元：大模型推理服務(wù)

AI論文解讀 ? 2249瀏覽 ? 0回復(fù)
基于谷歌Gemini多模態(tài)模型實(shí)現(xiàn)PDF文檔自動(dòng)化處理

51CTO內(nèi)容精選 ? 3014瀏覽 ? 0回復(fù)
快手開(kāi)源多模態(tài)大模型Kwai Keye-VL，引領(lǐng)視頻理解新紀(jì)元

快手技術(shù) ? 972瀏覽 ? 0回復(fù)

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

深度剖析：為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)？ 2025-03-14 07:45:15發(fā)布
一文讀懂 RAG-Gym：用過(guò)程監(jiān)督優(yōu)化推理與搜索智能體 2025-03-04 10:43:21發(fā)布

熱門(mén)推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線(xiàn)性代數(shù)也沒(méi)問(wèn)題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開(kāi)源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇： AAAI ||透視遮擋迷霧：ADP如何革新行人重識(shí)別技術(shù)？

下一篇： AI詩(shī)人來(lái)了！斯坦福和微軟聯(lián)手，用大型語(yǔ)言模型優(yōu)化詩(shī)歌創(chuàng)作

社區(qū)精華內(nèi)容

目錄