偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="t1wh0"></ruby>

<pre id="t1wh0"></pre>

<em id="t1wh0"><option id="t1wh0"></option></em>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

AIRoobt

LV.5

AI人工智能、機(jī)器人、具身智能、大模型、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)

聲望 748

關(guān)注 0

粉絲 1

社區(qū)頭條作者

私信

關(guān)注

主帖 76

回帖

DiffusionReward：通過獎(jiǎng)勵(lì)反饋學(xué)習(xí)增強(qiáng)盲臉修復(fù)

原創(chuàng)

摘要獎(jiǎng)勵(lì)反饋學(xué)習(xí)（ReFL）最近在各種生成任務(wù)中展現(xiàn)出了巨大的潛力，能夠使模型輸出與人類偏好保持一致。在這項(xiàng)工作中，我們首次將ReFL框架引入盲臉修復(fù)任務(wù)，稱之為DiffusionReward。DiffusionReward有效地克服了基于擴(kuò)散的方法的局限性，這些方法通常無法生成逼真的面部細(xì)節(jié)，并且身份一致性較差。我們框架的核心是面部獎(jiǎng)勵(lì)模型（FRM），它使用精心注釋的數(shù)據(jù)進(jìn)行訓(xùn)練。FRM提供反饋信號，在指導(dǎo)修復(fù)網(wǎng)絡(luò)的優(yōu)化過程中起著關(guān)鍵...

2025-05-30 06:37:39 777瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

MMIE：用于大型視覺語言模型的大規(guī)模多模態(tài)交錯(cuò)理解基準(zhǔn)（ICLR 2025）

原創(chuàng)

摘要交錯(cuò)多模態(tài)理解與生成能力——使模型能夠以任意順序生成和解釋圖像與文本——已成為多模態(tài)學(xué)習(xí)的關(guān)鍵領(lǐng)域。盡管已有顯著進(jìn)展，但對這一能力的評估仍顯不足?，F(xiàn)有基準(zhǔn)在數(shù)據(jù)規(guī)模、范圍和評估深度上存在局限，而當(dāng)前評估指標(biāo)往往成本高昂或帶有偏見，在實(shí)際應(yīng)用中缺乏可靠性。為應(yīng)對這些挑戰(zhàn)，我們推出MMIE，這是一個(gè)大規(guī)模知識(shí)密集型基準(zhǔn)，用于評估大型視覺語言模型（LVLMs）的交錯(cuò)多模態(tài)理解與生成能力。MMIE包含20,000個(gè)精...

2025-05-29 06:32:07 587瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

Knowing You Don't Know：通過自我練習(xí)學(xué)習(xí)何時(shí)在多輪 RAG 中繼續(xù)搜索

原創(chuàng)

摘要檢索增強(qiáng)生成（RAG）在增強(qiáng)語言模型知識(shí)和減少AI生成幻覺方面表現(xiàn)出強(qiáng)大能力，推動(dòng)了其廣泛應(yīng)用。然而，需要多輪檢索的復(fù)雜任務(wù)仍然具有挑戰(zhàn)性，早期嘗試往往過于樂觀，缺乏良好的自我懷疑意識(shí)。當(dāng)前的多輪RAG系統(tǒng)可能在已經(jīng)檢索到足夠信息時(shí)繼續(xù)搜索，或者在沒有足夠信息或知識(shí)時(shí)提供錯(cuò)誤答案?，F(xiàn)有解決方案要么需要大量昂貴的人工標(biāo)注過程監(jiān)督數(shù)據(jù)，要么導(dǎo)致性能不佳。本文旨在通過引入新框架SIMRAG來解決這些限制，明確...

2025-05-27 06:44:36 518瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

何凱明團(tuán)隊(duì)新作：均值流用于一步生成建模

原創(chuàng)

摘要我們提出了一種原則性且高效的一步生成模型框架。我們引入了平均速度的概念來表征流場，這與流匹配方法中建模的瞬時(shí)速度形成對比。我們推導(dǎo)出了平均速度與瞬時(shí)速度之間的明確關(guān)系，并用其指導(dǎo)神經(jīng)網(wǎng)絡(luò)訓(xùn)練。我們的方法，稱為均值流模型，是自包含的，無需預(yù)訓(xùn)練、蒸餾或課程學(xué)習(xí)。均值流模型展示了強(qiáng)大的實(shí)證性能：在ImageNet256×256上從頭訓(xùn)練，僅用一次函數(shù)評估（1NFE）即可達(dá)到3.43的FréchetInceptionDistance（FID）...

2025-05-23 06:27:30 976瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

MonetGPT：通過解決謎題提升多模態(tài)大語言模型的圖像修圖技能

原創(chuàng) 精華

圖片圖1.我們提出了MonetGPT，這是一種感知圖像操作的多模態(tài)大語言模型（MLLM），可自動(dòng)為圖像修圖提供建議。給定一張照片（左圖），MonetGPT會(huì)對其進(jìn)行分析，識(shí)別出一系列問題和可能的修復(fù)調(diào)整。然后，解決方案步驟會(huì)根據(jù)給定的操作庫，轉(zhuǎn)化為一組程序操作以及相應(yīng)的參數(shù)設(shè)置，這一過程分為三個(gè)階段。（我們訓(xùn)練MLLM所使用的視覺謎題此處未展示。）摘要修圖是原始照片后期處理中的一項(xiàng)基本任務(wù)。由文本或筆觸引導(dǎo)的生成式編輯...

2025-05-22 09:34:21 1675瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

DiCo：重振卷積網(wǎng)絡(luò)以實(shí)現(xiàn)可擴(kuò)展且高效的擴(kuò)散建模

原創(chuàng) 精華

摘要擴(kuò)散Transformer（DiT）作為一種前景廣闊的視覺生成擴(kuò)散模型，展現(xiàn)出了令人矚目的性能，但同時(shí)也帶來了巨大的計(jì)算開銷。有趣的是，對預(yù)訓(xùn)練DiT模型的分析表明，全局自注意力往往存在冗余，主要捕捉局部模式，這凸顯了尋找更高效替代方案的潛力。在本文中，我們重新審視卷積，將其作為構(gòu)建高效且富有表現(xiàn)力的擴(kuò)散模型的替代構(gòu)建塊。然而，直接用卷積替換自注意力通常會(huì)導(dǎo)致性能下降。我們的研究發(fā)現(xiàn)，這種性能差距歸因于卷積...

2025-05-21 08:33:54 1427瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

MSCI：解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性

原創(chuàng)

摘要組合式零樣本學(xué)習(xí)（CZSL）旨在通過利用已知組合來識(shí)別未見的狀態(tài)對象組合?，F(xiàn)有研究基本依賴CLIP的跨模態(tài)對齊能力，但往往忽略了其在捕捉細(xì)粒度局部特征方面的局限性，這些局限性源于其架構(gòu)和訓(xùn)練范式。為解決這一問題，我們提出了一種多階段跨模態(tài)交互（MSCI）模型，該模型有效探索和利用CLIP視覺編碼器的中間層信息。具體而言，我們設(shè)計(jì)了兩個(gè)自適應(yīng)聚合器，分別從低層視覺特征中提取局部信息和從高層視覺特征中整合全局...

2025-05-21 06:45:57 887瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

LLM訓(xùn)練數(shù)據(jù)綜述：預(yù)訓(xùn)練與微調(diào)數(shù)據(jù)的規(guī)模、來源、類型及開源資源梳理

原創(chuàng)

摘要2022年，隨著ChatGPT的發(fā)布，大規(guī)模語言模型受到了廣泛關(guān)注。ChatGPT不僅在參數(shù)量和預(yù)訓(xùn)練語料庫規(guī)模上遠(yuǎn)超前代模型，還通過大量高質(zhì)量的人工標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)，實(shí)現(xiàn)了革命性的性能突破。此類進(jìn)展使得企業(yè)和研究機(jī)構(gòu)認(rèn)識(shí)到，構(gòu)建更智能、更強(qiáng)大的模型依賴于豐富且高質(zhì)量的數(shù)據(jù)集。因此，數(shù)據(jù)集的建設(shè)與優(yōu)化成為人工智能領(lǐng)域的關(guān)鍵方向。本文對訓(xùn)練大規(guī)模語言模型所需的預(yù)訓(xùn)練數(shù)據(jù)和微調(diào)數(shù)據(jù)的現(xiàn)狀進(jìn)行了總結(jié)，涵蓋了數(shù)據(jù)規(guī)...

2025-05-20 06:34:03 2030瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

Emu3：僅需下一令牌預(yù)測

原創(chuàng)

摘要盡管下一令牌預(yù)測被視為通往通用人工智能的一條有前途的道路，但它在多模態(tài)任務(wù)中一直難以取得優(yōu)異成績，目前多模態(tài)任務(wù)仍由擴(kuò)散模型（如StableDiffusion）和組合方法（如CLIP與大語言模型相結(jié)合）主導(dǎo)。在本文中，我們介紹Emu3，這是一套全新的最先進(jìn)的多模態(tài)模型，僅通過下一令牌預(yù)測進(jìn)行訓(xùn)練。通過將圖像、文本和視頻標(biāo)記化到離散空間中，我們在多模態(tài)序列的混合數(shù)據(jù)上從頭開始訓(xùn)練一個(gè)單一的Transformer。Emu3在生成和...

2025-05-19 09:19:09 797瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

VILA-U：融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型（ICLR2025)

原創(chuàng)

摘要VILAU是一個(gè)統(tǒng)一基礎(chǔ)模型，融合了視頻、圖像和語言的理解與生成能力。傳統(tǒng)的視覺語言模型（VLMs）在處理視覺內(nèi)容的理解和生成任務(wù)時(shí)，使用獨(dú)立的模塊，這可能導(dǎo)致模塊間的不協(xié)調(diào)和模型復(fù)雜度的增加。相比之下，VILAU采用單一的自回歸下一個(gè)標(biāo)記預(yù)測框架來處理這兩項(xiàng)任務(wù)，避免了使用如擴(kuò)散模型等額外組件的需求。這種方法不僅簡化了模型結(jié)構(gòu)，還在視覺語言理解和生成任務(wù)中取得了接近當(dāng)前最優(yōu)水平的性能。VILAU的成功主要?dú)w...

2025-05-19 09:12:20 948瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

交錯(cuò)場景圖用于文本和圖像生成評估（ICLR2025)

原創(chuàng)

摘要許多現(xiàn)實(shí)世界中的用戶查詢（例如，“如何制作蛋炒飯？”）都能從能夠同時(shí)生成文本步驟和配套圖像的系統(tǒng)中受益，就像烹飪食譜一樣。旨在生成交錯(cuò)文本和圖像的模型在確保這些模態(tài)內(nèi)部和之間的一致性方面面臨挑戰(zhàn)。為了解決這些挑戰(zhàn)，我們提出了ISG，這是一個(gè)用于交錯(cuò)文本圖像生成的綜合評估框架。ISG利用場景圖結(jié)構(gòu)來捕捉文本和圖像塊之間的關(guān)系，在四個(gè)粒度級別上評估生成的結(jié)果：整體、結(jié)構(gòu)、塊級別和圖像特定級別。這種多...

2025-05-19 09:06:08 625瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

FineWeb：大規(guī)模篩選網(wǎng)絡(luò)，獲取最優(yōu)質(zhì)（LLM預(yù)訓(xùn)練）文本數(shù)據(jù)

原創(chuàng)

大型語言模型（LLM）的性能在很大程度上取決于其預(yù)訓(xùn)練數(shù)據(jù)集的質(zhì)量和規(guī)模。然而，像Llama3和Mixtral這樣的前沿開源大語言模型的預(yù)訓(xùn)練數(shù)據(jù)集并未公開，人們對其創(chuàng)建方式也知之甚少。最近，我們發(fā)布了FineWeb，這是一個(gè)全新的大規(guī)模（包含15萬億詞元，占用44TB磁盤空間）大語言模型預(yù)訓(xùn)練數(shù)據(jù)集。FineWeb源自96個(gè)CommonCrawl快照，與其他開源預(yù)訓(xùn)練數(shù)據(jù)集相比，使用它訓(xùn)練出的大語言模型性能更優(yōu)。為了讓機(jī)器學(xué)習(xí)領(lǐng)域更加透明，...

2025-05-15 06:34:41 4342瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

大語言模型在知識(shí)增強(qiáng)復(fù)雜問題求解中的綜述

原創(chuàng) 精華

?摘要：問題求解一直是人類在眾多領(lǐng)域取得進(jìn)步的根本驅(qū)動(dòng)力。隨著人工智能的發(fā)展，大語言模型（LLMs）已成為能夠解決跨多個(gè)領(lǐng)域復(fù)雜問題的強(qiáng)大工具。與傳統(tǒng)計(jì)算系統(tǒng)不同，大語言模型將原始計(jì)算能力與近似人類推理能力相結(jié)合，使其能夠生成解決方案、進(jìn)行推理，甚至利用外部計(jì)算工具。然而，將大語言模型應(yīng)用于實(shí)際問題求解面臨重大挑戰(zhàn)，包括多步推理、領(lǐng)域知識(shí)整合和結(jié)果驗(yàn)證。本綜述探討了大語言模型在復(fù)雜問題求解中的能力...

2025-05-14 10:05:43 912瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

UniversalRAG：跨多種模態(tài)和粒度語料庫的檢索增強(qiáng)生成

原創(chuàng)

摘要檢索增強(qiáng)生成（RAG）通過將模型響應(yīng)與查詢相關(guān)的外部知識(shí)相結(jié)合，在提高事實(shí)準(zhǔn)確性方面展現(xiàn)出巨大潛力。然而，大多數(shù)現(xiàn)有的RAG方法僅限于純文本語料庫。盡管最近的研究努力將RAG擴(kuò)展到圖像和視頻等其他模態(tài)，但它們通常僅在單一模態(tài)特定的語料庫上運(yùn)行。相比之下，現(xiàn)實(shí)世界中的查詢對知識(shí)類型的需求差異很大，單一類型的知識(shí)源無法滿足這些需求。為了解決這一問題，我們引入了通用檢索增強(qiáng)生成（UniversalRAG），這是一種新...

2025-05-14 10:00:07 1437瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

LMEye：面向大語言模型的交互式感知網(wǎng)絡(luò)

原創(chuàng)

摘要目前構(gòu)建多模態(tài)大語言模型（MLLMs）的高效方法，主要是通過簡單的視覺映射網(wǎng)絡(luò)，如線性投影層、多層感知器（MLP）或BLIP2中的QFormer，將視覺信息融入大語言模型（LLMs）。這類網(wǎng)絡(luò)僅對圖像特征進(jìn)行一次投影，并未考慮圖像與人類輸入之間的交互。因此，獲取的視覺信息可能與人類意圖脫節(jié)，無法滿足大語言模型生成符合意圖的回復(fù)，這種信息可稱為靜態(tài)視覺信息。為緩解該問題，本文引入LMEye，這是一種類似人眼的可插拔交互式...

2025-05-12 09:19:28 723瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

HoVLE：通過整體視覺-語言嵌入釋放單體視覺-語言模型的潛力

原創(chuàng)

摘要大型語言模型（LLMs）的快速發(fā)展催化了視覺語言模型（VLMs）的發(fā)展。整體VLMs避免了模態(tài)特定的編碼器，提供了一種有希望的替代方案，但面臨著性能較差的挑戰(zhàn)。大多數(shù)現(xiàn)有的整體VLMs需要調(diào)整預(yù)訓(xùn)練的LLMs以獲得視覺能力，這可能會(huì)降低它們處理語言的能力。為了解決這一困境，本文提出了一種新的高性能整體VLM，名為HoVLE。我們注意到，當(dāng)圖像嵌入與文本嵌入對齊時(shí)，LLMs已被證明能夠解釋圖像。當(dāng)前整體VLMs的挑戰(zhàn)實(shí)際上在于...

2025-05-12 09:12:44 574瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

In-Context Edit：在大規(guī)模擴(kuò)散變換器中通過上下文生成實(shí)現(xiàn)指令式圖像編輯

原創(chuàng)

摘要基于指令的圖像編輯能夠通過自然語言提示實(shí)現(xiàn)強(qiáng)大的圖像修改，但當(dāng)前的方法面臨著精度和效率之間的權(quán)衡。微調(diào)方法需要大量的計(jì)算資源和大規(guī)模數(shù)據(jù)集，而免訓(xùn)練技術(shù)在指令理解和編輯質(zhì)量方面存在困難。我們利用大規(guī)模擴(kuò)散變換器（DiT）增強(qiáng)的生成能力和固有的上下文感知來解決這一困境。我們的解決方案有三個(gè)貢獻(xiàn)：（1）一種基于上下文提示的零樣本指令遵從的上下文編輯框架，避免了結(jié)構(gòu)變化；（2）一種LoRAMoE混合調(diào)優(yōu)策略...

2025-05-12 09:06:37 1297瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

面向未來通信的大語言模型綜述：基礎(chǔ)、應(yīng)用與挑戰(zhàn)

原創(chuàng) 精華

社區(qū)頭條

摘要6G無線通信旨在構(gòu)建一個(gè)無處不在的智能互聯(lián)世界，提供前所未有的通信體驗(yàn)。與傳統(tǒng)人工智能（AI）模型相比，大語言模型（LAM）的顯著特點(diǎn)是規(guī)模巨大（例如，擁有數(shù)十億甚至數(shù)萬億個(gè)參數(shù)）。大語言模型展現(xiàn)出卓越的認(rèn)知能力，包括對下游任務(wù)進(jìn)行微調(diào)的強(qiáng)大泛化能力，以及處理訓(xùn)練過程中未遇到任務(wù)的涌現(xiàn)能力。因此，大語言模型能夠有效地為各種通信應(yīng)用提供人工智能服務(wù)，成為應(yīng)對未來無線通信系統(tǒng)中復(fù)雜挑戰(zhàn)的關(guān)鍵工具。本研...

2025-05-09 06:33:41 2533瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

通過注意力提示實(shí)現(xiàn)免訓(xùn)練的開放式目標(biāo)檢測與分割

原創(chuàng) 精華

社區(qū)頭條

摘要現(xiàn)有的感知模型通過從大量標(biāo)記數(shù)據(jù)中學(xué)習(xí)取得了巨大成功，但在開放世界場景中仍存在困難。為緩解這一問題，研究人員引入開放集感知任務(wù)，以檢測或分割訓(xùn)練集中未見過的對象。然而，這些模型在推理時(shí)需要預(yù)定義的對象類別作為輸入，而在現(xiàn)實(shí)場景中無法獲取這些類別。最近，研究人員提出了一個(gè)新的、更實(shí)際的問題，即開放式目標(biāo)檢測，它在沒有任何對象類別作為輸入的情況下發(fā)現(xiàn)未見對象。在本文中，我們提出VLSAM，這是一個(gè)免...

2025-05-09 06:33:00 1471瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

VLM-R1：一種穩(wěn)定且具有泛化性的 R1 風(fēng)格大型視覺語言模型

原創(chuàng) 精華

摘要最近，DeepSeekR1表明，強(qiáng)化學(xué)習(xí)（RL）可以通過一種簡單而有效的設(shè)計(jì)，大幅提升大語言模型（LLMs）的推理能力。R1的核心在于其基于規(guī)則的獎(jiǎng)勵(lì)公式，它利用具有確定性正確答案的任務(wù)，實(shí)現(xiàn)精確且穩(wěn)定的獎(jiǎng)勵(lì)計(jì)算。在視覺領(lǐng)域，我們同樣觀察到，許多視覺理解任務(wù)本質(zhì)上都配備了定義明確的真實(shí)標(biāo)注。這一特性使它們自然地與基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制兼容。受此啟發(fā)，我們研究將R1風(fēng)格的強(qiáng)化學(xué)習(xí)擴(kuò)展到視覺語言模型（VLMs）中，旨在提...

2025-05-07 07:01:29 1463瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

獲得成就

已積累 5.4w 人氣

獲得 1 個(gè)點(diǎn)贊

獲得 0 次收藏