偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<s id="0px5t"></s>

<center id="0px5t"></center>

<center id="0px5t"></center>

<wbr id="0px5t"><sup id="0px5t"></sup></wbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

斯坦福大學：VideoAgent基于大語言模型的視頻QA系統(tǒng)

大語言模型論文跟蹤

發(fā)布于 2024-11-14 15:17

瀏覽

0收藏

架構(gòu)

斯坦福大學：VideoAgent基于大語言模型的視頻QA系統(tǒng)-AI.x社區(qū) 圖片

上圖是VideoAgent的概覽圖，VideoAgent通過搜索、聚合視頻信息來完成長視頻QA。整個系統(tǒng)包括一個核心LLM、VLM(視覺大語言模型)和CLIP工具。

作者受到人類理解長視頻的啟發(fā)，提出了VideoAgent，通過基于Agent的系統(tǒng)來模擬這一過程的系統(tǒng)。

將視頻理解過程形式化為一系列狀態(tài)、動作和觀察，其中LLM作為代理控制這個過程。首先，LLM通過瀏覽從視頻中均勻抽樣的一組幀來熟悉視頻內(nèi)容的背景。在每次迭代中，LLM評估當前信息（狀態(tài)）是否足以回答問題；如果不夠，它會確定需要什么額外的信息（動作）。隨后，它利用CLIP 來檢索包含這些信息的新幀（觀察），并使用VLM將這些新幀描述為文本描述，從而更新當前狀態(tài)。這種設(shè)計強調(diào)了推理能力和迭代過程，而不是直接處理長視覺輸入，其中VLM和CLIP作為工具，使LLM能夠具有視覺理解和長上下文檢索能力。

斯坦福大學：VideoAgent基于大語言模型的視頻QA系統(tǒng)-AI.x社區(qū) 圖片

VideoAgent的迭代過程詳細視圖。每一輪都從狀態(tài)開始，其中包括先前查看過的視頻幀。然后，大型語言模型通過回答預測和自我反思來確定后續(xù)的動作。如果需要額外的信息，就會以視頻幀的形式獲取新的觀察結(jié)果。

假設(shè)LLM確定信息不足以回答問題，并選擇搜索新信息。在這種情況下，進一步要求LLM決定需要什么額外信息，以便可以利用工具來獲得額外信息。由于視頻中某些信息可能出現(xiàn)多次，所以進行分段級別的檢索而不是視頻級別的檢索，以增強時間推理能力。

例如，假設(shè)問題是“男孩離開房間后在沙發(fā)上留下了什么玩具？”，并且我們在幀 i 中看到了男孩離開房間。如果我們使用查詢“顯示沙發(fā)上的玩具的幀”進行檢索，則可能在幀 i 之前存在包含“沙發(fā)上的玩具”的幀，但它們與回答問題無關(guān)。

Arxiv^[1]

引用鏈接

??[1]?? Arxiv: https://arxiv.org/abs/2403.10517

本文轉(zhuǎn)載自??大語言模型論文跟蹤??，作者：HuggingAGI ????

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

斯坦福學者推出專為Android移動設(shè)備打造的大模型，開源！

AIGC最前線 ? 2.5w瀏覽 ? 0回復
與OpenAI的Q*道殊同歸？斯坦福團隊發(fā)現(xiàn)語言模型的新路徑為Q函數(shù)

xuxiangda ? 3729瀏覽 ? 0回復
斯坦福大學Gordon Wetzstein教授團隊提出全息增強現(xiàn)實眼鏡

AIGC最前線 ? 5009瀏覽 ? 0回復
斯坦福和微軟聯(lián)手，用大型語言模型優(yōu)化詩歌創(chuàng)作

AI論文解讀 ? 3409瀏覽 ? 0回復
斯坦福新研究：RAG能幫助LLM更靠譜嗎？

duhorse ? 2793瀏覽 ? 0回復
CVD：第一個生成具有相機控制的多視圖一致視頻方案?。?em>斯坦福&港中文）

angel ? 2883瀏覽 ? 0回復
中國AI大模型論文數(shù)量全球第一，清華力壓麻省理工、斯坦福

Aceryt ? 3019瀏覽 ? 0回復
谷歌前CEO斯坦福大學演講內(nèi)容泄露，直指 AI 是強者之間的游戲，“富者更富，窮者唯有盡力而為”

51CTO技術(shù)棧 ? 3511瀏覽 ? 0回復
斯坦福大學研究團隊破解小規(guī)模語料庫知識獲取難題，提出創(chuàng)新的合成持續(xù)預訓練方法

AI論文解讀 ? 4143瀏覽 ? 0回復
斯坦福大學和倫敦大學學院聯(lián)合打造多智能體系統(tǒng)中的安全防線，應對大模型即時感染

xuxiangda ? 3649瀏覽 ? 0回復
開源大模型如何治理？斯坦福基礎(chǔ)模型研究中心給您支招

AIGC最前線 ? 3351瀏覽 ? 0回復
多智能體新進展 | 斯坦福大學提出新模型'Hypothetical Minds'，讓AI更懂人類思維

AI論文解讀 ? 3469瀏覽 ? 0回復
英偉達&斯坦福大學發(fā)布GRS：從真實世界觀測中生成機器人仿真任務

angel ? 3305瀏覽 ? 0回復
將大語言模型集成到現(xiàn)有軟件系統(tǒng)的完整指南

51CTO內(nèi)容精選 ? 3386瀏覽 ? 0回復
騰訊的混源視頻模型HunyuanVideo：大視頻生成模型訓練的系統(tǒng)框架

Halo咯咯 ? 3632瀏覽 ? 0回復
斯坦福大學團隊使用多智能體強化學習訓練社交推理語言模型

xuxiangda ? 2573瀏覽 ? 0回復
基于多模態(tài)大語言模型的上下文目標檢測

AIRoobt ? 2612瀏覽 ? 0回復
斯坦福大學：2025 年人工智能指數(shù)報告

歐米伽未來研究所 ? 1597瀏覽 ? 0回復
斯坦福大學CS25：大語言模型推理（Reasoning）

chengganfei ? 1110瀏覽 ? 0回復

大語言模型論文跟蹤

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

不懂RAG？看這一篇萬字長文就夠了 7天前發(fā)布
詳解 Minus AI：邁向AGI新紀元？ 2025-06-13 07:02:10發(fā)布

熱門推薦

不懂RAG？看這一篇萬字長文就夠了 0回復

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

上一篇： 15種典型RAG框架：卡內(nèi)基梅隆大學最新RAG綜述

下一篇： 4種革新性AI Agent工作流設(shè)計模式全解析

社區(qū)精華內(nèi)容

目錄

<pre id="6ssl7"></pre>

<strong id="6ssl7"><label id="6ssl7"></label></strong>