偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<bdo id="d1mna"></bdo>

<ruby id="d1mna"></ruby>

<u id="d1mna"><rp id="d1mna"></rp></u>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

游戲bug幫大模型學物理！準確率超GPT4o近4個百分點

2024-12-06 14:19:50

本文的PhysVLM模型在所有7B模型中表現(xiàn)優(yōu)越。令人驚訝的是，作為7B模型，PhysVLM-SFT和PhysVLM-DPO在整體表現(xiàn)上分別比 34B 模型 LLaVA-NeXT-Video提高了3.2%和3.8%的絕對值。通過比較PhysVLM-SFT和PhysVLM-DPO，團隊發(fā)現(xiàn)，使用所提出的PhysDPO數(shù)據(jù)進行 DPO訓練在短視頻和長視頻上的表現(xiàn)都有所提升，而在中等長度的視頻上的表現(xiàn)略

融合物理知識的大型視頻語言模型PhysVLM，開源了！

它不僅在 PhysGame 基準上展現(xiàn)出最先進的性能，還在通用視頻理解基準上（Video-MME, VCG）表現(xiàn)出領先的性能。

在這項研究之前，想讓AI像人類兒童一樣，通過觀察世界理解基本的物理常識，是一個主要挑戰(zhàn)。

圖片

對于現(xiàn)實世界的視頻來說，全面覆蓋和解釋所有正常的物理現(xiàn)象既困難又不必要。

相比之下，游戲視頻（gameplay videos）通常包含違反物理常識的“故障現(xiàn)象”（glitches），這有助于簡化物理常識理解的定義和評估，即專注于解釋物理常識的違反現(xiàn)象，而不是試圖列舉所有存在的正常物理現(xiàn)象。

為此，PhysVLM在專門整理的一套數(shù)據(jù)集上訓練，包括用于評估的PhysGame benchmark、用于監(jiān)督微調的PhysInstruct數(shù)據(jù)集和用于偏好對齊的PhysDPO數(shù)據(jù)集。

PhysGame benchmark 設計

如圖所示， PhysGame包含880個含有故障現(xiàn)象的游戲視頻，每個視頻都配有一個高質量的多項選擇題，專門針對故障現(xiàn)象的性質進行標注。

圖片

△PhysGame類別分布

PhysGame涵蓋了四個關鍵的物理領域（即力學、運動學、光學和材料屬性），并細分為12個具體類別（如重力和速度）。

力學（Mechanics）：該類別涉及力與力矩及其對運動的影響，提供了解釋和分析視頻中物體運動的基礎原理。典型案例包括重力、彈性和摩擦力。
運動學（Kinematics）：該領域研究不考慮力的情況下的運動，涉及精細分類，如隨時間變化的速度和加速度。
光學（Optics）：該領域關注光的行為與特性及其與物質的相互作用，包括反射、折射以及吸收與透射。
材料屬性（Material properties）：該領域指的是物質固有的特性，包括顏色、剛性、物體形狀以及人體姿態(tài)。

PhysGame benchmark構建

視頻收集和過濾:

PhysGame中的視頻主要從Reddit頁面抓取，該頁面包含帶有異常事件和故障現(xiàn)象的游戲視頻。為了平衡不同的類別，團隊還通過關鍵詞搜索從 YouTube增強視頻數(shù)據(jù)。團隊根據(jù)以下兩項標準進行人工篩查：

重復檢查：Reddit論壇可能會多次引用同一視頻，導致重復下載。團隊手動檢查，確保PhysGame benchmark中的視頻不存在重復；
內容檢查：下載的視頻可能包含非游戲元素，團隊對這些內容進行了嚴格篩選，確保它們不被納入PhysGame benchmark中。

選項生成:

本文以多項選擇題的形式創(chuàng)建問答對。具體來說，正確選項描述了視頻中違反物理常識原則的特定故障現(xiàn)象。為了增強干擾選項的可信度，本文要求干擾選項中的故障現(xiàn)象應與視頻中觀察到的個體或動作高度相關，這使視頻LLM理解故障內容，而不僅僅通過識別包含的物體或動作來選擇答案。

質量控制:

為了保證數(shù)據(jù)集的質量，本文進行了一項包括人工檢查和自動LLM輔助檢查在內的雙重質量控制過程：

人工檢查：所有初步標注的問答對都經過不同人工標注人員的嚴格交叉檢查。對于正確選項，檢查人員必須評估它們是否全面準確地描述了所有存在的物理常識違反實例。對于干擾選項，檢查人員需評估它們是否足夠具有迷惑性；
LLM 輔助檢查: 團隊去除那些僅憑問題和選項，不需要查看視頻就能由GPT-4o正確回答的問答對。

圖片

△PhysGame示例

PhysInstruct&PhysDPO數(shù)據(jù)集構建

PhysInstruct:

為了提升視頻LLM的物理常識理解能力，團隊開發(fā)了PhysInstruct數(shù)據(jù)集用于監(jiān)督微調。視頻收集過程與PhysGame中的流程相同。為了防止數(shù)據(jù)泄漏，團隊嚴格排除任何已包含在PhysGame中的視頻。團隊遵循Self-instruct范式通過提示GPT-4o來構建PhysInstruct。

PhysDPO:

團隊構建了偏好對齊數(shù)據(jù)集PhysDPO，以提供更可信和可靠的回答。如圖3所示，團隊將PhysInstruct 數(shù)據(jù)集中生成的答案視為preferred回答，而dis-preferred回答則通過元信息篡改（meta-information hacking）、時間篡改（temporal hacking）和空間篡改（spatial hacking）生成。團隊用誤導性的元信息以及減少幀數(shù)和降低幀分辨率的視頻幀來提示 GPT-4o。

以下是PhysDPO數(shù)據(jù)集構建流程圖：

圖片

模型評估與分析

PhysGame benchmark 實驗結果:

在所有專有模型中，GPT-4o和Gemini-1.5-pro表現(xiàn)最佳，分別達到了56.1%和55.2%的平均準確率。在所有細分領域中，GPT-4o在摩擦和加速度方面表現(xiàn)優(yōu)越。相比之下，Gemini-1.5-pro在理解與重力、彈性、反射、吸收與透射、顏色和剛性相關的物理常識方面表現(xiàn)更強。
現(xiàn)有的開源模型遠遠落后于專有模型。即便是表現(xiàn)最好的開源模型 LLaVA-OneVision，其平均準確率僅為47.7%。相比之下，本文提出的PhysVLM在所有專有和開源模型中都達到了最先進的性能。與開源方法相比，本文的PhysVLM在12個評估領域中的6個領域達到了最高性能。值得注意的是，PhysVLM-DPO在平均準確率這一指標上比最佳表現(xiàn)的專有模型GPT-4o超出了3.4%。

PhysGame benchmark實驗結果

Video-MME benchmark實驗結果:

本文的PhysVLM模型在所有7B模型中表現(xiàn)優(yōu)越。令人驚訝的是，作為7B模型，PhysVLM-SFT和PhysVLM-DPO在整體表現(xiàn)上分別比 34B 模型 LLaVA-NeXT-Video提高了3.2%和3.8%的絕對值。通過比較PhysVLM-SFT和PhysVLM-DPO，團隊發(fā)現(xiàn)，使用所提出的PhysDPO數(shù)據(jù)進行 DPO訓練在短視頻和長視頻上的表現(xiàn)都有所提升，而在中等長度的視頻上的表現(xiàn)略有下降。

圖片

△Video-MME benchmark實驗結果

VCG benchmark實驗結果:

在僅使用SFT的模型中，本文的PhysVLM-SFT在平均得分方面表現(xiàn)最佳。在四個子類別的評估中，PhysVLM-SFT在信息正確性和一致性類別上表現(xiàn)尤為出色。與使用DPO或PPO訓練的PPLLaVA和LLaVA-Next-Video相比，本文的PhysVLM-DPO也展現(xiàn)出卓越的性能，進一步驗證了所提出的PhysVLM模型在通用視頻理解中的出色能力。

VCG benchmark實驗結果

PhysVLM相關論文、代碼、數(shù)據(jù)均已開源:

pre-prints: https://arxiv.org/abs/2412.01800
代碼鏈接: https://github.com/PhysGame/PhysGame
leaderboard: https://physgame.github.io/#leaderboard

責任編輯：武曉燕來源：量子位

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<meter id="em7is"><td id="em7is"></td></meter>

<dfn id="em7is"></dfn>

<dfn id="em7is"><sub id="em7is"><thead id="em7is"></thead></sub></dfn>

<table id="em7is"><optgroup id="em7is"></optgroup></table>