偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

關于多模態(tài)應用的幾個疑問,以及多模態(tài)應該怎么應用于RAG? 原創(chuàng)

發(fā)布于 2025-9-15 08:09
瀏覽
0收藏

“ 多模態(tài)與RAG的結合是一個應用的實踐過程,其實際操作遠比理論要復雜得多?!?/strong>

這段時間一直在搞RAG和Agent,然后使用的基本上都是基于文本處理的推理模型,基本上沒用過多模態(tài)模型;而最近突然有個想法,那就是把多模態(tài)應用于當前的RAG系統(tǒng)。

雖然說之前對多模態(tài)有些基礎認識,但并沒有在真實的業(yè)務系統(tǒng)中實踐過;然后網絡上關于多模態(tài)應用的內容又很少,因此等真正嘗試去做的時候才發(fā)現,多模態(tài)應用好像沒有那么簡單。

多模態(tài)模型的應用

既然要應用多模態(tài),那么首先要了解什么是多模態(tài);在對多模態(tài)最粗淺的認知就是,多模態(tài)支持多種模態(tài)的數據,也就是文本,視頻,音頻,圖片等。

在作者個人的認知中,多模態(tài)應該是能接受任何形式的數據輸入,然后可以輸出任何自己想要的數據格式;事實上多模態(tài)也是這么做的,但并不是我們想象中的那樣。

觀察了幾家模型廠商之后發(fā)現一個問題,很多所謂的多模態(tài)模型都僅僅支持兩種模態(tài)或三種模態(tài);比如說根據文本生成語音,圖片理解,視頻理解,圖片生成,視頻生成等等。

關于多模態(tài)應用的幾個疑問,以及多模態(tài)應該怎么應用于RAG?-AI.x社區(qū)


而那種能夠支持所有模態(tài)數據的模型叫做——全模態(tài)。

以具體的例子來看,在日常辦公場景中,會議紀要是一個很重要的東西;現在基于人工智能的會議紀要產品已經有很多了;其原理就是,把音頻數據(會議的錄音)通過音頻轉文字的模型,把音頻轉成文字,然后再基于文字做總結提煉,最后形成會議紀要。

同樣的,圖片理解,視頻理解,圖片生成,視頻生成等所謂的多模態(tài)模型都是如此。

OK,那么怎么把多模態(tài)模型應用于RAG系統(tǒng)呢?

在非多模態(tài)模式下的RAG系統(tǒng),是把所有的數據都轉成文字的形式,然后進行相似度檢索;包括圖片,表格等。

但是,我們都知道圖片,架構圖等表達的內容有時很難用文字描述出來;因此,經過轉換之后的文檔會丟失大量的有效信息。

關于多模態(tài)應用的幾個疑問,以及多模態(tài)應該怎么應用于RAG?-AI.x社區(qū)

那么,如果能把多模態(tài)應用到RAG中,那么就可以讓多模態(tài)模型來識別文檔中的內容,這樣就可以盡量保證信息的完整性;但具體應該怎么做呢?

在剛開始作者的認知中,多模態(tài)應用于RAG應該是把文檔丟給模型,然后讓模型把里面的文字,圖片,架構圖,表格等給摳出來,并維護其內在的關聯(lián)關系,比如說那些文字和那些圖片是關聯(lián)的;然后把這些不同模態(tài)的數據,再通過向量化的方式保存到向量庫中。

但是,看了模型廠商的一些模型之后,發(fā)現好像不是這么做的;它們的方式是,把文檔丟給模型,然后讓模型按照要求總結出我們所需要的東西;當然,也有那種能夠確定文檔中文字和圖片的位置,然后通過截圖的方式拿到文檔中的圖片或架構圖等數據。

關于多模態(tài)應用的幾個疑問,以及多模態(tài)應該怎么應用于RAG?-AI.x社區(qū)

但是,這種處理方式并沒有維護文檔中的關聯(lián)關系,不同數據之間依然是獨立的內容;而且,這樣的話,在做數據召回時應該怎么召回?

總不能不同的數據還有去不同的地方做召回,最重要的是不同模態(tài)數據之間的關聯(lián)關系怎么處理?

果然是紙上得來終覺淺,絕知此事要躬行;多模態(tài)好像看起來很簡單,但等真正想上手去做的時候才發(fā)現遠遠沒有那么簡單。

當然,也可能是作者沒有多模態(tài)應用的經驗,暫時還無法理解多模態(tài)在RAG中的使用流程。

本文轉載自??AI探索時代?? 作者:DFires

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-9-15 08:09:52修改
收藏
回復
舉報
回復
相關推薦