文本 音頻 視頻 多模態(tài)等不同模型之間的區(qū)別和聯(lián)系 原創(chuàng)
“ 大模型從任務(wù)類型分類主要分為文本,音頻,視頻和多模態(tài)模型。”
在人工智能領(lǐng)域,大模型技術(shù)是目前主要的研究方向,但面對市面上各種各樣的模型,很多時候我們都搞不明白這些模型都是干什么的,有什么區(qū)別和聯(lián)系。
其實(shí)這個就涉及到模型的分類問題,原因在于人工智能技術(shù)涉獵范圍比較廣,不但有各種基于深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的大模型各行其道,還包括傳統(tǒng)的機(jī)器學(xué)習(xí)模型,以及各種模型的變種。
并且,從不同的維度模型又有不同的分類,如從技術(shù)維度,架構(gòu)維度,業(yè)務(wù)維度等;因此,面對這些復(fù)雜的模型種類,我們需要有一個完善的分類機(jī)制,但又由于模型技術(shù)在快速發(fā)展,因此我們今天只從任務(wù)類型的角度來了解不同模型之間的區(qū)別。
模型任務(wù)類型
從處理不同任務(wù)的角度來說,模型主要有以下幾種類型:
文本模型(自然語言處理——NLP):主要處理文本數(shù)據(jù) 包括邏輯推理
音頻模型(Audio):主要處理音頻數(shù)據(jù) 如配音
視覺模型(computer vision): 主要處理圖片和視頻數(shù)據(jù)
多模態(tài)模型(multi model): 能同時處理文字,圖片,音頻視頻等數(shù)據(jù)

文本模型
文本模型主要是基于自然語言處理技術(shù)(NLP)實(shí)現(xiàn)的主要用來處理文本數(shù)據(jù)的模型,如問答,翻譯等功能;但隨著大模型技術(shù)的發(fā)展,現(xiàn)在的模型開始加入邏輯推理的能力,也就是所謂的深度思考模型,通常是使用思維鏈技術(shù),強(qiáng)化學(xué)習(xí),自我反思等技術(shù)實(shí)現(xiàn)復(fù)雜任務(wù)的拆解和執(zhí)行。

音頻模型
音頻模型顧名思義主要用來處理音頻數(shù)據(jù),通過在文本和語音,以及配音等任務(wù)場景;如開會時對會議內(nèi)容進(jìn)行錄音,然后交給音頻模型就可以根據(jù)錄音內(nèi)容生成會議紀(jì)要;以及在AIGC領(lǐng)域通過音頻模型給視頻進(jìn)行配音。
視覺模型
視覺模型的應(yīng)用范圍要比音頻模型更廣,原因在于視覺模型同時支持圖片和視頻兩種格式的數(shù)據(jù)進(jìn)行處理;其同樣可以應(yīng)用于AIGC領(lǐng)域,如圖片生成,P圖,鬼畜視頻等。

同時,視覺模型可以通過圖片和視頻內(nèi)容進(jìn)行行為分析,來實(shí)現(xiàn)預(yù)防救災(zāi),行為識別,如自動駕駛等領(lǐng)域。
多模態(tài)模型
多模態(tài)模型簡單來說就是能夠支持多種模態(tài)數(shù)據(jù)的模型,如文本,圖片,視頻,音頻等;但很多人可能會把多模態(tài)模型當(dāng)作視覺模型或推理模型,但事實(shí)上多模態(tài)模型的實(shí)現(xiàn)原理和以上三種模型不太相同,且應(yīng)用場景也不一樣。
多模態(tài)模型是通過對不同模態(tài)數(shù)據(jù)進(jìn)行模態(tài)對齊等技術(shù)實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)之間的轉(zhuǎn)換和處理。如音視頻生成,轉(zhuǎn)換。
其主要可以用來解決人機(jī)交互,跨模態(tài)檢索,問答,生成等。
總之,不同任務(wù)類型的模型從實(shí)現(xiàn)技術(shù)和應(yīng)用場景上都不盡相同;切不同模型之間即有聯(lián)系又有區(qū)別,這里的聯(lián)系和區(qū)別不僅僅只技術(shù)的,同時還有任務(wù)上的。
本文轉(zhuǎn)載自??AI探索時代?? 作者:DFires


















