多模態(tài)檢索大升級(jí)!智源三大SOTA模型,代碼、圖文理解能力拉滿(mǎn)
檢索增強(qiáng)技術(shù)在代碼及多模態(tài)場(chǎng)景中的發(fā)揮著重要作用,而向量模型是檢索增強(qiáng)體系中的重要組成部分。
針對(duì)這一需求,近日,智源研究院聯(lián)合多所高校研發(fā)了三款向量模型,包括代碼向量模型BGE-Code-v1,多模態(tài)向量模型BGE-VL-v1.5以及視覺(jué)化文檔向量模型BGE-VL-Screenshot。
這些模型取得了代碼及多模態(tài)檢索的最佳效果,并以較大優(yōu)勢(shì)登頂CoIR、Code-RAG、MMEB、MVRB等領(lǐng)域內(nèi)主要測(cè)試基準(zhǔn)。
BGE自2023年8月發(fā)布以來(lái),已成為中國(guó)首個(gè)登頂Hugging Face榜首的國(guó)產(chǎn)AI模型以及2023年所有發(fā)布模型的全球下載量冠軍。
圖片
目前,BGE-Code-v1、BGE-VL-v1.5、BGE-VL-Screenshot三款模型已向社區(qū)全面開(kāi)放,為相關(guān)技術(shù)研究與產(chǎn)業(yè)應(yīng)用提供助力。
- BGE-Code-v1:
模型地址:https://huggingface.co/BAAI/bge-code-v1
項(xiàng)目主頁(yè):https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Coder
論文鏈接:https://arxiv.org/abs/2505.12697
- BGE-VL-v1.5:
模型地址:https://huggingface.co/BAAI/BGE-VL-v1.5-zs
項(xiàng)目主頁(yè):https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_VL
論文鏈接:https://arxiv.org/abs/2412.14475
- BGE-VL-Screenshot:
模型地址:https://huggingface.co/BAAI/BGE-VL-Screenshot
項(xiàng)目主頁(yè):https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_VL_Screenshot
論文鏈接:https://arxiv.org/abs/2502.11431
圖片
由智源研究院主導(dǎo)研發(fā)的通用向量模型系列BGE,旨在為各類(lèi)數(shù)據(jù)提供高效一站式向量表征與語(yǔ)義檢索方案,已推出覆蓋中英文、多語(yǔ)言檢索及重排模型等多個(gè)版本,持續(xù)刷新MTEB、C-MTEB、BEIR、MIRACL等主流文本向量評(píng)測(cè)基準(zhǔn)。
BGE憑借高性能與開(kāi)源特性備受業(yè)界關(guān)注,已廣泛應(yīng)用于RAG、神經(jīng)搜索等場(chǎng)景,累計(jì)下載超6億次,被國(guó)內(nèi)外多家AI企業(yè)集成。
目前,檢索增強(qiáng)技術(shù)正從傳統(tǒng)的文本場(chǎng)景逐步拓展至涵蓋代碼與視覺(jué)等多模態(tài)數(shù)據(jù)的應(yīng)用。
然而,相較于文本領(lǐng)域,現(xiàn)有向量模型在代碼和視覺(jué)模態(tài)中的檢索效果仍有待提升。
此次智源研究院發(fā)布的三款新模型,為構(gòu)建更強(qiáng)大的多模態(tài)檢索增強(qiáng)系統(tǒng)提供了有力的支持。
BGE-Code-v1新一代代碼優(yōu)化語(yǔ)義向量模型
圖片
隨著基礎(chǔ)模型代碼能力快速發(fā)展,Cursor、Copilot等輔助編程工具大幅提升生產(chǎn)力。
在面對(duì)百萬(wàn)行級(jí)代碼庫(kù)時(shí),代碼塊檢索增強(qiáng)需求凸顯,因此檢索模型的代碼理解能力至關(guān)重要。
BGE-Code-v1是以Qwen2.5-Coder-1.5B為基座打造的新一代代碼向量模型,專(zhuān)為各類(lèi)代碼檢索相關(guān)任務(wù)而設(shè)計(jì),同時(shí)配備了強(qiáng)大的多語(yǔ)言文本理解能力。
模型基于CoIR訓(xùn)練集和大量高質(zhì)量代碼-文本的合成數(shù)據(jù)進(jìn)行訓(xùn)練,并使用課程學(xué)習(xí),以BGE-gemma2-multilingual 的retrieval、STS數(shù)據(jù)為輔助,進(jìn)一步提升代碼與文本的理解能力。
BGE-Code-v1適用于開(kāi)發(fā)文檔搜索、代碼庫(kù)語(yǔ)義檢索、跨語(yǔ)言信息獲取等多種實(shí)際應(yīng)用場(chǎng)景,是面向代碼-文本檢索任務(wù)的最優(yōu)選擇。
圖片
CoIR代碼檢索基準(zhǔn),收集了覆蓋14種編程語(yǔ)言的4大類(lèi)8個(gè)子任務(wù),能夠有效地評(píng)估模型在自然語(yǔ)言和代碼的各類(lèi)混合場(chǎng)景中的檢索能力。
CodeRAG-Bench基準(zhǔn)評(píng)估了代碼檢索模型在代碼檢索增強(qiáng)(RACG)中的表現(xiàn)。
BGE-Code-v1在兩個(gè)基準(zhǔn)上均以顯著優(yōu)勢(shì)超越谷歌、Voyage AI、Salesforce、Jina等商業(yè)/開(kāi)源模型,登頂SOTA。
BGE-VL-v1.5通用多模態(tài)檢索模型
BGE-VL-v1.5 完成多模態(tài)檢索任務(wù)
BGE-VL-v1.5是基于LLaVA-1.6(7.57B參數(shù))訓(xùn)練的新一代通用多模態(tài)檢索模型,全面升級(jí)了圖文理解能力并具有更強(qiáng)大的檢索能力。
BGE-VL-v1.5在MagePairs 300萬(wàn) (3M) 圖文對(duì)齊數(shù)據(jù)基礎(chǔ)上又收集了共100萬(wàn)條自然與合成數(shù)據(jù)(涵蓋image-captioning數(shù)據(jù)、視覺(jué)問(wèn)答數(shù)據(jù)、分類(lèi)任務(wù)數(shù)據(jù))進(jìn)行多任務(wù)訓(xùn)練,顯著地提升了模型在各類(lèi)任務(wù)上的泛化性與理解能力。
基于MegaPairs數(shù)據(jù),BGE-VL-v1.5在多模態(tài)檢索任務(wù)中性能優(yōu)勢(shì)顯著,不僅在圖像檢索中表現(xiàn)強(qiáng)勁,更在通用多模態(tài)場(chǎng)景中展現(xiàn)高適應(yīng)性與準(zhǔn)確率,適用于圖文匹配、多模態(tài)問(wèn)答、跨模態(tài)推薦等場(chǎng)景。
圖片
MMEB是當(dāng)前使用最廣泛的多模態(tài)向量基準(zhǔn),由:分類(lèi)、視覺(jué)問(wèn)答、檢索、視覺(jué)基礎(chǔ)知識(shí),四類(lèi)任務(wù)構(gòu)成。
基于zero-shot設(shè)置(未使用MMEB訓(xùn)練集),BGE-VL-v1.5-zs在MMEB基準(zhǔn)中刷新zero-shot模型最佳表現(xiàn);在檢索任務(wù)上,基于MMEB微調(diào)的BGE-VL-v1.5-MMEB以72.16分登頂SOTA。
BGE-VL-Screenshot實(shí)用強(qiáng)大的視覺(jué)化文檔向量模型
實(shí)際場(chǎng)景中網(wǎng)頁(yè)、文檔等多模態(tài)任務(wù)常由圖文、符號(hào)、圖表等多元素混合數(shù)據(jù)構(gòu)成,這類(lèi)任務(wù)稱(chēng)為「可視化信息檢索」(Vis-IR),因此,多模態(tài)模型不僅需要具備從復(fù)雜結(jié)構(gòu)中提取關(guān)鍵信息的視覺(jué)能力,還需精準(zhǔn)理解文本與視覺(jué)語(yǔ)義。
目前,現(xiàn)有檢索模型在此類(lèi)任務(wù)中表現(xiàn)欠佳。
BGE-VL-Sc基于截圖與文本檢索
BGE-VL-Screenshot模型基于Qwen2.5-VL-3B-Instruct,以新聞、商品、論文、文檔、項(xiàng)目主頁(yè)等七類(lèi)數(shù)據(jù)源進(jìn)行訓(xùn)練,收集超過(guò)1300萬(wàn)張截圖和700萬(wàn)組標(biāo)注截圖問(wèn)答樣本。
為了準(zhǔn)確評(píng)估模型在Vis-IR任務(wù)上的表現(xiàn),團(tuán)隊(duì)設(shè)計(jì)并推出了多模態(tài)檢索基準(zhǔn)MVRB (Massive Visualized IR Benchmark,涵蓋截圖檢索、復(fù)合截圖檢索、截圖QA和開(kāi)放分類(lèi)4項(xiàng)任務(wù)共20個(gè)數(shù)據(jù)集。
MVRB榜單鏈接:https://huggingface.co/spaces/BAAI/MVRB_leaderboard)
圖片
BGE-VL-Screenshot在4項(xiàng)任務(wù)中表現(xiàn)出色,以60.61的綜合得分達(dá)到SOTA。
在此基礎(chǔ)上,通過(guò)少量query2screenshot多語(yǔ)言數(shù)據(jù)訓(xùn)練,模型實(shí)現(xiàn)了在英文之外的多語(yǔ)言任務(wù)上的出色表現(xiàn)。
智源研究院將繼續(xù)深耕向量模型與檢索增強(qiáng)技術(shù),進(jìn)一步提升BGE模型系列的能力與通用性。
未來(lái)期待與更多科研機(jī)構(gòu)與產(chǎn)業(yè)伙伴合作,共同推動(dòng)檢索與人工智能發(fā)展。歡迎廣大研究者與開(kāi)發(fā)者關(guān)注并使用 BGE 系列模型,共建開(kāi)放繁榮的開(kāi)源生態(tài)。