偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Jina 第4版:多模態(tài)向量檢索,統(tǒng)一適配,挑戰(zhàn)3大任務(wù)

發(fā)布于 2025-7-2 07:11
瀏覽
0收藏

一、模型架構(gòu)

  • jina-embeddings-v4 的架構(gòu)基于 Qwen2.5-VL 模型,并進(jìn)行了擴(kuò)展以支持單向量和多向量輸出。
  • 對于文本輸入,模型采用標(biāo)準(zhǔn)的基于 Transformer 的處理方式,將文本分詞后轉(zhuǎn)換為向量序列,然后輸入到大型語言模型(LLM)中。
  • 對于圖像輸入,首先通過一個離散的圖像模型將圖像轉(zhuǎn)換為多向量結(jié)果,類似于文本中的“圖像標(biāo)記”,然后將這些“圖像標(biāo)記”傳遞給 LLM,使其能夠像處理文本標(biāo)記一樣處理圖像信息。

Jina 第4版:多模態(tài)向量檢索,統(tǒng)一適配,挑戰(zhàn)3大任務(wù)-AI.x社區(qū)

  • 一共Lora微調(diào)了三個任務(wù),每個 LoRA 適配器僅包含 60M 參數(shù):

a.非對稱查詢 - 文檔檢索:通過為查詢和文檔分配不同的編碼方式來提高檢索性能,這對于處理結(jié)構(gòu)與文檔不同的查詢(如短查詢、問題等)非常有效。

b.語義相似性和對稱檢索:用于尋找相似內(nèi)容,適用于語義文本相似性任務(wù)

c.代碼檢索:專門針對自然語言到代碼的檢索、代碼到代碼的相似性搜索以及技術(shù)問答任務(wù)進(jìn)行了優(yōu)化。

  • 提供了兩種輸出選項:傳統(tǒng)的單向量嵌入和 ColBERT 風(fēng)格的多向量嵌入。
  • 單向量嵌入具有 2048 維,但可以通過截斷減少到 128 維,且精度損失極小。這是通過 Matryoshka 表示學(xué)習(xí)實現(xiàn)的,使得單向量嵌入的標(biāo)量值按語義重要性排序。
  • 多向量嵌入則是對輸入標(biāo)記(包括“圖像標(biāo)記”)進(jìn)行分析后得到的未池化結(jié)果,每個標(biāo)記對應(yīng)一個 128 維的輸出向量。這種多向量輸出方式在處理復(fù)雜文檔時能夠更好地保留語義信息,尤其是在涉及視覺豐富內(nèi)容的場景中。

二、訓(xùn)練與推理

2.1 對比學(xué)習(xí)訓(xùn)練

  • 在對比學(xué)習(xí)訓(xùn)練階段,模型首先對文本對和文本 - 圖像對進(jìn)行編碼,生成單向量和多向量嵌入。
  • 然后,通過 InfoNCE 損失函數(shù)計算這些嵌入之間的相似性,并根據(jù)相似性對模型進(jìn)行優(yōu)化。
  • Jina 第4版:多模態(tài)向量檢索,統(tǒng)一適配,挑戰(zhàn)3大任務(wù)-AI.x社區(qū)

Jina 第4版:多模態(tài)向量檢索,統(tǒng)一適配,挑戰(zhàn)3大任務(wù)-AI.x社區(qū)

Jina 第4版:多模態(tài)向量檢索,統(tǒng)一適配,挑戰(zhàn)3大任務(wù)-AI.x社區(qū)

  • 具體來說,模型將輸入對分為相關(guān)和不相關(guān)兩類,目標(biāo)是使相關(guān)對的嵌入在語義空間中更接近,而不相關(guān)對的嵌入則更遠(yuǎn)離。
  • 通過這種方式,模型能夠?qū)W習(xí)到不同模態(tài)數(shù)據(jù)之間的語義關(guān)系,從而在統(tǒng)一的語義空間中實現(xiàn)對不同模態(tài)數(shù)據(jù)的語義理解。

Jina 第4版:多模態(tài)向量檢索,統(tǒng)一適配,挑戰(zhàn)3大任務(wù)-AI.x社區(qū)

Jina 第4版:多模態(tài)向量檢索,統(tǒng)一適配,挑戰(zhàn)3大任務(wù)-AI.x社區(qū)

2.2 任務(wù)特化訓(xùn)練

  • 在任務(wù)特化訓(xùn)練階段,模型將第一階段訓(xùn)練得到的 LoRA 適配器復(fù)制三份,并針對不同的任務(wù)進(jìn)行特定訓(xùn)練。
  • 對于非對稱檢索任務(wù),模型使用包含正負(fù)樣本的三元組數(shù)據(jù)進(jìn)行訓(xùn)練,通過擴(kuò)展的 InfoNCE 損失函數(shù)(LNCE+)來優(yōu)化模型的非對稱檢索性能。

Jina 第4版:多模態(tài)向量檢索,統(tǒng)一適配,挑戰(zhàn)3大任務(wù)-AI.x社區(qū)

  • 對于語義相似性任務(wù),模型使用具有已知語義相似性值的數(shù)據(jù)對進(jìn)行訓(xùn)練,通過 CoSENT 損失函數(shù)來優(yōu)化模型的對稱檢索性能。

Jina 第4版:多模態(tài)向量檢索,統(tǒng)一適配,挑戰(zhàn)3大任務(wù)-AI.x社區(qū)

  • 而對于代碼檢索任務(wù),模型則使用代碼相關(guān)的數(shù)據(jù)集進(jìn)行訓(xùn)練,通過 InfoNCE 損失函數(shù)來優(yōu)化模型的代碼檢索性能。
  • 通過這種任務(wù)特化訓(xùn)練,模型能夠在不同的應(yīng)用任務(wù)中實現(xiàn)性能的顯著提升。

2.3 推理

  • 在推理階段,用戶可以根據(jù)具體的應(yīng)用需求選擇不同的 LoRA 適配器。
  • 對于文本和圖像輸入,模型分別生成單向量或多向量嵌入,然后根據(jù)選擇的適配器對嵌入進(jìn)行微調(diào)。
  • 最后,通過計算目標(biāo)嵌入與候選嵌入之間的相似性,模型可以快速準(zhǔn)確地找到與目標(biāo)內(nèi)容相關(guān)的其他內(nèi)容。
  • 這種推理方式不僅能夠充分利用模型的多模態(tài)處理能力,還能夠根據(jù)不同的任務(wù)需求實現(xiàn)性能的優(yōu)化。

Jina 第4版:多模態(tài)向量檢索,統(tǒng)一適配,挑戰(zhàn)3大任務(wù)-AI.x社區(qū)

??https://huggingface.co/collections/jinaai/jinavdr-visual-document-retrieval-684831c022c53b21c313b449??

https://huggingface.co/datasets/warshakhan/donut_vqa_ISynHMP https://huggingface.co/datasets/jlli/JDocQA-nonbinary https://huggingface.co/datasets/jlli/HungarianDocQA-OCR

??https://github.com/laituan245/StackExchangeQA??

??https://huggingface.co/datasets/mteb/arguana??

??https://huggingface.co/jinaai/jina-embeddings-v4??

??https://arxiv.org/pdf/2506.18902??

本文轉(zhuǎn)載自??CourseAI??,作者:CourseAI

已于2025-7-2 11:54:00修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦