智源開放3億條語義向量模型訓練數(shù)據(jù), BGE模型持續(xù)迭代更新
伴隨著大模型開發(fā)和應(yīng)用的火熱發(fā)展,作為大模型核心基礎(chǔ)組件的 Embedding 重要性愈發(fā)凸顯。智源于一月前發(fā)布的開源可商用中英文語義向量模型 BGE(BAAI General Embedding)在社區(qū)收獲頗高關(guān)注度,Hugging Face 累計下載量達到數(shù)十萬。當前,BGE 快速迭代推出 1.5 版本并公布多項更新,其中,BGE 首次開源 3 億條大規(guī)模訓練數(shù)據(jù),幫助社區(qū)訓練同類模型,推動該領(lǐng)域技術(shù)發(fā)展。
- MTP數(shù)據(jù)集鏈接:https://data.baai.ac.cn/details/BAAI-MTP
 - BGE 模型鏈接:https://huggingface.co/BAAI
 - BGE 代碼倉庫:https://github.com/FlagOpen/FlagEmbedding
 
3 億中英向量模型訓練數(shù)據(jù)開放
業(yè)界語義向量模型訓練數(shù)據(jù)首次開源,達 3 億中英文數(shù)據(jù)。
BGE 的出色能力很大程度上源于其大規(guī)模、多樣化的訓練數(shù)據(jù)。此前,業(yè)界同行鮮有發(fā)布同類數(shù)據(jù)集。在本次更新中,智源首次將 BGE 的訓練數(shù)據(jù)向社區(qū)予以開放,為推動此類技術(shù)進一步發(fā)展打下了基礎(chǔ)。
此次發(fā)布的數(shù)據(jù)集 MTP 由總計 3 億條中英文關(guān)聯(lián)文本對構(gòu)成;其中,中文記錄達 1 億條,英文數(shù)據(jù)達 2 億條。數(shù)據(jù)收集自 Wudao Corpora、Pile、DuReader、Sentence Transformer 等語料,經(jīng)過必要的采樣、抽取、清洗獲得。
詳細細節(jié)請參考 Data Hub:https://data.baai.ac.cn
MTP 為迄今開源的最大規(guī)模中英文關(guān)聯(lián)文本對數(shù)據(jù)集,為訓練中英文語義向量模型提供重要基礎(chǔ)。
響應(yīng)開發(fā)者社區(qū),BGE 功能升級
基于社區(qū)反饋,BGE 在其 1.0 的版本之上進行了進一步優(yōu)化,其表現(xiàn)更加穩(wěn)健、出色。具體升級如下:
- 模型更新。BGE-*-zh-v1.5 緩解了相似度分布問題,通過對訓練數(shù)據(jù)進行過濾,刪除低質(zhì)量數(shù)據(jù),提高訓練時溫度系數(shù) temperature 至 0.02,使得相似度數(shù)值更加平穩(wěn) 。
 - 新增模型。開源 BGE-reranker 交叉編碼器模型,可更加精準找到相關(guān)文本,支持中英雙語。不同于向量模型需要輸出向量,BGE-reranker 直接文本對輸出相似度,排序準確度更高,可用于對向量召回結(jié)果的重新排序,提升最終結(jié)果的相關(guān)性。
 - 新增功能。BGE1.1 增加難負樣本挖掘腳本,難負樣本可有效提升微調(diào)后檢索的效果;在微調(diào)代碼中增加在微調(diào)中增加指令的功能;模型保存也將自動轉(zhuǎn)成 sentence transformer 格式,更方便模型加載。
 
值得一提的是,日前,智源聯(lián)合 Hugging Face 發(fā)布了一篇技術(shù)報告,報告提出用 C-Pack 增強中文通用語義向量模型。
《C-Pack: Packaged Resources To Advance General Chinese Embedding》
鏈接:https://arxiv.org/pdf/2309.07597.pdf
在開發(fā)者社區(qū)收獲高熱度
BGE 發(fā)布自以來受到大模型開發(fā)者社區(qū)關(guān)注,目前 Hugging Face 累計下載量達到數(shù)十萬,且已被 LangChain、LangChain-Chatchat、llama_index 等知名開源項目集成。
Langchain 官方、LangChain 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Harrison Chase、Deep trading 創(chuàng)始人 Yam Peleg 等社區(qū)大 V 對 BGE 表示關(guān)注。



堅持開源開放,促進協(xié)同創(chuàng)新,智源大模型技術(shù)開體系 FlagOpen BGE 新增 FlagEmbedding 新版塊,聚焦于 Embedding 技術(shù)和模型,BGE 是其中明星開源項目之一。FlagOpen 致力于打造大模型時代的 AI 技術(shù)基礎(chǔ)設(shè)施,未來將持續(xù)向?qū)W術(shù)界和產(chǎn)業(yè)界開源更為完整的大模型全棧技術(shù)。















 
 
 
















 
 
 
 