偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

智源開放3億條語義向量模型訓練數(shù)據(jù), BGE模型持續(xù)迭代更新

人工智能 新聞
BGE 的出色能力很大程度上源于其大規(guī)模、多樣化的訓練數(shù)據(jù)。此前,業(yè)界同行鮮有發(fā)布同類數(shù)據(jù)集。

伴隨著大模型開發(fā)和應(yīng)用的火熱發(fā)展,作為大模型核心基礎(chǔ)組件的 Embedding 重要性愈發(fā)凸顯。智源于一月前發(fā)布的開源可商用中英文語義向量模型 BGE(BAAI General Embedding)在社區(qū)收獲頗高關(guān)注度,Hugging Face 累計下載量達到數(shù)十萬。當前,BGE 快速迭代推出 1.5 版本并公布多項更新,其中,BGE 首次開源 3 億條大規(guī)模訓練數(shù)據(jù),幫助社區(qū)訓練同類模型,推動該領(lǐng)域技術(shù)發(fā)展。

3 億中英向量模型訓練數(shù)據(jù)開放

業(yè)界語義向量模型訓練數(shù)據(jù)首次開源,達 3 億中英文數(shù)據(jù)。

BGE 的出色能力很大程度上源于其大規(guī)模、多樣化的訓練數(shù)據(jù)。此前,業(yè)界同行鮮有發(fā)布同類數(shù)據(jù)集。在本次更新中,智源首次將 BGE 的訓練數(shù)據(jù)向社區(qū)予以開放,為推動此類技術(shù)進一步發(fā)展打下了基礎(chǔ)。

此次發(fā)布的數(shù)據(jù)集 MTP 由總計 3 億條中英文關(guān)聯(lián)文本對構(gòu)成;其中,中文記錄達 1 億條,英文數(shù)據(jù)達 2 億條。數(shù)據(jù)收集自 Wudao Corpora、Pile、DuReader、Sentence Transformer 等語料,經(jīng)過必要的采樣、抽取、清洗獲得。

詳細細節(jié)請參考 Data Hub:https://data.baai.ac.cn

MTP 為迄今開源的最大規(guī)模中英文關(guān)聯(lián)文本對數(shù)據(jù)集,為訓練中英文語義向量模型提供重要基礎(chǔ)。

響應(yīng)開發(fā)者社區(qū),BGE 功能升級

基于社區(qū)反饋,BGE 在其 1.0 的版本之上進行了進一步優(yōu)化,其表現(xiàn)更加穩(wěn)健、出色。具體升級如下:

  • 模型更新。BGE-*-zh-v1.5 緩解了相似度分布問題,通過對訓練數(shù)據(jù)進行過濾,刪除低質(zhì)量數(shù)據(jù),提高訓練時溫度系數(shù) temperature 至 0.02,使得相似度數(shù)值更加平穩(wěn) 。
  • 新增模型。開源 BGE-reranker 交叉編碼器模型,可更加精準找到相關(guān)文本,支持中英雙語。不同于向量模型需要輸出向量,BGE-reranker 直接文本對輸出相似度,排序準確度更高,可用于對向量召回結(jié)果的重新排序,提升最終結(jié)果的相關(guān)性。
  • 新增功能。BGE1.1 增加難負樣本挖掘腳本,難負樣本可有效提升微調(diào)后檢索的效果;在微調(diào)代碼中增加在微調(diào)中增加指令的功能;模型保存也將自動轉(zhuǎn)成 sentence transformer 格式,更方便模型加載。

值得一提的是,日前,智源聯(lián)合 Hugging Face 發(fā)布了一篇技術(shù)報告,報告提出用 C-Pack 增強中文通用語義向量模型。

《C-Pack: Packaged Resources To Advance General Chinese Embedding》

鏈接:https://arxiv.org/pdf/2309.07597.pdf

在開發(fā)者社區(qū)收獲高熱度

BGE 發(fā)布自以來受到大模型開發(fā)者社區(qū)關(guān)注,目前 Hugging Face 累計下載量達到數(shù)十萬,且已被 LangChain、LangChain-Chatchat、llama_index 等知名開源項目集成。

Langchain 官方、LangChain 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Harrison Chase、Deep trading 創(chuàng)始人 Yam Peleg 等社區(qū)大 V 對 BGE 表示關(guān)注。

圖片


堅持開源開放,促進協(xié)同創(chuàng)新,智源大模型技術(shù)開體系 FlagOpen BGE 新增 FlagEmbedding 新版塊,聚焦于 Embedding 技術(shù)和模型,BGE 是其中明星開源項目之一。FlagOpen 致力于打造大模型時代的 AI 技術(shù)基礎(chǔ)設(shè)施,未來將持續(xù)向?qū)W術(shù)界和產(chǎn)業(yè)界開源更為完整的大模型全棧技術(shù)。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-08-09 10:08:00

模型AI

2025-03-19 09:30:00

2025-05-21 08:35:00

2023-09-16 13:31:25

模型訓練

2020-11-18 10:29:07

模型人工智能開源

2023-11-07 11:50:14

AI訓練

2022-12-06 14:11:32

開源模型

2024-06-19 11:45:34

2021-09-02 18:41:48

智源研究院人工智能

2025-03-21 07:00:00

2020-02-24 10:51:25

微軟開源Windows

2022-03-24 10:35:38

人工智能模型代碼

2025-09-17 14:47:51

2025-02-13 08:26:26

2022-06-25 21:17:15

人工智能訓練

2023-09-05 10:21:03

人工智能

2024-08-07 15:27:50

2017-08-09 10:02:12

NMT神經(jīng)網(wǎng)絡(luò)自然語言處理

2023-04-10 11:18:24

GPT模型
點贊
收藏

51CTO技術(shù)棧公眾號