偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<abbr id="ares9"><button id="ares9"></button></abbr>

<wbr id="ares9"><menu id="ares9"></menu></wbr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Qwen3 Embedding 數(shù)據(jù)生成技術(shù)深度解析：從 LLM 驅(qū)動(dòng)合成到領(lǐng)域適配優(yōu)化精華

鴻煊的學(xué)習(xí)筆記

發(fā)布于 2025-6-20 06:15

瀏覽

0收藏

在 Qwen3 Embedding 的技術(shù)體系中，數(shù)據(jù)生成模塊通過(guò)大模型驅(qū)動(dòng)的結(jié)構(gòu)化合成框架突破了傳統(tǒng)文本嵌入模型的訓(xùn)練數(shù)據(jù)瓶頸。這一創(chuàng)新不僅使模型在 MTEB 多語(yǔ)言排行榜以 70.58 分登頂，更在代碼檢索等專業(yè)領(lǐng)域?qū)崿F(xiàn) 80.68 分的突破。以下結(jié)合官方技術(shù)報(bào)告與開(kāi)源實(shí)踐，詳解數(shù)據(jù)生成的全流程技術(shù)細(xì)節(jié)。

Qwen3 Embedding 數(shù)據(jù)生成技術(shù)深度解析：從 LLM 驅(qū)動(dòng)合成到領(lǐng)域適配優(yōu)化-AI.x社區(qū)

一、兩階段數(shù)據(jù)生成架構(gòu)：從語(yǔ)義建模到查詢生成

1.1 配置階段：三維語(yǔ)義空間定義

Qwen3 采用 Qwen3-32B 大模型為文檔生成結(jié)構(gòu)化語(yǔ)義配置，通過(guò)三大維度控制查詢語(yǔ)義特征：

角色維度（Character）：從 Persona Hub 角色庫(kù)提取 Top5 相關(guān)身份，如為農(nóng)業(yè)技術(shù)文檔匹配 "種植專家"" 養(yǎng)殖戶 " 等角色
問(wèn)題類型（Question Type）：定義 9 類查詢語(yǔ)義類型，包括關(guān)鍵詞檢索（keywords）、事實(shí)型（acquire_knowledge）、摘要型（summary）等
難度層級(jí)（Difficulty）：劃分為高中、大學(xué)、科研（phd）三級(jí)學(xué)術(shù)難度

配置生成示例（醫(yī)學(xué)文檔）：

{
  "Character": "cardiologist",
  "Question_Type": "diagnosis",
  "Difficulty": "university"
}

1.2 查詢生成階段：多維度指令控制

基于配置信息生成自然語(yǔ)言查詢時(shí)，通過(guò)四大參數(shù)實(shí)現(xiàn)精準(zhǔn)控制：

語(yǔ)言參數(shù)（Language）：支持 119 種語(yǔ)言生成，如將中文文檔轉(zhuǎn)為英語(yǔ) / 西班牙語(yǔ)查詢
長(zhǎng)度參數(shù)（Length）：通過(guò)數(shù)值指定查詢語(yǔ)句詞數(shù)（如 15-30 詞）
風(fēng)格參數(shù)（Style）：匹配角色語(yǔ)境（科研角色使用學(xué)術(shù)術(shù)語(yǔ)，普通用戶使用通俗表達(dá)）
領(lǐng)域參數(shù)（Domain）：注入專業(yè)領(lǐng)域詞匯（如金融領(lǐng)域生成 "量化對(duì)沖策略" 等術(shù)語(yǔ)）

查詢生成示例（配置映射）：

# 輸入配置
config = {
  "Character": "farmer",
  "Question_Type": "keywords",
  "Difficulty": "high_school",
  "Language": "Chinese",
  "Length": 12
}


# 生成查詢
query = "春季養(yǎng)鴨飼料調(diào)整方法"

二、數(shù)據(jù)篩選與質(zhì)量控制體系

2.1 大規(guī)模弱監(jiān)督數(shù)據(jù)生成

第一階段通過(guò) Qwen3-32B 生成1.5 億對(duì)弱監(jiān)督文本對(duì)，覆蓋四大任務(wù)類型：

檢索任務(wù)（Retrieval）：占比 45%，構(gòu)建查詢 - 文檔對(duì)
語(yǔ)義相似度（STS）：占比 25%，生成語(yǔ)義等價(jià)文本對(duì)
文本分類（Classification）：占比 20%，生成類別 - 文本對(duì)
雙語(yǔ)對(duì)齊（Bitext Mining）：占比 10%，生成跨語(yǔ)言文本對(duì)

2.2 高質(zhì)量數(shù)據(jù)精煉流程

通過(guò)三層篩選機(jī)制從 1.5 億數(shù)據(jù)中提取1200 萬(wàn)高質(zhì)量樣本：

余弦相似度過(guò)濾：保留 query-document 對(duì)余弦相似度 > 0.7 的樣本
人工抽樣驗(yàn)證：隨機(jī)抽取 5% 樣本進(jìn)行人工相關(guān)性標(biāo)注
領(lǐng)域平衡處理：確保各領(lǐng)域數(shù)據(jù)占比均衡（如代碼數(shù)據(jù)占比 15%）

篩選效果對(duì)比：

指標(biāo)	原始合成數(shù)據(jù)	篩選后數(shù)據(jù)
相關(guān)度準(zhǔn)確率	68.3%	89.7%
領(lǐng)域覆蓋度	18 個(gè)領(lǐng)域	27 個(gè)領(lǐng)域
負(fù)樣本有效性	0.12	0.235

三、領(lǐng)域適配數(shù)據(jù)增強(qiáng)技術(shù)

3.1 專業(yè)領(lǐng)域數(shù)據(jù)生成方案

在農(nóng)業(yè)、金融等垂直領(lǐng)域采用領(lǐng)域知識(shí)注入技術(shù)：

術(shù)語(yǔ)庫(kù)集成：接入農(nóng)業(yè)領(lǐng)域術(shù)語(yǔ)庫(kù)，生成包含 "分蘗期"" 基肥 " 等專業(yè)詞匯的查詢
任務(wù)模板定制：為金融領(lǐng)域設(shè)計(jì) "風(fēng)險(xiǎn)評(píng)估"" 趨勢(shì)預(yù)測(cè) " 等專用查詢模板
專家反饋迭代：邀請(qǐng)領(lǐng)域?qū)＜覍?duì)生成數(shù)據(jù)進(jìn)行評(píng)分，迭代優(yōu)化生成策略

3.2 代碼數(shù)據(jù)專項(xiàng)生成

針對(duì)代碼檢索任務(wù)設(shè)計(jì)三層代碼語(yǔ)義生成框架：

功能描述生成：根據(jù)代碼功能生成自然語(yǔ)言描述（如 "實(shí)現(xiàn)分布式事務(wù)的 Python 代碼"）
代碼片段匹配：將生成描述與代碼庫(kù)進(jìn)行語(yǔ)義匹配
難負(fù)樣本構(gòu)造：生成語(yǔ)義相似但功能不同的代碼負(fù)例（如 "單節(jié)點(diǎn)事務(wù)" 作為 "分布式事務(wù)" 負(fù)例）

代碼數(shù)據(jù)生成效果：

Python 函數(shù)檢索準(zhǔn)確率從 74.66% 提升至 80.68%
跨語(yǔ)言代碼檢索（中文查詢→英文代碼）MAP 值提升 19.3%

四、數(shù)據(jù)生成全流程代碼實(shí)現(xiàn)

4.1 配置階段代碼實(shí)現(xiàn)

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer




class Qwen3DataGenerator:
    def __init__(self, model_path="Qwen/Qwen3-32B"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_path)
        self.model = AutoModelForCausalLM.from_pretrained(
            model_path, 
            torch_dtype=torch.bfloat16,
            device_map="auto"
        )
        self.persona_hub = ["farmer", "researcher", "engineer", "doctor", "teacher"]


    def generate_config(self, document, language="English"):
        """生成文檔的三維配置"""
        prompt = f"""
Given a document, generate a JSON configuration with Character, Question_Type, Difficulty.
Document: {document}
Language: {language}
Character candidates: {self.persona_hub}
Question_Type options: keywords, acquire_knowledge, summary, yes_or_no, background
Difficulty options: high_school, university, phd
Output JSON:
"""
        inputs = self.tokenizer(prompt, return_tensors="pt").to(self.model.device)
        outputs = self.model.generate(
            **inputs,
            max_new_tokens=100,
            temperature=0.7,
            top_p=0.9
        )
        config_json = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
        return eval(config_json)  # 解析生成的JSON

4.2 查詢生成與數(shù)據(jù)篩選代碼

from sentence_transformers import SentenceTransformer, util
from datasets import load_dataset
import numpy as np




class QueryGenerator:
    def __init__(self, embedding_model="Qwen/Qwen3-Embedding-0.6B"):
        self.embedding_model = SentenceTransformer(embedding_model)


    def generate_query(self, config, document):
        """根據(jù)配置生成查詢"""
        role = config["Character"]
        q_type = config["Question_Type"]
        difficulty = config["Difficulty"]
        lang = config.get("Language", "Chinese")


        # 構(gòu)建生成提示詞
        prompt = f"""
Generate a {lang} query based on the document and config.
Document: {document}
Character: {role}
Question_Type: {q_type}
Difficulty: {difficulty}
Query:
"""
        # 這里使用Qwen3-32B生成查詢，實(shí)際應(yīng)用中需替換為真實(shí)生成邏輯
        return f"示例查詢: 根據(jù){role}需求生成的{q_type}查詢"


    def filter_high_quality_pairs(self, pairs, threshold=0.7):
        """篩選高相似度數(shù)據(jù)對(duì)"""
        queries = [p["query"] for p in pairs]
        docs = [p["document"] for p in pairs]


        # 生成嵌入向量
        query_emb = self.embedding_model.encode(queries, batch_size=32)
        doc_emb = self.embedding_model.encode(docs, batch_size=32)


        # 計(jì)算余弦相似度
        similarities = util.cos_sim(query_emb, doc_emb).diag().cpu().numpy()


        # 篩選相似度>閾值的樣本
        high_quality_indices = np.where(similarities > threshold)[0]
        return [pairs[i] for i in high_quality_indices]

4.3 難負(fù)樣本挖掘?qū)崙?zhàn)代碼

from datasets import Dataset
import pandas as pd




def mine_hard_negatives(dataset_path, output_path):
    """挖掘難負(fù)樣本"""
    # 加載數(shù)據(jù)集
    data = pd.read_json(dataset_path)
    dataset = Dataset.from_pandas(data)


    # 加載Qwen3嵌入模型
    model = SentenceTransformer("Qwen/Qwen3-Embedding-0.6B")


    # 挖掘難負(fù)樣本
    hard_negatives = util.mine_hard_negatives(
        dataset,
        model,
        anchor_column_name="query",
        positive_column_name="document",
        num_negatives=5,
        range_min=20,
        range_max=50,
        max_score=0.8,
        absolute_margin=0.1,
        sampling_strategy="top",
        batch_size=64
    )


    # 保存結(jié)果
    hard_negatives_dataset = Dataset.from_dict(hard_negatives)
    hard_negatives_dataset.to_json(output_path, orient="records", lines=True)


# 執(zhí)行難負(fù)樣本挖掘
mine_hard_negatives(
    dataset_path="agriculture_data.json",
    output_path="agriculture_hard_negatives.json"
)

五、數(shù)據(jù)生成技術(shù)演進(jìn)與行業(yè)影響

Qwen3 的數(shù)據(jù)生成技術(shù)標(biāo)志著嵌入模型訓(xùn)練進(jìn)入大模型自循環(huán)時(shí)代：通過(guò) LLM 生成 LLM 訓(xùn)練數(shù)據(jù)的閉環(huán)模式，使數(shù)據(jù)質(zhì)量和多樣性得到指數(shù)級(jí)提升。這種范式創(chuàng)新帶來(lái)三方面行業(yè)變革：

低資源語(yǔ)言突破：在斯瓦希里語(yǔ)等小語(yǔ)種場(chǎng)景，合成數(shù)據(jù)使檢索準(zhǔn)確率提升 25%，打破傳統(tǒng)數(shù)據(jù)收集的地域限制。
專業(yè)領(lǐng)域普惠：通過(guò)領(lǐng)域適配數(shù)據(jù)生成，中小企業(yè)無(wú)需大量標(biāo)注數(shù)據(jù)即可擁有專業(yè)領(lǐng)域嵌入能力，如農(nóng)業(yè)領(lǐng)域模型訓(xùn)練成本降低 70%。
代碼智能革新：代碼數(shù)據(jù)專項(xiàng)生成技術(shù)使編程輔助工具的代碼檢索準(zhǔn)確率突破 80%，推動(dòng) AI 編程助手進(jìn)入實(shí)用階段。

六、完整代碼

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from sentence_transformers import SentenceTransformer, util
from datasets import Dataset, load_dataset
import numpy as np
import pandas as pd
import os




class Qwen3DataGenerator:
    def __init__(self, model_path="Qwen/Qwen3-32B"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_path)
        self.model = AutoModelForCausalLM.from_pretrained(
            model_path, 
            torch_dtype=torch.bfloat16,
            device_map="auto"
        )
        self.persona_hub = ["farmer", "researcher", "engineer", "doctor", "teacher"]


    def generate_config(self, document, language="English"):
        prompt = f"""
Given a document, generate a JSON configuration with Character, Question_Type, Difficulty.
Document: {document}
Language: {language}
Character candidates: {self.persona_hub}
Question_Type options: keywords, acquire_knowledge, summary, yes_or_no, background
Difficulty options: high_school, university, phd
Output JSON:
"""
        inputs = self.tokenizer(prompt, return_tensors="pt").to(self.model.device)
        outputs = self.model.generate(
            **inputs,
            max_new_tokens=100,
            temperature=0.7,
            top_p=0.9
        )
        config_json = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
        return eval(config_json)




class QueryGenerator:
    def __init__(self, embedding_model="Qwen/Qwen3-Embedding-0.6B"):
        self.embedding_model = SentenceTransformer(embedding_model)


    def generate_query(self, config, document):
        role = config["Character"]
        q_type = config["Question_Type"]
        difficulty = config["Difficulty"]
        lang = config.get("Language", "Chinese")
        return f"示例查詢: 作為{role}，{q_type}類型的{difficulty}難度問(wèn)題：{document[:20]}..."


    def filter_high_quality_pairs(self, pairs, threshold=0.7):
        queries = [p["query"] for p in pairs]
        docs = [p["document"] for p in pairs]
        query_emb = self.embedding_model.encode(queries, batch_size=32)
        doc_emb = self.embedding_model.encode(docs, batch_size=32)
        similarities = util.cos_sim(query_emb, doc_emb).diag().cpu().numpy()
        high_quality_indices = np.where(similarities > threshold)[0]
        return [pairs[i] for i in high_quality_indices]




def mine_hard_negatives(dataset_path, output_path):
    data = pd.read_json(dataset_path)
    dataset = Dataset.from_pandas(data)
    model = SentenceTransformer("Qwen/Qwen3-Embedding-0.6B")
    hard_negatives = util.mine_hard_negatives(
        dataset,
        model,
        anchor_column_name="query",
        positive_column_name="document",
        num_negatives=5,
        range_min=20,
        range_max=50,
        max_score=0.8,
        absolute_margin=0.1,
        sampling_strategy="top",
        batch_size=64
    )
    hard_negatives_dataset = Dataset.from_dict(hard_negatives)
    hard_negatives_dataset.to_json(output_path, orient="records", lines=True)




def generate_embedding_data(documents, output_path):
    generator = Qwen3DataGenerator()
    query_gen = QueryGenerator()
    data_pairs = []


    for doc in documents:
        config = generator.generate_config(doc)
        query = query_gen.generate_query(config, doc)
        data_pairs.append({
            "query": query,
            "document": doc,
            "config": config
        })


    high_quality_pairs = query_gen.filter_high_quality_pairs(data_pairs)
    Dataset.from_list(high_quality_pairs).to_json(output_path, orient="records", lines=True)
    return high_quality_pairs




def run_swift_sft():
    os.system("""
swift sft \
--model /path/to/Qwen3-Embedding-0.6B \
--task_type embedding \
--model_type qwen3_emb \
--train_type lora \
--dataset /path/to/agriculture_data.json \
--split_dataset_ratio 0.05 \
--eval_strategy steps \
--output_dir output/qwen3-agriculture \
--eval_steps 100 \
--num_train_epochs 1 \
--save_steps 100 \
--per_device_train_batch_size 4 \
--per_device_eval_batch_size 4 \
--gradient_accumulation_steps 4 \
--learning_rate 6e-6 \
--loss_type infonce \
--label_names labels \
--dataloader_drop_last true
""")




def evaluate_model(model_path, test_data_path):
    model = SentenceTransformer(model_path)
    test_data = load_dataset("json", data_files=test_data_path)["train"]
    queries = test_data["query"]
    docs = test_data["document"]


    query_emb = model.encode(queries, batch_size=32)
    doc_emb = model.encode(docs, batch_size=32)


    similarities = util.cos_sim(query_emb, doc_emb)
    # 計(jì)算NDCG等評(píng)估指標(biāo)
    return similarities




if __name__ == "__main__":
    # 示例文檔數(shù)據(jù)
    sample_documents = [
        "春季養(yǎng)鴨時(shí)，應(yīng)適當(dāng)增加能量飼料的比例以應(yīng)對(duì)低溫天氣",
        "發(fā)財(cái)樹(shù)春季養(yǎng)護(hù)需要保證充足光照",
        "食品包裝中常用的阻隔性材料主要用于保質(zhì)保鮮"
    ]


    # 1. 生成數(shù)據(jù)配置與查詢
    generated_data = generate_embedding_data(sample_documents, "generated_data.json")


    # 2. 挖掘難負(fù)樣本
    mine_hard_negatives("generated_data.json", "hard_negatives.json")


    # 3. 執(zhí)行LoRA微調(diào)
    run_swift_sft()


    # 4. 模型評(píng)估
    evaluation_results = evaluate_model("output/qwen3-agriculture", "hard_negatives.json")
    print("模型評(píng)估相似度矩陣:", evaluation_results.shape)

筆者能力有限，歡迎批評(píng)指正或者在留言區(qū)討論

參考文獻(xiàn)

王鵬. 《LoRA 微調(diào) Qwen3 Embedding，效果炸裂～》[PDF]. 丁師兄大模型，2025 年 6 月 8 日.
熱愛(ài) AI 的. 《Qwen3 Embedding - 合成數(shù)據(jù) is all you need》[PDF]. NLP 前沿，2025 年 6 月 14 日.
張巖召等. 《Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models》[PDF]. 阿里巴巴通義實(shí)驗(yàn)室，2025.
一眼萬(wàn)年 04. 《Qwen3 Embedding：通過(guò)基礎(chǔ)模型推進(jìn)文本嵌入與重排序》[PDF]. chaincat, 2025 年 6 月 11 日.
Q 同學(xué)的 nlp 筆記. 《Qwen3 開(kāi)源最新 Embedding 模型》[PDF]. 2025 年 6 月 8 日.
DataLearner. 《RAG 新選擇！阿里開(kāi)源向量大模型 Qwen-Embedding 和重排序大模型》[PDF]. 2025 年 6 月 8 日.
AINLP. 《超強(qiáng)！阿里開(kāi)源 Qwen3 Embedding 系列模型》[PDF]. 2025 年 6 月 10 日.
劉聰 NLP. 《遲來(lái)！解讀 Qwen 開(kāi)源的 Embedding 模型中的細(xì)節(jié)！附實(shí)測(cè)結(jié)果！》[PDF]. 2025 年 6 月 10 日.
鐘南街包不同. 《開(kāi)源嵌入新王落地！Qwen3-Embedding 本地部署指南 + Dify 召回測(cè)試實(shí)錄》[PDF]. 2025 年 6 月 8 日.
xxc. 《嵌入模型 Qwen3-Embedding 開(kāi)源即為王者》[PDF]. 哈爾小文，2025 年 6 月 9 日.
OpenCSG 社區(qū). 《支持 100 + 語(yǔ)言！Qwen3 Embedding 系列重磅開(kāi)源》[PDF]. 2025 年 6 月 10 日.
王舒虹. 《最新｜用 Qwen3 Embedding+Milvus，搭建最強(qiáng)企業(yè)知識(shí)庫(kù)》[PDF]. Zilliz, 2025 年 6 月 11 日.

本文轉(zhuǎn)載自???鴻煊的學(xué)習(xí)筆記???，作者：乘風(fēng)破浪jxj

標(biāo)簽

數(shù)據(jù)生成

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

Meta LlaMA 3模型深度解析

51CTO內(nèi)容精選 ? 4567瀏覽 ? 0回復(fù)
從弱模型和強(qiáng)模型合成文本到SQL數(shù)據(jù)

sbf_2000 ? 3846瀏覽 ? 0回復(fù)
從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)飛輪：技術(shù)進(jìn)化與實(shí)踐案例解析

wx6110dd2be671e ? 2787瀏覽 ? 0回復(fù)
微軟提出LLM-dCache:GTP驅(qū)動(dòng)本地數(shù)據(jù)緩存優(yōu)化的大模型

AI論文解讀 ? 2968瀏覽 ? 0回復(fù)
AI 運(yùn)維的新時(shí)代：從 MLOps 到 LLMOps深度解析

51CTO內(nèi)容精選 ? 4132瀏覽 ? 0回復(fù)
文檔解析技術(shù)指南：從傳統(tǒng)Pipeline到端到端大模型

Baihai_IDP ? 3035瀏覽 ? 0回復(fù)
深度解析理解 Transformer 中的3大位置嵌入：從絕對(duì)位置嵌入到旋轉(zhuǎn)位置嵌入

智駐未來(lái) ? 3577瀏覽 ? 0回復(fù)
Transformer中的位置編碼技術(shù)：從理論到實(shí)踐的深度解析！

南夏的算法驛站 ? 2309瀏覽 ? 0回復(fù)
阿里Qwen3一夜封神！開(kāi)源模型跑出3倍推理速度，OpenAI沉默

AI博物院 ? 3059瀏覽 ? 0回復(fù)
Qwen3震撼發(fā)布，問(wèn)鼎開(kāi)源寶座，教你快速上手

小虎哦哦 ? 2512瀏覽 ? 0回復(fù)
Qwen3震撼發(fā)布，問(wèn)鼎開(kāi)源寶座，教你快速上手

小虎哦哦 ? 2599瀏覽 ? 0回復(fù)
基于阿里通義 Qwen3 混合推理模型才是優(yōu)化 RAG 和 MCP 的最佳范式

玄姐聊AGI ? 2283瀏覽 ? 0回復(fù)
阿里發(fā)布Qwen3 技術(shù)報(bào)告

柏企閱文 ? 751瀏覽 ? 0回復(fù)
阿里: 開(kāi)源Qwen3-Embedding Qwen3-Reranker系列模型

鴻煊的學(xué)習(xí)筆記 ? 1863瀏覽 ? 0回復(fù)
Qwen3發(fā)布！從代碼到對(duì)話，多模態(tài)大模型的全面進(jìn)化

Halo咯咯 ? 1002瀏覽 ? 0回復(fù)
Qwen3 Embedding 深度解析

鴻煊的學(xué)習(xí)筆記 ? 1505瀏覽 ? 0回復(fù)
Qwen3 Embedding模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)策略

大模型自然語(yǔ)言處理 ? 1103瀏覽 ? 0回復(fù)
為什么用Qwen3 embedding和rerank

熵減AI ? 646瀏覽 ? 0回復(fù)
Qwen3 Embedding 數(shù)據(jù)生成技術(shù)深度解析：從 LLM 驅(qū)動(dòng)合成到領(lǐng)域適配優(yōu)化

鴻煊的學(xué)習(xí)筆記 ? 296瀏覽 ? 0回復(fù)

鴻煊的學(xué)習(xí)筆記

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

為什么大家都開(kāi)始探索 MoE 架構(gòu)？MoE 相比 Dense 有什么好處？ 20h前發(fā)布
大模型訓(xùn)練流程及 SFT、RLHF 作用簡(jiǎn)述 20h前發(fā)布

熱門(mén)推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒(méi)問(wèn)題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開(kāi)源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開(kāi)源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

上一篇：阿里: 開(kāi)源Qwen3-Embedding Qwen3-Reranker系列模型

下一篇： Qwen3 Embedding 深度解析

社區(qū)精華內(nèi)容

目錄

<center id="m2gie"></center>

<ol id="m2gie"><table id="m2gie"></table></ol>