偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<s id="walbf"></s>

^{<blockquote id="walbf"></blockquote>}

<cite id="walbf"><rp id="walbf"><pre id="walbf"></pre></rp></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

學(xué)會LLM思維：語料質(zhì)量的自評估原創(chuàng)

發(fā)布于 2025-4-22 07:24

瀏覽

0收藏

日常工作中面對各類的作業(yè)，如何通過工程化的設(shè)計，充分利用LLM的邏輯推理能力，是AI思維的最直接體現(xiàn)。今天開始小編將帶著大家，遵循AI思維來解決日常作業(yè)中的各種問題。今天探討的實際場景是語料質(zhì)量評估。在垂類應(yīng)用或者RAG應(yīng)用，將企業(yè)知識或者領(lǐng)域知識轉(zhuǎn)化為語料是最為關(guān)鍵的一環(huán)，但是如何來確定語料的質(zhì)量作為關(guān)鍵。

LLM的訓(xùn)練過程中因為其預(yù)訓(xùn)練能力與困惑度（PPL）相關(guān)，因此可以從不同的數(shù)據(jù)來源中分別提取困惑度排名靠前和排名靠后的語料，交予大模型自己去評估和分析，這些導(dǎo)致困惑度差異巨大的歸因，進(jìn)而得出評估標(biāo)準(zhǔn)。

學(xué)會LLM思維：語料質(zhì)量的自評估-AI.x社區(qū)

上述的實驗如下圖所示的確得出了與LLM性能相關(guān)的13個質(zhì)量標(biāo)準(zhǔn)：準(zhǔn)確性、連貫性、創(chuàng)造性、語法多樣性、知識新穎性、語言一致性、原創(chuàng)性、專業(yè)性、語義密度、敏感性、結(jié)構(gòu)標(biāo)準(zhǔn)化、風(fēng)格一致性和主題聚焦，并形成了一個名為總體評分的綜合標(biāo)準(zhǔn)。

學(xué)會LLM思維：語料質(zhì)量的自評估-AI.x社區(qū)

小編點評：通過大模型完成語料質(zhì)量標(biāo)準(zhǔn)的分類提取。在日常其余的企業(yè)應(yīng)用中，也可以將差異較大的語料通過滿血的大模型去協(xié)助提煉質(zhì)量評估標(biāo)準(zhǔn)。當(dāng)然如何構(gòu)建提示詞，引導(dǎo)大模型給出正確的結(jié)論十分重要。下面為提示詞示例，提醒大模型按照質(zhì)量評估細(xì)項進(jìn)行逐一打分。當(dāng)然這個過程需要和人類專家進(jìn)行交叉對比驗證，最終其與人類偏好的共識度超過95%。

Please carefully read and analyze the following text, score it based on fourteen evaluation criteria and
their respective scoring definitions. Additionally, select the most appropriate category from the fifteen
domain types that best matches the content of the text. Let’s think step by step.


Text:{text}


Domain Types: [A]Medicine [B]Finance [C]Law [D]Education [E]Technology [F]Entertainment
[G]Mathematics [H]Coding [I]Government [J]Culture [K]Transportation [L]Retail E-commerce
[M]Telecommunication [N]Agriculture [O]Other


The Higher The Score, The Evaluation Criteria:
[1]Accuracy: the fewer grammar, referential, and spelling errors the text contains, and the more accurate
its expression. _/5
[2]Coherence: the more fluent the content is expressed, and the stronger its logical coherence. _/5
[3]Language Consistency: the more consistent the use of language in the text, with less mixing of
languages. _/5
[4]Semantic Density: the greater the proportion of valid information in the text, with less irrelevant or
redundant information. _/5
[5]Knowledge Novelty: the more novel and cutting-edge the knowledge provided by the text, with more
insightful views on the industry or topic. _/5
[6]Topic Focus: the more the text content focuses on the topic, with less deviation from the main theme.
_/5
[7]Creativity: the more creative elements are shown in the text’s expression. _/5
[8]Professionalism: the more professional terminology appears in the text, with more accurate use of
terms and more professional domain-specific expression. _/5
[9]Style Consistency: the more consistent the style of the text, with proper and appropriate style
transitions. _/5
[10]Grammatical Diversity: the more varied and correct the grammatical structures used in the text,
showing a richer language expression ability. _/5
[11]Structural Standardization: the clearer the structure followed by the text and the more standardized
its format. _/5
[12]Originality: the fewer repetitions and similar content in the text. _/5
[13]Sensitivity: the more appropriately sensitive topics are handled in the text, with less inappropriate
content. _/5
[14]Overall Score: the better the comprehensive evaluation of the text, with superior performance in all
aspects._/5

為了讓質(zhì)量評估更加具有廣泛性，研究人員引入15種數(shù)據(jù)常見的領(lǐng)域類型，按照如上的方式構(gòu)建一套微調(diào)數(shù)據(jù)集。

學(xué)會LLM思維：語料質(zhì)量的自評估-AI.x社區(qū)

最后利用這些質(zhì)量評估的語料，微調(diào)小模型形成DataMan模型，DataMan主要用于質(zhì)量評估打分。

學(xué)會LLM思維：語料質(zhì)量的自評估-AI.x社區(qū)

通過上圖可以觀測到DataMan對于不同數(shù)據(jù)來源在不同質(zhì)量評估項的打分情況。行代表著每種質(zhì)量評估標(biāo)準(zhǔn)，而每一列代表著來源為“自然爬取”，質(zhì)量的確較為一般。

最后為了證明DataMan的有效性，研究人員對Slimpajama語料庫中的447B個標(biāo)記進(jìn)行了質(zhì)量評分和領(lǐng)域類型標(biāo)注，創(chuàng)建了DataPajama數(shù)據(jù)集。

學(xué)會LLM思維：語料質(zhì)量的自評估-AI.x社區(qū)

通過DataMan對數(shù)據(jù)集的打分和分析可以觀測出編碼（Coding）由于其固定的語法格式，表現(xiàn)出最少的語法多樣性和較高的結(jié)構(gòu)標(biāo)準(zhǔn)化。來自專業(yè)領(lǐng)域的數(shù)據(jù)展示了較強的原創(chuàng)性和語義密度，具有較低的內(nèi)容冗余和有意義的內(nèi)容，提升了模型在垂直領(lǐng)域的表現(xiàn)。政府和娛樂領(lǐng)域表現(xiàn)出較低的敏感性，這可能與社交媒體上的言論自由和政治敏感話題有關(guān)，幫助模型過濾有害言論和敏感內(nèi)容。總體而言，專業(yè)領(lǐng)域往往能獲得更高的總體評分，而長尾領(lǐng)域和一般領(lǐng)域則相對較低。

從DataPajama中采樣了一個30B標(biāo)記的子集，并從頭開始訓(xùn)練了Sheared-LLaMA-1.3B語言模型。在十個下游任務(wù)中，使用DataMan采樣的13個質(zhì)量標(biāo)準(zhǔn)訓(xùn)練的Sample-with-DataMan模型在上下文學(xué)習(xí)性能上超越了現(xiàn)有的最先進(jìn)（SOTA）基準(zhǔn)，提高了0.4%到4.3%，展示了這些標(biāo)準(zhǔn)的有效性。隨著總體評分從1到5的提升，ICL性能和PPL都顯著改善，驗證了質(zhì)量排序的必要性。

為了進(jìn)一步測試成果，研究人員采樣更大60B數(shù)據(jù)子集，并將構(gòu)造出來的最強的Sample-with-DataMan模型（總體評分l=5）與現(xiàn)有的SOTA基準(zhǔn)進(jìn)行了比較。

PPL和ICL性能并不完全一致。
在指令跟隨任務(wù)，所有使用DataMan的Sample-with-DataMan模型的勝率都遠(yuǎn)遠(yuǎn)超過了現(xiàn)有的SOTA基準(zhǔn)，勝率在67.1%到78.5%之間。
繼續(xù)使用DataMan注釋的高評分、領(lǐng)域特定數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練最強的總體評分l=5模型，在特定領(lǐng)域取得了優(yōu)越的ICL性能，從而驗證了DataMan的領(lǐng)域混合能力。
對DataPajama數(shù)據(jù)集進(jìn)行了深入分析，探索了來自不同來源的DataMan質(zhì)量評分的分布，并檢查了每個質(zhì)量評分1、2、3、4、5對應(yīng)的原始文檔。

PPL（Perplexity，困惑度）是一種衡量語言模型預(yù)測能力的指標(biāo)，常用于評估語言模型在給定文本的條件下生成下一個單詞的能力。具體來說，困惑度越低，表示模型在處理文本時更能準(zhǔn)確預(yù)測下一個單詞或字符，因此它的性能越好。反之表示模型的預(yù)測能力較差。在訓(xùn)練過程中，PPL用來評估模型的語言理解和生成能力，它反映了模型對于語言結(jié)構(gòu)的理解和對未來單詞預(yù)測的“困惑”程度。
ICL（上下文學(xué)習(xí)）是指模型在推理或生成過程中，如何根據(jù)給定的上下文進(jìn)行學(xué)習(xí)和適應(yīng)。它不僅關(guān)注模型對語法或語義的理解，還強調(diào)模型根據(jù)上下文信息靈活地調(diào)整輸出，比如根據(jù)任務(wù)中的提示、問題背景或用戶的需求來生成更合適的內(nèi)容。ICL 反映的是模型的下游泛化能力，即它在處理特定任務(wù)時如何靈活適應(yīng)和推理。

小編認(rèn)為這篇論文給出的幾點重要提示：

充分利用“滿血”大模型的邏輯推理和總結(jié)能力，讓其在語料標(biāo)注領(lǐng)域中扮演先鋒的角色。大模型不是萬能的，但是可以在知識密集型的業(yè)務(wù)領(lǐng)域中完成第一道初篩的工作，減輕后續(xù)人類介入和標(biāo)注的工作量。
利用精校好的語料庫，選擇市面上優(yōu)質(zhì)的開源大模型（1B-7B）進(jìn)行專業(yè)領(lǐng)域的子任務(wù)微調(diào)性價比最高，在資源和效果之間達(dá)到新的平衡點。

本文轉(zhuǎn)載自??魯班模錘??，作者：龐德公

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

語料質(zhì)量

已于2025-4-22 09:33:54修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

LLM超長上下文查詢-性能評估實戰(zhàn)

ermulong ? 3251瀏覽 ? 0回復(fù)
Arena-Hard：開源高質(zhì)量大模型評估基準(zhǔn)

Aceryt ? 4726瀏覽 ? 0回復(fù)
AI學(xué)會隱藏思維暗中推理！不依賴人類經(jīng)驗解決復(fù)雜任務(wù)，更黑箱了

Crystalcxt ? 2576瀏覽 ? 0回復(fù)
LLM 評估匯總：真的吊打 LLaMA-3，媲美 GPT-4 嗎？

amei2000go ? 7051瀏覽 ? 0回復(fù)
LLM超長上下文查詢-性能評估實戰(zhàn)

ermulong ? 3115瀏覽 ? 0回復(fù)
應(yīng)用程序任務(wù)驅(qū)動：詳細(xì)解析LLM的評估指標(biāo)

51CTO內(nèi)容精選 ? 3914瀏覽 ? 0回復(fù)
難倒吳恩達(dá)的LLM評估，有解嗎？

ermulong ? 2649瀏覽 ? 0回復(fù)
MMLU-Pro：新的 LLM 評估基準(zhǔn)

amei2000go ? 1.2w瀏覽 ? 0回復(fù)
LLM 預(yù)訓(xùn)練語料、預(yù)處理和數(shù)據(jù)集索引、加載總結(jié)

amei2000go ? 6654瀏覽 ? 0回復(fù)
OpenAI o1引發(fā)的思維鏈思考：思維鏈提示啟發(fā)大模型推理

angel ? 4034瀏覽 ? 0回復(fù)
如何讓LLM學(xué)會"試錯" | LLM竟然學(xué)會了"自我反省"，它真的有自我意識嗎？

sbf_2000 ? 2811瀏覽 ? 0回復(fù)
Scaling laws在視覺自回歸模型上失效了？谷歌聯(lián)合MIT發(fā)布Fluid：文生圖質(zhì)量刷新紀(jì)錄！

angel ? 3365瀏覽 ? 0回復(fù)
LLM合集：谷歌推出逆向思維RevThink框架，大模型零樣本性能提升13.53%

AIPaperDaily ? 3123瀏覽 ? 0回復(fù)
你的LLM評估方法過時了嗎？這三個范式轉(zhuǎn)變不容錯過

Baihai_IDP ? 2338瀏覽 ? 0回復(fù)
LLM Agent 協(xié)作評估難？這 3 款評估監(jiān)控工具來幫忙

Baihai_IDP ? 2646瀏覽 ? 0回復(fù)
多模態(tài)模型思維鏈評估白皮書：反思機制成勝負(fù)手，感知任務(wù)竟被CoT拖后腿

angel ? 3210瀏覽 ? 0回復(fù)
自回歸模型迎來全能選手！FlexVAR一模型通吃圖像生成/修補，推理速度與質(zhì)量自由調(diào)節(jié)

angel ? 2142瀏覽 ? 0回復(fù)
LLM合集：微軟發(fā)布基于過程的自獎勵方法顯著提升數(shù)學(xué)推理性能

AIPaperDaily ? 1780瀏覽 ? 0回復(fù)
S1-Bench：評估大型推理模型中的系統(tǒng) 1 思維

芝士AI吃魚 ? 1167瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

ALPHAONE：從快到慢，還是從慢到快 7天前發(fā)布
Meta AI發(fā)布革命性V-JEPA 2 2025-06-15 23:41:42發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇：扒一扒最近較火的MCP

下一篇： NVIDIA發(fā)布Parakeet TDT 0.6B-v2：ASR新標(biāo)桿

社區(qū)精華內(nèi)容

目錄

<kbd id="vgm1b"><tr id="vgm1b"></tr></kbd>