偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<meter id="eek1g"><span id="eek1g"></span></meter>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Top-k Accuracy：模型優(yōu)化策略不一定徒勞無功原創(chuàng)

發(fā)布于 2024-10-15 15:33

瀏覽

0收藏

構(gòu)建模型通常是一個迭代過程，給定數(shù)據(jù)集：

訓(xùn)練模型
評估模型
改進(jìn)，直到滿意為止

Top-k Accuracy：模型優(yōu)化策略不一定徒勞無功-AI.x社區(qū)

你的改進(jìn)策略不一定徒勞無功！

如何評估模型是否進(jìn)步了呢？通常會使用某些性能指標(biāo)來評估改進(jìn)策略的有效性。

Top-k Accuracy：模型優(yōu)化策略不一定徒勞無功-AI.x社區(qū)

然而，在多分類問題中，當(dāng)使用“Accuracy”指標(biāo)評估改進(jìn)策略有效性時，通常帶有欺騙性。

Top-k Accuracy：模型優(yōu)化策略不一定徒勞無功-AI.x社區(qū)

換句話，某些改進(jìn)策略其實(shí)已經(jīng)提升模型性能了，但通過“Accuracy”這個指標(biāo)沒有反映出來。

“Accuracy”陷阱

這里的“Accuracy”其實(shí)應(yīng)該是“Top-1 Accuracy”。

在多分類問題中，Accuracy由具有最高概率值的標(biāo)簽決定。

Top-k Accuracy：模型優(yōu)化策略不一定徒勞無功-AI.x社區(qū)

實(shí)際的標(biāo)簽雖然可能并不是模型預(yù)測概率最高的標(biāo)簽，但它位于模型輸出的前“k”個標(biāo)簽之中。

如下面圖，實(shí)際的標(biāo)簽（類別C）并不是概率最高的標(biāo)簽，但它至少在前2個預(yù)測概率最高的標(biāo)簽之中（類別B和類別C）：

Top-k Accuracy：模型優(yōu)化策略不一定徒勞無功-AI.x社區(qū)

如果上一個版本中，類別C的輸出概率是最低的，就像下面所示：

Top-k Accuracy：模型優(yōu)化策略不一定徒勞無功-AI.x社區(qū)

雖然在這兩種情況下，最終的預(yù)測結(jié)果都是錯誤的(模型預(yù)測標(biāo)簽C不是最高概率)。

但是，在從“版本1”迭代到“版本2”的過程中，通過使用一些模型改進(jìn)技術(shù)，我們確實(shí)取得了實(shí)質(zhì)性的進(jìn)步(從倒數(shù)第一上升到第二)。

盡管如此，準(zhǔn)確率（Accuracy）完全忽略了這一點(diǎn)，因?yàn)樗魂P(guān)注概率最高的標(biāo)簽。

Top-k Accuracy：模型優(yōu)化策略不一定徒勞無功-AI.x社區(qū)

解決辦法：top-k Accuracy

在模型迭代過程中，“top-k Accuracy”可能會持續(xù)提高，這反映了性能的提升。然而，準(zhǔn)確率可能會在一段時間內(nèi)保持不變，如下所示：

Top-k Accuracy：模型優(yōu)化策略不一定徒勞無功-AI.x社區(qū)

所以，top-k Accuracy常用于評估模型改進(jìn)策略，模型最終性能仍然要通過top-1 Accuracy評估。

在Scikit-learn中也提供了top-k Accuracy評估指標(biāo)。

Top-k Accuracy：模型優(yōu)化策略不一定徒勞無功-AI.x社區(qū)

在二分類問題中，因?yàn)橹挥袃蓚€類別，模型的輸出通常只是一個概率值，用于表示正樣本的概率，使用準(zhǔn)確率、精確率、召回率就夠用了。

性能指標(biāo)vs損失函數(shù)

最后再說一下模型性能評估指標(biāo)和損失值的區(qū)別。

損失值用于訓(xùn)練過程中，衡量模型預(yù)測結(jié)果與真實(shí)標(biāo)簽之間的差異，指導(dǎo)模型的參數(shù)更新。

模型性能指標(biāo)主要用于評估模型的泛化能力，即模型在未見過的數(shù)據(jù)上的表現(xiàn)。通常衡量模型的預(yù)測準(zhǔn)確性、精確率、召回率、F1 分?jǐn)?shù)等。

本文轉(zhuǎn)載自公眾號人工智能大講堂

原文鏈接：??https://mp.weixin.qq.com/s/Zwf_NsiVQtcybbmlTMwFZw???

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

構(gòu)建模型

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

大模型一定就比小模型好？谷歌的這項(xiàng)研究說不一定

輕薄滴假象 ? 2998瀏覽 ? 0回復(fù)
排序模型一定要嘗試的特征交叉技巧，多場景驗(yàn)證有效

海因斯DK ? 6089瀏覽 ? 0回復(fù)
RePrompt：提示詞自動化優(yōu)化策略

大語言模型論文跟蹤 ? 5049瀏覽 ? 0回復(fù)
不一定！

Syrupup ? 3938瀏覽 ? 0回復(fù)
排序模型一定要嘗試的特征交叉技巧，多場景驗(yàn)證有效

海因斯DK ? 2814瀏覽 ? 0回復(fù)
RAG高級優(yōu)化：檢索策略探討Fusion, HyDE安排上(含代碼)

恰似驚鴻 ? 4459瀏覽 ? 0回復(fù)
這次真的不一樣

探索AGI ? 2437瀏覽 ? 0回復(fù)
試試以下RAG優(yōu)化策略大幅提升問答效果

AI博物院 ? 8850瀏覽 ? 0回復(fù)
提升RAG性能的全攻略：優(yōu)化檢索增強(qiáng)生成系統(tǒng)的策略大揭秘

Halo咯咯 ? 6365瀏覽 ? 0回復(fù)
推進(jìn)醫(yī)療人工智能：評估 OpenAI 的 o1-Preview 模型并優(yōu)化推理策略

Halo咯咯 ? 2709瀏覽 ? 0回復(fù)
如何優(yōu)化大型語言模型（LLM）的分塊策略

51CTO內(nèi)容精選 ? 2836瀏覽 ? 0回復(fù)
DeepSeek開源優(yōu)化并行策略，提升訓(xùn)練和通信效率

Aceryt ? 2527瀏覽 ? 0回復(fù)
K-LoRA巧用Top-K策略，讓風(fēng)格與主體完美融合

angel ? 2353瀏覽 ? 0回復(fù)
為什么說JSON不一定是LLM結(jié)構(gòu)化輸出的最佳選擇？

Baihai_IDP ? 2210瀏覽 ? 0回復(fù)
為什么 RAG 一定需要 Rerank？

玄姐聊AGI ? 2473瀏覽 ? 0回復(fù)
推理大模型并非一定要推理

NLP前沿1 ? 1084瀏覽 ? 0回復(fù)
為什么 RAG 一定需要 Rerank？

玄姐聊AGI ? 1521瀏覽 ? 0回復(fù)
智駕｜一文讀懂大模型訓(xùn)練的技術(shù)框架和優(yōu)化策略

數(shù)字化助推器 ? 1178瀏覽 ? 0回復(fù)
一定條件下，文本嵌入向量可“近乎完美地”還原

Baihai_IDP ? 74瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

訓(xùn)練大模型時，顯存都哪去了？ 2024-11-19 12:41:34發(fā)布
生產(chǎn)環(huán)境測試模型的四種方法 2024-11-15 11:22:05發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇：【大模型】圖解Transformers Decoder

下一篇：對連續(xù)概率分布的一個常見誤解

社區(qū)精華內(nèi)容

目錄