偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<form id="5c7io"><strong id="5c7io"><object id="5c7io"></object></strong></form>

<meter id="5c7io"></meter>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

分類模型性能度量：錯誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點及F1度量的聯(lián)系與區(qū)別

南夏的算法驛站

發(fā)布于 2025-6-10 06:37

瀏覽

0收藏

對模型的泛化性能進行評估，不僅需要有效可行的試驗估計方法，還需要具有衡量模型泛化能力的評價標(biāo)準(zhǔn)，即性能度量。且在不同的任務(wù)中對比模型的性能時，使用不同的性能度量往往會導(dǎo)致不同的評判結(jié)果。在分類任務(wù)中，最常用的性能度量有錯誤率、精度、查準(zhǔn)率、查全率、F1分數(shù)及AUC-ROC曲線。

01 | 錯誤率與精度

(1) 錯誤率(error rate)是分類錯誤的樣本數(shù)占樣本總數(shù)（m）的比例。計算公式可表示為：

分類模型性能度量：錯誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

(2) 精度(accuracy)是分類正確的樣本數(shù)占樣本總數(shù)的比例。計算公式可表示為：

分類模型性能度量：錯誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

02 | 查準(zhǔn)率與查全率

(1) 二分類混淆矩陣：在二分類問題中，可將樣本根據(jù)其真實類別與模型預(yù)測類別的組合劃分為真正例、假正例、真反例與假反例四種情形。

分類模型性能度量：錯誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

(2) 查準(zhǔn)率（或準(zhǔn)確率）定義為：在預(yù)測結(jié)果為正例的所有樣例中，預(yù)測正確（真實情況也為正例）的概率。

分類模型性能度量：錯誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

(3) 查全率（或召回率）定義為：在真實情況為正例的所有樣例中，預(yù)測正確（預(yù)測結(jié)果也為正例）的概率。

(4) 查準(zhǔn)率與查全率是一對矛盾的變量。一般來說，查準(zhǔn)率高時，查全率往往偏低；反之亦然。

(a) 影響兩者大小變化的關(guān)鍵在于FP和FN。

分類模型性能度量：錯誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

(b) 假設(shè)分類閾值降低，則模型預(yù)測結(jié)果為正例的樣例數(shù)量將會增加（同時，模型預(yù)測結(jié)果為反例的樣例數(shù)量將會減少），此操作保證盡量不遺漏正例，即TP將會增加。

(b) 同時，此操作將會使真實情況為正例，但預(yù)測結(jié)果為反例的情況減少，即FN減少。

(c) 同時，此操作將會使真實情況為反例，但預(yù)測結(jié)果為正例的情況增加，即FP增加。

(d) 綜上所述，在分類閾值降低的情況下將會出現(xiàn)，TP變大、FN變小和FP變大的情況。根據(jù)查全率和查準(zhǔn)率的比值公式可知，二者的比值將會減小。這意味著，查準(zhǔn)率P減小了，而查全率R增大了，即二者并非同時變大或變小，而是一者增大則另一者減小。此即證明查準(zhǔn)率與查全率的矛盾所在。

(5) 高查準(zhǔn)率要求更嚴格的篩選，希望模型在預(yù)測正例時盡量準(zhǔn)確，需設(shè)置較高的分類閾值，如在病情診斷中，醫(yī)生傾向于更嚴格的判斷以避免誤診（高查準(zhǔn)率），但也可能遺漏部分真實患者（低查全率）。

(6) 高查全率需要放寬篩選，希望盡可能捕獲所有正例，需降低分類閾值，以將更多樣例標(biāo)記為正例,例如，在逃犯搜捕中，警方放寬篩選條件以“寧可錯查一千”的策略（高查全率），但會誤傷大量無辜者（低查準(zhǔn)率）。

03 | P-R曲線與平衡點

(1) P-R曲線可視化了不同分類閾值下查準(zhǔn)率與查全率的動態(tài)關(guān)系，為解決二者的矛盾，為模型調(diào)優(yōu)、閾值選擇及場景適配提供了核心工具。

(2) 繪制P-R曲線

(a) 根據(jù)模型預(yù)測結(jié)果對樣例進行排序，排在前面的是模型認為“最可能”是正例的樣本，排在后面的是模型認為“最不可能”是正例的樣本。

(b) 按此順序逐個把樣本作為正例進行預(yù)測（即從大到小將每個樣本的預(yù)測結(jié)果作為分類閾值），則每次可以計算出當(dāng)前的查全率和查準(zhǔn)率。

(c) 最后以查準(zhǔn)率為縱軸、查全率為橫軸作圖，即可得到查準(zhǔn)率-查全率曲線，簡稱P-R曲線。

分類模型性能度量：錯誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

(3) P-R曲線能直觀地顯示出模型在樣本總體上的查全率、查準(zhǔn)率。

(a) 若一個模型的P-R曲線被另一個模型的P-R曲線完全包裹，則可斷言后者的性能優(yōu)于前者。如上圖中的模型A的性能優(yōu)于模型C。

(b) 若兩個模型的P-R曲線發(fā)生交叉，如上圖中的A和B，則無法直接斷定兩者孰優(yōu)孰劣。一個比較合理的判斷依據(jù)則是比較P-R曲線下面積的大小，能在一定程度上表征模型在查準(zhǔn)率和查全率上取得相對“雙高”的比例，但這個值不容易估算。

(4) 為能綜合考慮查準(zhǔn)率、查全率的性能度量，設(shè)計了“平衡點”（Break-Event Point,BEP）這一度量。

(a) BEP是“查準(zhǔn)率=查全率”時的取值。如上圖中模型C的BEP是0.64。

(b) 故基于BEP的比較，可以認為模型A的性能優(yōu)于模型B。

(c) 但BEP過于簡化，在實際應(yīng)用中具有局限性。

04 | F1度量

(1)為進一步解決查準(zhǔn)率與查全率之間的矛盾，相對于簡潔的BEP度量，F(xiàn)1度量更為常用。F1是基于查準(zhǔn)率和查全率的調(diào)和平均定義的。

(2) 調(diào)和平均數(shù)

分類模型性能度量：錯誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

本文轉(zhuǎn)載自??南夏的算法驛站??，作者：趙南夏

標(biāo)簽

已于2025-6-10 09:36:41修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

OpenAI 是如何估計與分析模型計算量的？

angel ? 4085瀏覽 ? 0回復(fù)
什么監(jiān)督學(xué)習(xí)，無監(jiān)督學(xué)習(xí)與深度學(xué)習(xí)？它們之間有什么區(qū)別和聯(lián)系？

AI探索時代 ? 1.1w瀏覽 ? 0回復(fù)
大模型的分類——生成式大模型和判別式大模型聯(lián)系與區(qū)別

AI探索時代 ? 4377瀏覽 ? 0回復(fù)
三個臭皮匠與一個諸葛亮：覆蓋率與正確率的博弈

魯班模錘1 ? 2303瀏覽 ? 0回復(fù)
微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡

amei2000go ? 2976瀏覽 ? 0回復(fù)
大模型的記憶困境：平衡持續(xù)學(xué)習(xí)與災(zāi)難性遺忘

芝士AI吃魚 ? 6389瀏覽 ? 0回復(fù)
RAG與本地知識庫，向量數(shù)據(jù)庫，以及知識圖譜的聯(lián)系與區(qū)別

AI探索時代 ? 5975瀏覽 ? 0回復(fù)
人工智能的未來——AI Agent和Agentic AI的區(qū)別與聯(lián)系

AI探索時代 ? 2936瀏覽 ? 0回復(fù)
微軟推出MixLLM，全局混合精度量化方法助力模型效能飛躍

AIPaperDaily ? 2892瀏覽 ? 0回復(fù)
大模型之嵌入與向量化的區(qū)別是什么？

AI探索時代 ? 2494瀏覽 ? 0回復(fù)
分布式訓(xùn)練通信優(yōu)化，重疊通信，參數(shù)子集同步，低精度外梯度量化

AI研究前瞻 ? 2577瀏覽 ? 0回復(fù)
強化學(xué)習(xí)與大模型后訓(xùn)練：DeepSeek R1 如何獲得推理能力？

lintoms ? 4921瀏覽 ? 0回復(fù)
DeepSeek-R1技術(shù)大揭秘：論文核心原理拆解與模型性能突破關(guān)鍵

arnoldzhw ? 3702瀏覽 ? 0回復(fù)
DeepSeek R1與Qwen大模型，構(gòu)建Agentic RAG全攻略

小虎哦哦 ? 6554瀏覽 ? 0回復(fù)
大模型對決：DeepSeek R1與o3-mini

丟翅膀的魚 ? 2627瀏覽 ? 0回復(fù)
Grok 3 與 DeepSeek-R1 是怎么學(xué)會思考的？

機器學(xué)習(xí)與數(shù)學(xué) ? 3626瀏覽 ? 0回復(fù)
三種主流智能體協(xié)議對比，一文看懂MCP、ANP、A2A的概念、區(qū)別與聯(lián)系

王吉偉自頻道 ? 5201瀏覽 ? 0回復(fù)
分類模型性能度量：錯誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點及F1度量的聯(lián)系與區(qū)別

南夏的算法驛站 ? 1131瀏覽 ? 0回復(fù)
機器學(xué)習(xí)模型與深度學(xué)習(xí)模型的區(qū)別與聯(lián)系

每天五分鐘玩轉(zhuǎn)人工智能 ? 617瀏覽 ? 0回復(fù)

南夏的算法驛站

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

【深度學(xué)習(xí)】批歸一化（BatchNorm）與層歸一化（LayerNorm）：技術(shù)背景、原理及基于Pytorch的代碼詳解 2025-06-23 06:40:25發(fā)布
分類模型性能度量：錯誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點及F1度量的聯(lián)系與區(qū)別 2025-05-14 00:05:30發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

上一篇：分類模型性能度量：錯誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點及F1度量的聯(lián)系與區(qū)別

下一篇：【深度學(xué)習(xí)】批歸一化（BatchNorm）與層歸一化（LayerNorm）：技術(shù)背景、原理及基于Pytorch的代碼詳解

社區(qū)精華內(nèi)容

目錄

<meter id="jaksh"><span id="jaksh"></span></meter>