偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<var id="jm29i"><strong id="jm29i"></strong></var>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

機(jī)器學(xué)習(xí)中的數(shù)學(xué)意義

作者：雷鋒字幕組 2020-10-13 14:38:50

人工智能機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)中的用于聲稱性能的指標(biāo)標(biāo)準(zhǔn)很少被討論。由于在這個問題上似乎沒有一個明確的、廣泛的共識，因此我認(rèn)為提供我一直在倡導(dǎo)并盡可能遵循的標(biāo)準(zhǔn)可能會很有趣。

機(jī)器學(xué)習(xí)中的用于聲稱性能的指標(biāo)標(biāo)準(zhǔn)很少被討論。由于在這個問題上似乎沒有一個明確的、廣泛的共識，因此我認(rèn)為提供我一直在倡導(dǎo)并盡可能遵循的標(biāo)準(zhǔn)可能會很有趣。它源于這個簡單的前提，這是我的科學(xué)老師從中學(xué)開始就灌輸給我的：

科學(xué)報(bào)告的一般規(guī)則是，您寫下的每個數(shù)字都應(yīng)為“ 真”的，因?yàn)?ldquo; 真”的定義是什么。
讓我們來研究一下這對測試性能等統(tǒng)計(jì)量意味著什么。當(dāng)你在科學(xué)出版物中寫下以下陳述時：
測試準(zhǔn)確率為52.34%。你所表達(dá)的是，據(jù)你所知，你的模型在從測試分布中提取的未見數(shù)據(jù)上成功的概率在0.52335和0.52345之間。

這是一個非常強(qiáng)有力的聲明。

考慮你的測試集是從正確的測試分布中抽取的N個樣本IID組成的。成功率可以表示為一個二項(xiàng)式變量，其平均概率p由樣本平均值估計(jì)：p ≅ s / N

其標(biāo)準(zhǔn)差為：σ=√p(1-p)。
其中當(dāng)p=0.5時，其上限為0.5。
在正態(tài)近似下，估計(jì)量的標(biāo)準(zhǔn)差為：δ=σ/√N。

這個精度估計(jì)上的誤差δ 是這樣的，在最壞的情況下，有約50%的精度：

換句話說，為了保證上述報(bào)告中例子52.34%的準(zhǔn)確率，你的測試集的大小至少應(yīng)該在30M樣本的數(shù)量級上!這種粗略的分析很容易轉(zhuǎn)化為除了準(zhǔn)確率以外的任何可計(jì)算的數(shù)量，盡管不能轉(zhuǎn)化為像似然率或困惑度這樣的連續(xù)數(shù)字。

下面是一些常見的機(jī)器學(xué)習(xí)數(shù)據(jù)集的說明。

在ImageNet上可以合理地報(bào)告多少位數(shù)的精度?準(zhǔn)確率在80%左右，測試集是15萬張圖片：

√(0.8*0.2/150000) = 0.103%

這意味著你幾乎可以報(bào)告XX.X%的數(shù)字，而實(shí)際上每個人都是這樣做的。

MNIST呢，準(zhǔn)確率在99%：

√(0.99*0.01/10000) = 0.099%

噗，也報(bào)個XX.X%就OK了!

然而，最值得注意的是，在大多數(shù)情況下，性能數(shù)據(jù)并不是單獨(dú)呈現(xiàn)的，而是用來比較同一測試集上的多種方法。在這種情況下，實(shí)驗(yàn)之間的抽樣方差會被抵消，即使在樣本量較小的情況下，它們之間的準(zhǔn)確度差異也可能在統(tǒng)計(jì)學(xué)上很顯著。估計(jì)圖方差的一個簡單方法是執(zhí)行bootstrap重采樣。更嚴(yán)格、通常更嚴(yán)格的檢驗(yàn)包括進(jìn)行配對差異檢驗(yàn)或更普遍的方差分析。

報(bào)告超出其內(nèi)在精度的數(shù)字可能很具有極大的吸引力，因?yàn)樵谂c基線進(jìn)行比較的情況下，或者當(dāng)人們認(rèn)為測試集是一成不變的情況下，同時也不是從測試分布中抽取的樣本時，性能數(shù)字往往更加重要。當(dāng)在生產(chǎn)中部署模型時，這種做法會讓人感到驚訝，并且固定的測試集假設(shè)突然消失了，還有一些無關(guān)緊要的改進(jìn)。更普遍的是，這種做法會直接導(dǎo)致對測試集進(jìn)行過擬合。

那么，在我們的領(lǐng)域中數(shù)字為“真”意味著什么?好吧，這確實(shí)很復(fù)雜。對于工程師而言，很容易辯稱不應(yīng)該報(bào)告的尺寸超出公差?；蛘邔τ谖锢韺W(xué)家來說，物理量不應(yīng)超過測量誤差。對于機(jī)器學(xué)習(xí)從業(yè)者，我們不僅要應(yīng)對測試集的采樣不確定性，而且還要應(yīng)對獨(dú)立訓(xùn)練運(yùn)行，訓(xùn)練數(shù)據(jù)的不同初始化和改組下的模型不確定性。

按照這個標(biāo)準(zhǔn)，在機(jī)器學(xué)習(xí)中很難確定哪些數(shù)字是 "真 "的。解決辦法當(dāng)然是盡可能地報(bào)告其置信區(qū)間。置信區(qū)間是一種更精細(xì)的報(bào)告不確定性的方式，可以考慮到所有隨機(jī)性的來源，以及除簡單方差之外的顯著性檢驗(yàn)。它們的存在也向你的讀者發(fā)出信號，表明你已經(jīng)考慮過你所報(bào)告的內(nèi)容的意義，而不僅僅是你的代碼所得到的數(shù)字。用置信區(qū)間表示的數(shù)字可能會被報(bào)告得超出其名義上的精度，不過要注意的是，你現(xiàn)在必須考慮用多少位數(shù)來報(bào)告不確定性，正如這篇博文所解釋的那樣。一路走來都是烏龜。

數(shù)字少了，雜亂無章的東西就少了，科學(xué)性就強(qiáng)了。

避免報(bào)告超出統(tǒng)計(jì)學(xué)意義的數(shù)字結(jié)果，除非你為它們提供一個明確的置信區(qū)間。這理所當(dāng)然地被認(rèn)為是科學(xué)上的不良行為，尤其是在沒有進(jìn)行配對顯著性測試的情況下，用來論證一個數(shù)字比另一個數(shù)字好的時候。僅憑這一點(diǎn)就經(jīng)常有論文被拒絕。一個良好的習(xí)慣是對報(bào)告中帶有大量數(shù)字的準(zhǔn)確率數(shù)字始終持懷疑態(tài)度。還記得3000萬、30萬和30萬的經(jīng)驗(yàn)法則對最壞情況下作為“嗅覺測試”的統(tǒng)計(jì)顯著性所需樣本數(shù)量的限制嗎?它會讓你避免追逐統(tǒng)計(jì)上的“幽靈”。

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

責(zé)任編輯：未麗燕來源：雷鋒網(wǎng)

機(jī)器學(xué)習(xí)數(shù)據(jù)數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營