偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

“小數(shù)據(jù)”的統(tǒng)計學(xué)

大數(shù)據(jù)
科技公司的數(shù)據(jù)科學(xué)、關(guān)聯(lián)性分析以及機器學(xué)習(xí)等方面的活動大多圍繞著”大數(shù)據(jù)”,這些大型數(shù)據(jù)集包含文檔、 用戶、 文件、 查詢、 歌曲、 圖片等信息,規(guī)模數(shù)以千計,數(shù)十萬、 數(shù)百萬、 甚至數(shù)十億。過去十年里,處理這類型數(shù)據(jù)集的基礎(chǔ)設(shè)施、 工具和算法發(fā)展得非常迅速,并且得到了不斷改善。

[[152910]]

一、小數(shù)據(jù)來自哪里?

科技公司的數(shù)據(jù)科學(xué)、關(guān)聯(lián)性分析以及機器學(xué)習(xí)等方面的活動大多圍繞著”大數(shù)據(jù)”,這些大型數(shù)據(jù)集包含文檔、 用戶、 文件、 查詢、 歌曲、 圖片等信息,規(guī)模數(shù)以千計,數(shù)十萬、 數(shù)百萬、 甚至數(shù)十億。過去十年里,處理這類型數(shù)據(jù)集的基礎(chǔ)設(shè)施、 工具和算法發(fā)展得非常迅速,并且得到了不斷改善。大多數(shù)數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)從業(yè)人員就是在這樣的情況下積累了經(jīng)驗,逐漸習(xí)慣于那些用著順手的算法,而且在那些常見的需要權(quán)衡的問題上面擁有良好的直覺(經(jīng)常需要權(quán)衡的問題包括:偏差和方差,靈活性和穩(wěn)定性,手工特性提取和特征學(xué)習(xí)等等)。但小的數(shù)據(jù)集仍然時不時的出現(xiàn),而且伴隨的問題往往難以處理,需要一組不同的算法和不同的技能。小數(shù)據(jù)集出現(xiàn)在以下幾種情況:

  • 企業(yè)解決方案: 當您嘗試為一個人員數(shù)量相對有限的企業(yè)提供解決方案,而不是為成千上萬的用戶提供單一的解決方案。
  • 時間序列: 時間供不應(yīng)求!尤其是和用戶、查詢指令、會話、文件等相比較。這顯然取決于時間單位或采樣率,但是想每次都能有效地增加采樣率沒那么容易,比如你得到的標定數(shù)據(jù)是日期的話,那么你每天只有一個數(shù)據(jù)點。
  • 關(guān)于以下樣本的聚類模型:州市、國家、運動隊或任何總體本身是有限的情況(或者采樣真的很貴)?!緜渥ⅲ罕热鐚γ绹?0個州做聚類】
  • 多變量 A/B 測試: 實驗方法或者它們的組合會成為數(shù)據(jù)點。如果你正在考慮3個維度,每個維度設(shè)置4個配置項,那么將擁有12個點?!緜渥ⅲ罕热缭诰W(wǎng)頁測試中,選擇字體顏色、字體大小、字體類型三個維度,然后有四種顏色、四個字號、四個字型】
  • 任何罕見現(xiàn)象的模型,例如地震、洪水。

二、小數(shù)據(jù)問題

小數(shù)據(jù)問題很多,但主要圍繞高方差:

  • 很難避免過度擬合
  • 你不只過度擬合訓(xùn)練數(shù)據(jù),有時還過度擬合驗證數(shù)據(jù)。
  • 離群值(異常點)變得更危險。
  • 通常,噪聲是個現(xiàn)實問題,存在于目標變量中或在一些特征中。

三、如何處理以下情況

1-雇一個統(tǒng)計學(xué)家

我不是在開玩笑!統(tǒng)計學(xué)家是原始的數(shù)據(jù)科學(xué)家。當數(shù)據(jù)更難獲取時統(tǒng)計學(xué)誕生了,因而統(tǒng)計學(xué)家非常清楚如何處理小樣本問題。統(tǒng)計檢驗、參數(shù)模型、自舉法(Bootstrapping,一種重復(fù)抽樣技術(shù)),和其他有用的數(shù)學(xué)工具屬于經(jīng)典統(tǒng)計的范疇,而不是現(xiàn)代機器學(xué)習(xí)。如果沒有好的專業(yè)統(tǒng)計員,您可以雇一個海洋生物學(xué)家、動物學(xué)家、心理學(xué)家或任何一個接受過小樣本處理訓(xùn)練的人。當然,他們的專業(yè)履歷越接近您的領(lǐng)域越好。如果您不想雇一個全職統(tǒng)計員,那么可以請臨時顧問。但雇一個科班出身的統(tǒng)計學(xué)家可能是非常好的投資。

2-堅持簡單模型

更確切地說: 堅持一組有限的假設(shè)。預(yù)測建??梢钥闯梢粋€搜索問題。從初始的一批可能模型中,選出那個最適合我們數(shù)據(jù)的模型。在某種程度上,每一個我們用來擬合的點會投票,給不傾向于產(chǎn)生這個點的模型投反對票,給傾向于產(chǎn)生這個點的模型投贊成票。當你有一大堆數(shù)據(jù)時,你能有效地在一大堆模型/假設(shè)中搜尋,最終找到適合的那個。當你一開始沒有那么多的數(shù)據(jù)點時,你需要從一套相當小的可能的假設(shè)開始 (例如,含有 3個非零權(quán)重的線性模型,深度小于4的決策樹模型,含有十個等間隔容器的直方圖)。這意味著你排除復(fù)雜的設(shè)想,比如說那些非線性或特征之間相互作用的問題。這也意味著,你不能用太多自由度 (太多的權(quán)重或參數(shù))擬合模型。適當時,請使用強假設(shè) (例如,非負權(quán)重,沒有交互作用的特征,特定分布等等) 來縮小可能的假設(shè)的范圍。

小數(shù)據(jù)

任何瘋狂的模型都能擬合單點。

小數(shù)據(jù)

當我們有更多的數(shù)據(jù)點時,越來越少的模型可以擬合這些點。

小數(shù)據(jù)

圖像來自Chris Bishop的書《模式識別和機器學(xué)習(xí)》

3-盡可能使用更多的數(shù)據(jù)

您想構(gòu)建一個個性化的垃圾郵件過濾器嗎?嘗試構(gòu)建在一個通用模型,并為所有用戶訓(xùn)練這個模型。你正在為某一個國家的GDP建模嗎?嘗試用你的模型去擬合所有能得到數(shù)據(jù)的國家,或許可以用重要性抽樣來強調(diào)你感興趣的國家。你試圖預(yù)測特定的火山爆發(fā)嗎?……你應(yīng)該知道如何做了。

4-做試驗要克制

不要過分使用驗證集。如果你嘗試過許多不同的技術(shù),并使用一個保留數(shù)據(jù)集來對比它們,那么你應(yīng)該清楚這些結(jié)果的統(tǒng)計效力如何,而且要意識到對于樣本以外的數(shù)據(jù)它可能不是一個好的模型。

5-清洗您的數(shù)據(jù)

處理小數(shù)據(jù)集時,噪聲和異常點都特別煩人。為了得到更好的模型,清洗您的數(shù)據(jù)可能是至關(guān)重要的?;蛘吣梢允褂敏敯粜愿玫哪P停绕溽槍Ξ惓|c。(例如分位數(shù)回歸)

6-進行特征選擇

我不是顯式特征選擇的超級粉絲。我通常選擇用正則化和模型平均 (下面會展開講述)來防止過度擬合。但是,如果數(shù)據(jù)真的很少,有時顯式特征選擇至關(guān)重要。可以的話,***借助某一領(lǐng)域的專業(yè)知識來做特征選擇或刪減,因為窮舉法 (例如所有子集或貪婪前向選擇) 一樣容易造成過度擬合。

7-使用正則化

對于防止模型過擬合,且在不降低模型中參數(shù)實際數(shù)目的前提下減少有效自由度,正則化幾乎是神奇的解決辦法。L1正則化用較少的非零參數(shù)構(gòu)建模型,有效地執(zhí)行隱式特征選擇。而 L2 正則化用更保守 (接近零) 的參數(shù),相當于有效的得到了強零中心的先驗參數(shù) (貝葉斯理論)。通常,L2 擁有比L1更好的預(yù)測精度?!緜渥ⅲ篖2正則化的效果使權(quán)重衰減,人們普遍認為:更小的權(quán)值從某種意義上說,表示網(wǎng)絡(luò)的復(fù)雜度更低,對數(shù)據(jù)的擬合剛剛好,這個法則也叫做奧卡姆剃刀?!?/p>

小數(shù)據(jù)

L1正則化可以使得大多數(shù)參數(shù)變?yōu)榱?/p>

8 使用模型平均

模型平均擁有類似正則化的效果,它減少方差,提高泛化,但它是一個通用的技術(shù),可以在任何類型的模型上甚至在異構(gòu)模型的集合上使用。缺點是,為了做模型平均,結(jié)果要處理一堆模型,模型的評估變得很慢。bagging和貝葉斯模型平均是兩個好用的模型平均方法。

小數(shù)據(jù)

 

每條紅線是一個擬合模型。

小數(shù)據(jù)

平均這些高方差模型之后,我們得到一個平滑的曲線,它很好的擬合了原有數(shù)據(jù)點的分布。

9-嘗試貝葉斯建模和模型平均

這個依然不是我喜歡的技術(shù),但貝葉斯推理可能適合于處理較小的數(shù)據(jù)集,尤其是當你能夠使用專業(yè)知識構(gòu)造好的先驗參數(shù)時。

10-喜歡用置信區(qū)間

通常,除了構(gòu)建一個預(yù)測模型之外,估計這個模型的置信是個好主意。對于回歸分析,它通常是一個以點估計值為中心的取值范圍,真實值以95%的置信水平落在這個區(qū)間里。如果是分類模型的話,那么涉及的將是分類的概率。這種估計對于小數(shù)據(jù)集更加重要,因為很有可能模型的某些特征相比其它特征沒有更好的表達出來。如上所述的模型平均允許我們很容易得到在回歸、 分類和密度估計中做置信的一般方法。當評估您的模型時它也很有用。使用置信區(qū)間評估模型性能將助于你避免得出很多錯誤的結(jié)論。

小數(shù)據(jù)

你的數(shù)據(jù)不樂意出現(xiàn)在特征空間的某些區(qū)域,那么預(yù)測置信應(yīng)該有所反應(yīng)。

小數(shù)據(jù)

用ROCR得到的自舉法性能圖。

四、總結(jié)

上面講的有點多,但他們都圍繞著三個主題:約束建模,平滑和量化不確定性。這篇文章中所使用的圖片來自Christopher Bishop的書《模式識別和機器學(xué)習(xí)》

 

責(zé)任編輯:李英杰 來源: 36大數(shù)據(jù)
相關(guān)推薦

2015-10-29 09:56:23

小數(shù)據(jù)大數(shù)據(jù)統(tǒng)計學(xué)

2013-05-29 09:53:39

2015-07-29 11:27:28

大數(shù)據(jù)時代數(shù)據(jù)分析統(tǒng)計學(xué)

2014-08-12 15:03:57

大數(shù)據(jù)

2021-06-10 19:02:37

大數(shù)據(jù)統(tǒng)計學(xué)機器學(xué)習(xí)

2019-07-03 15:21:47

數(shù)據(jù)科學(xué)統(tǒng)計數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)

2015-08-17 09:43:08

2021-07-08 15:45:08

統(tǒng)計學(xué)AI深度學(xué)習(xí)

2024-10-05 16:00:00

谷歌開源模型

2024-11-21 10:07:40

2024-12-02 13:28:44

2023-08-24 17:14:05

統(tǒng)計學(xué)

2025-06-16 15:27:51

統(tǒng)計學(xué)空難事件計算

2017-01-19 08:35:51

數(shù)據(jù)科學(xué)深度學(xué)習(xí)機器學(xué)習(xí)

2020-08-28 13:49:13

數(shù)據(jù)統(tǒng)計學(xué)面試

2018-08-26 15:26:34

機器學(xué)習(xí)統(tǒng)計學(xué)深度學(xué)習(xí)

2020-11-10 06:12:55

數(shù)據(jù)科學(xué)統(tǒng)計學(xué)數(shù)據(jù)科學(xué)家

2021-01-29 14:38:36

數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家統(tǒng)計學(xué)

2019-08-19 09:31:47

數(shù)據(jù)機器學(xué)習(xí)統(tǒng)計學(xué)習(xí)

2019-07-09 14:27:43

數(shù)據(jù)科學(xué)統(tǒng)計學(xué)數(shù)據(jù)集
點贊
收藏

51CTO技術(shù)棧公眾號