偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

理解數(shù)據(jù)類型:每個(gè)數(shù)據(jù)科學(xué)愛好者都應(yīng)該知道的數(shù)據(jù)結(jié)構(gòu)

大數(shù)據(jù) 數(shù)據(jù)分析
現(xiàn)在的大量數(shù)據(jù)中,大部分是非結(jié)構(gòu)化的,即沒有預(yù)定義模型/結(jié)構(gòu)的數(shù)據(jù)。論及結(jié)構(gòu)數(shù)據(jù),主要是指表格數(shù)據(jù)(矩形結(jié)構(gòu)數(shù)據(jù)),即數(shù)據(jù)庫中的行和列。

本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)。

技術(shù)快速發(fā)展,各種學(xué)科中積極使用定量分析,產(chǎn)生了更大量的數(shù)據(jù),數(shù)據(jù)分析的作用已經(jīng)超過了最初的預(yù)期。由于基礎(chǔ)設(shè)備不斷進(jìn)步,現(xiàn)在可以擁有多個(gè)數(shù)據(jù)源,如傳感器、CRMs、事件、文本、圖像、音頻和視頻。

[[357497]]

現(xiàn)在的大量數(shù)據(jù)中,大部分是非結(jié)構(gòu)化的,即沒有預(yù)定義模型/結(jié)構(gòu)的數(shù)據(jù)。如圖像,是像素的集合,文本數(shù)據(jù)是沒有預(yù)定義儲存模型的字符序列,以及用戶在Web應(yīng)用程序上操作的點(diǎn)擊流。非結(jié)構(gòu)化數(shù)據(jù)所需要處理的地方在于,需要通過預(yù)處理等方法轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),以便對結(jié)構(gòu)化數(shù)據(jù)應(yīng)用統(tǒng)計(jì)方法獲取原始數(shù)據(jù)中的重要信息。

論及結(jié)構(gòu)數(shù)據(jù),主要是指表格數(shù)據(jù)(矩形結(jié)構(gòu)數(shù)據(jù)),即數(shù)據(jù)庫中的行和列。這種表格數(shù)據(jù)包含兩種類型的結(jié)構(gòu)化數(shù)據(jù):

1. 數(shù)值數(shù)據(jù)

用數(shù)字所衡量表述的數(shù)據(jù),進(jìn)一步分為兩種表示形式:

  • 連續(xù)型——數(shù)據(jù)可以表示時(shí)間間隔中的任何值,例如汽車的速度、心率等。
  • 離散型——只能接受整數(shù)值的數(shù)據(jù),如計(jì)數(shù)值。例如,投擲一枚硬幣20次,正面朝上的次數(shù)。

2. 分類數(shù)據(jù)

只能表示可能類別中一組特定的數(shù)據(jù)。也稱為枚舉、因子或名詞性因子。

  • 二進(jìn)制型,這種分類數(shù)據(jù)是二進(jìn)制分類的一種特殊情況,即只有0/1或者說真/假兩個(gè)值。
  • 有序型,有明確前后順序的分類數(shù)據(jù)。例如對一家餐館的五星評價(jià)制。(1、2、3、4、5)。

那么問題來了,為什么需要了解這些數(shù)據(jù)類型呢?因?yàn)椴恢罃?shù)據(jù)類型,將會(huì)不知道如何應(yīng)用正確的統(tǒng)計(jì)方法處理這類數(shù)據(jù)。舉例來說,如果數(shù)據(jù)框中有一列有序號數(shù)據(jù),就必須要進(jìn)行預(yù)處理,在Python中,scikit-learn包提供了一個(gè)序號編碼器來處理序號數(shù)據(jù)。

下一步是深入研究結(jié)構(gòu)化數(shù)據(jù),以及如何使用第三方工具包和庫來操作這些結(jié)構(gòu)。我們主要有兩種類型的結(jié)構(gòu)或數(shù)據(jù)儲存模型:

  • 矩形
  • 非矩形

矩形數(shù)據(jù)

數(shù)據(jù)科學(xué)中大多數(shù)的分析對象都是針對二位矩形數(shù)據(jù)(如數(shù)據(jù)框、電子表格、CSV文件或是數(shù)據(jù)庫表格)完成。

矩形數(shù)據(jù)主要由表示數(shù)據(jù)類型的行和表示列的變量/特性組成。數(shù)據(jù)框是一種特殊的數(shù)據(jù)結(jié)構(gòu),采用表格格式,提供了高效的數(shù)據(jù)操作可能。數(shù)據(jù)框是最常用的數(shù)據(jù)結(jié)構(gòu),下方是一些重要的定義:

  • 數(shù)據(jù)框:用于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)模型的有效操作和應(yīng)用的矩形數(shù)據(jù)結(jié)構(gòu)(如電子表格)。
  • 特性:數(shù)據(jù)框的列值通常被稱為特性。同義詞有(屬性、輸入值、預(yù)測值、變量)。
  • 結(jié)果:許多數(shù)據(jù)科學(xué)項(xiàng)目都涉及到結(jié)果預(yù)測——通常輸出值yes/no。
  • 記錄:數(shù)據(jù)框中的一行通常被成為記錄。同義詞(實(shí)例,模式值,樣本值)。

關(guān)系數(shù)據(jù)庫表將一個(gè)或多個(gè)指定的列作為索引,本質(zhì)上是行號查詢。這可以極大程度地提高某些數(shù)據(jù)庫的查詢效率,在Panda dataframe中,可以根據(jù)行的順序自動(dòng)創(chuàng)建一個(gè)整數(shù)索引。在Pandas中還可以設(shè)置多層次索引提高操作效率。

[[357498]]

圖源:unsplash

非矩形數(shù)據(jù)

除了矩形數(shù)據(jù)外,還有一些其他的數(shù)據(jù)結(jié)構(gòu)屬于非矩形數(shù)據(jù)的范疇。

地理位置分析中使用的空間數(shù)據(jù)結(jié)構(gòu)更加復(fù)雜,不同于矩形數(shù)據(jù)結(jié)構(gòu)。在地理位置數(shù)據(jù)中,數(shù)據(jù)的焦點(diǎn)是一個(gè)特定對象(如一個(gè)公園)及其空間坐標(biāo)。相比之下,視場視圖聚焦于小的空間單位和相關(guān)的度量值。(如像素強(qiáng)度)。

圖數(shù)據(jù)結(jié)構(gòu),這種數(shù)據(jù)結(jié)構(gòu)通常用來表示數(shù)據(jù)間的關(guān)系——物理關(guān)系、社會(huì)關(guān)系和抽象關(guān)系。例如臉書或推特上以社會(huì)關(guān)系圖的形式表示網(wǎng)絡(luò)上人們之間的聯(lián)系。圖結(jié)構(gòu)對某些類型的問題特別有用,如網(wǎng)絡(luò)優(yōu)化和系統(tǒng)推薦問題。

每種數(shù)據(jù)類型在數(shù)據(jù)科學(xué)中都有特殊的處理方法,本文重點(diǎn)講了矩形數(shù)據(jù),希望你已經(jīng)掌握了它。

 

責(zé)任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2018-03-01 14:30:22

數(shù)據(jù)科學(xué)概率分布

2021-04-08 10:15:46

數(shù)據(jù)工程師數(shù)據(jù)庫數(shù)據(jù)科學(xué)家

2021-03-17 08:27:23

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)

2017-07-20 01:59:19

大數(shù)據(jù)算法數(shù)據(jù)

2019-07-11 12:59:27

數(shù)據(jù)科學(xué)家概率分布統(tǒng)計(jì)

2023-11-17 14:18:48

開發(fā)編程

2019-11-23 23:38:51

開發(fā)者微服務(wù)安全

2013-06-26 09:42:52

Web開發(fā)URL編碼URL

2012-02-28 10:52:13

2018-03-07 12:57:53

2023-11-27 15:49:55

軟件開發(fā)系統(tǒng)設(shè)計(jì)

2020-01-14 08:28:50

Linux命令程序

2017-04-05 12:04:17

python函數(shù)

2014-03-07 14:20:30

2018-05-03 08:45:58

Linux命令

2022-11-25 08:16:07

2019-11-20 12:09:01

JavaScriptGitHub工具

2022-04-27 09:48:56

JS前端開發(fā)

2020-10-06 18:50:19

數(shù)據(jù)科學(xué)家機(jī)器學(xué)習(xí)在線工具

2018-10-16 11:03:19

API開發(fā)者AR
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號