聊聊關于常用數(shù)據(jù)類型一二三
數(shù)據(jù)分析師的工作中最離不開的就是數(shù)據(jù),業(yè)務中所有的情況都離不開數(shù)據(jù)這個載體,今天就來看下數(shù)據(jù)的都有哪些類型以及它們有什么特點。
數(shù)據(jù)是用某種計量尺度對事物測度的結(jié)果,采用不同的計量尺度會得到不同類型的數(shù)據(jù),數(shù)據(jù)包括:各種數(shù)字、文字、圖像、音頻、視頻及它們的組合等多種格式。
1.數(shù)據(jù)的分類
由于事物有簡單和復雜的,如用戶的外貌高矮等特征較直觀,用戶的偏好則不直觀;有的差異可以用數(shù)量度量,有的則只能用分類度量。所以統(tǒng)計量就有定性、定量之分,對統(tǒng)計數(shù)據(jù)的屬性、特征進行分類、標示和計算叫度量,分類見下圖:

(1)定性數(shù)據(jù),又叫分類數(shù)據(jù)。它用于確定數(shù)據(jù)的屬性,不支持算術運算,只用于說明事物的品質(zhì),可能是文字或數(shù)字,可以細分為兩類:
①無序數(shù)據(jù)。如:人的性別可以分為:男,女,未知3類,也可以把它們記為0,1,2;學生的成績可以分為:及格,不及格……為了便于理解,一般可按慣例來定義,也可以按具體的業(yè)務需求等。該類數(shù)據(jù)的用數(shù)字表示時僅表示不同類別的品質(zhì)是什么,而不表示量的順序或大小,該類數(shù)據(jù)尺度的數(shù)學特征是“=”或“≠”。
②順序數(shù)據(jù),無序分類數(shù)據(jù)不要求有順序,順序數(shù)據(jù)是有序的。如:空氣污染可以分為:優(yōu),良,輕度污染,中度污染,重度污染,其中后面一級都比前面一級的程度更嚴重,也可以用1,2,3,4,5來標識這幾種分類;學生的成績也可以分為:優(yōu)秀,良好,及格,不及格,后面一級的數(shù)據(jù)也都比前面的更差。此時的尺度不能表明級別的量,僅能表明其等級差異,該類數(shù)據(jù)尺度的數(shù)學特征是“>”或“<”。
(2)定量數(shù)據(jù),又稱為數(shù)值型數(shù)據(jù),用于說明事物的數(shù)量,形式是數(shù)字,也可以分為兩類,主要按數(shù)值是否連續(xù)劃分:
①離散型數(shù)據(jù),離散型是通過計數(shù)得到的,增長量不固定,比如:北京市上月的空氣質(zhì)量有20天是優(yōu),本月共10天優(yōu);北京市去年凈流出200萬人,今年凈流出100萬人。它不僅能對事物區(qū)分不同的類型,還能對其排序,做數(shù)學運算。
②連續(xù)型數(shù)據(jù),這是一直疊加上去的,增長量可以劃分為固定的單位。如:人的年齡是1歲,1.2歲,1.5歲,2歲......人的身高1.5米,1.51,1.52......
不管是什么類型的數(shù)據(jù),定義數(shù)據(jù)時,有邏輯地劃分、表達更易讓人理解、方便計算。
定性與定量數(shù)據(jù)的關系:定性數(shù)據(jù)與定量數(shù)據(jù)相互補充,定性是定量的前提、依據(jù),定量使定性更加具體、準確,結(jié)合使用才能通過比較來分析、說明問題。這四類數(shù)據(jù)的層次一類比一類高。
因不同類型的數(shù)據(jù)采用的處理、分析的統(tǒng)計方法不同,所以區(qū)分度量的層次、數(shù)據(jù)的類型很重要。如,對無序數(shù)據(jù),通常計算出各組的頻數(shù)或頻率,計算其眾數(shù)和異眾比率,進行列聯(lián)表分析和x2檢驗等;對順序數(shù)據(jù),可以通過其中位數(shù)和四分位差,從而估計樣本數(shù)據(jù)的總體;對離散數(shù)據(jù)還可以用更多的統(tǒng)計方法進行處理,如計算各種統(tǒng)計量、進行參數(shù)估計和檢驗等。
適用于低層次測量數(shù)據(jù)的統(tǒng)計方法,也適用于較高層次的測量數(shù)據(jù),因為后者具有前者的數(shù)學特性,但前者不具備后者的特性,所以反之不成立。如:描述數(shù)據(jù)的集中趨勢時,對無序數(shù)據(jù)通常計算眾數(shù),對順序數(shù)據(jù)通常是計算中位數(shù),但對連續(xù)、離散類的定量數(shù)據(jù)也可以計算眾數(shù)和中位數(shù)。反之,對于離散和連續(xù)數(shù)據(jù)可以計算平均數(shù),但對于無序數(shù)據(jù)和順序數(shù)據(jù)則不能計算平均數(shù)。理解這一點,則有助于分析時選擇合適的統(tǒng)計分析方法。
2.數(shù)據(jù)的質(zhì)量
數(shù)據(jù)質(zhì)量的好壞甚至能決定我們分析的成功與否。評價數(shù)據(jù)的質(zhì)量主要從內(nèi)容質(zhì)量、表述質(zhì)量、約束標準三方面著手。
(1)內(nèi)容質(zhì)量
內(nèi)容質(zhì)量是數(shù)據(jù)最基本的特征,包括相關性、準確性、及時性,這是數(shù)據(jù)質(zhì)量的基本特征,缺少其中一個,數(shù)據(jù)就失去了轉(zhuǎn)化為信息的作用。
①相關性
相關性指數(shù)據(jù)是否正是用戶感興趣的統(tǒng)計數(shù)據(jù),它反映了數(shù)據(jù)滿足需求的程度,相關性與可用數(shù)據(jù)是否是用戶最關心的主題有關。由于對相關性的評價是主觀的,會隨用戶需求目標的改變而改變,所以要平衡不同用戶的需求目標,在給定的資源條件限制下,盡可能滿足大部分用戶的大部分需求。
②準確性
準確性指觀測值或估計值與未知的真實值之間的距離(接近程度),通常用統(tǒng)計誤差來衡量,它是數(shù)據(jù)質(zhì)量的基礎和核心。一般地,誤差分為系統(tǒng)誤差和隨機誤差。因可能會受到成本、環(huán)境等各種限制,完全準確幾乎是不可能的。所以只要是誤差已降低到用戶可以接受的地步即可。
③及時性
與用戶需求相關且準確的數(shù)據(jù)如果沒有在用戶做出決策之前傳遞給他,那么該數(shù)據(jù)對用戶來說就是沒用的。所以,及時性也是統(tǒng)計數(shù)據(jù)能否滿足用戶需求的重要特征。如果要統(tǒng)計的現(xiàn)象變化較快,則對該類統(tǒng)計數(shù)據(jù)的及時性要求高;如果該現(xiàn)象變化較緩慢,則對及時性要求不高。
(2)表述質(zhì)量
僅考慮數(shù)據(jù)內(nèi)容的質(zhì)量是不夠的,多個人一起做需求時,要想被人看到、看懂,必然離不開描述需求相關的多個數(shù)據(jù),這時就要考慮表述的質(zhì)量問題。如:單個數(shù)據(jù)的內(nèi)容是正確的,但表述不清晰、不充分,就會影響整套數(shù)據(jù)的質(zhì)量,甚至引起誤解。統(tǒng)計數(shù)據(jù)的表述質(zhì)量包括可比性、可銜接性和可理解性,這些都是我們做需求、對外提供數(shù)據(jù)或分析報告時需要注意的點。
①可比性
可比性指同一項目的統(tǒng)計數(shù)據(jù)在時間上、空間上的可比程度。這要求統(tǒng)計的概念和方法要相對穩(wěn)定,使用統(tǒng)一的統(tǒng)計制度方法和分類標準,確保統(tǒng)計數(shù)據(jù)的口徑范圍、計算方法一致,可比較。
②可銜接性
可銜接性指同一統(tǒng)計機構(gòu)內(nèi)部不同項目、不同機構(gòu)及與國際組織間統(tǒng)計數(shù)據(jù)的銜接程度。這要求所有專業(yè)統(tǒng)計項目在統(tǒng)一的統(tǒng)計框架體系、 分類標準下,按統(tǒng)一的方法統(tǒng)計、調(diào)查、加工整理、使用統(tǒng)一的方法和程序,同時采用國際統(tǒng)計標準,如國際標準時間等。
③可理解性
可理解性指統(tǒng)計數(shù)據(jù)便于用戶正確理解、使用的程度。統(tǒng)計數(shù)據(jù)是提供給用戶使用的,如果用戶看不懂數(shù)據(jù)、分析報告,也就談不上使用數(shù)據(jù)。為了恰當?shù)厥褂脧慕y(tǒng)計機構(gòu)得到的數(shù)據(jù),用戶必須了解所獲得數(shù)據(jù)的性質(zhì)。這就要求統(tǒng)計機構(gòu)在提供統(tǒng)計數(shù)據(jù)時附帶提供對數(shù)據(jù)的補充說明。如:提供隱含在有關概念下面的說明、使用到的分類方法、數(shù)據(jù)收集和加工過程中使用的方法及統(tǒng)計機構(gòu)自身對數(shù)據(jù)質(zhì)量的評價等。
(3)約束標準
在實現(xiàn)統(tǒng)計數(shù)據(jù)目標的過程中,除了注意統(tǒng)計數(shù)據(jù)的內(nèi)容質(zhì)量和表述質(zhì)量這兩方面外,還需注意以下兩項約束標準,這體現(xiàn)了數(shù)據(jù)的質(zhì)量特征。
①可取得性
可取得性是指用戶獲取數(shù)據(jù)的便利程度。對于有用的數(shù)據(jù),用戶必然要考慮:能得到哪些數(shù)據(jù),如何得到這些數(shù)據(jù)。因此,統(tǒng)計數(shù)據(jù)必須以一種用戶方便使用且能夠負擔的形式提供給用戶。這要求提供統(tǒng)計數(shù)據(jù)時,必須列明用戶從統(tǒng)計機構(gòu)可以取得的統(tǒng)計數(shù)據(jù)內(nèi)容,同時方便用戶獲取。
②有效性
有效性指利用統(tǒng)計數(shù)據(jù)所產(chǎn)生的效益要大于提供該數(shù)據(jù)的成本。如果相反,則提供這種數(shù)據(jù)對提供方和使用方來說都是不值得的,這要求在統(tǒng)計數(shù)據(jù)的其他質(zhì)量不受大的影響的前提下,盡可能降低統(tǒng)計數(shù)據(jù)的生產(chǎn)費用,提高效率。



























