常見(jiàn)的大數(shù)據(jù)分析模型
今天我們主要為大家講解在做大數(shù)據(jù)可視化時(shí),有哪些常見(jiàn)得到數(shù)據(jù)分析模型。
數(shù)據(jù)模型可以從兩個(gè)角度來(lái)區(qū)分:數(shù)據(jù)和業(yè)務(wù)。
一、數(shù)據(jù)模型
統(tǒng)計(jì)數(shù)據(jù)視角的實(shí)體模型通常指的是統(tǒng)計(jì)分析或大數(shù)據(jù)挖掘、深度學(xué)習(xí)、人工智能技術(shù)等種類(lèi)的實(shí)體模型,這些模型是從科學(xué)研究視角去往界定的。
1、降維
對(duì)大量的數(shù)據(jù)和大規(guī)模的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘時(shí),往往會(huì)面臨“維度災(zāi)害”。 數(shù)據(jù)集的維度在無(wú)限地增加,但由于計(jì)算機(jī)的處理能力和速度有限,此外,數(shù)據(jù)集的多個(gè)維度之間可能存在共同的線性關(guān)系。這會(huì)立即造成學(xué)習(xí)模型的可擴(kuò)展性不足,乃至許多那時(shí)候優(yōu)化算法結(jié)果會(huì)無(wú)效。因而,人們必須減少層面總數(shù)并減少層面間共線性危害。
數(shù)據(jù)降維也稱(chēng)為數(shù)據(jù)歸約或數(shù)據(jù)約減。它的目的就是為了減少數(shù)據(jù)計(jì)算和建模中涉及的維數(shù)。有兩種數(shù)據(jù)降維思想:一種是基于特征選擇的降維,另一種是基于維度變換的降維。
2、回歸
回歸是一種數(shù)據(jù)分析方法,它是研究變量X對(duì)因變量Y的數(shù)據(jù)分析。我們了解的最簡(jiǎn)答的回歸模型就是一元線性回歸(只包含一個(gè)自變量和因變量,并且晾在這的關(guān)系可以用一條直線表示)。
回歸分析根據(jù)自變量的數(shù)量分為單回歸模型和多元回歸模型。根據(jù)影響是否是線性的,可以分為線性回歸和非線性回歸。
3、聚類(lèi)
我們都聽(tīng)過(guò)“物以類(lèi)聚,人以群分”這個(gè)詞語(yǔ),這個(gè)是聚類(lèi)分析的基本思想。聚類(lèi)分析法是大數(shù)據(jù)挖掘和測(cè)算中的基礎(chǔ)每日任務(wù),聚類(lèi)分析法是將很多統(tǒng)計(jì)數(shù)據(jù)集中化具備“類(lèi)似”特點(diǎn)的統(tǒng)計(jì)數(shù)據(jù)點(diǎn)區(qū)劃為一致類(lèi)型,并最后轉(zhuǎn)化成好幾個(gè)類(lèi)的方式。大量數(shù)據(jù)集中必須有相似的數(shù)據(jù)點(diǎn)?;谶@一假設(shè),可以區(qū)分?jǐn)?shù)據(jù),并且可以找到每個(gè)數(shù)據(jù)集(分類(lèi))的特征。
4、分類(lèi)
分類(lèi)算法根據(jù)對(duì)己知類(lèi)型訓(xùn)煉集的測(cè)算和剖析,從文中發(fā)覺(jué)類(lèi)型標(biāo)準(zhǔn),為此分折新統(tǒng)計(jì)數(shù)據(jù)的類(lèi)型的類(lèi)別優(yōu)化算法。分類(lèi)算法是解決分類(lèi)問(wèn)題的一種方法,是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和模式識(shí)別的一個(gè)重要研究領(lǐng)域。
5、關(guān)聯(lián)
關(guān)聯(lián)規(guī)則學(xué)習(xí)根據(jù)尋找最能解釋數(shù)據(jù)變量之間關(guān)系的規(guī)則,在大量多元數(shù)據(jù)集中找到有用的關(guān)聯(lián)規(guī)則。這是一種從大量數(shù)據(jù)中找出各種數(shù)據(jù)之間關(guān)系的方法。此外,它還可以挖掘基于時(shí)間序列的各種數(shù)據(jù)之間的關(guān)系。
6、時(shí)間序列
時(shí)間序列是一種用于研究數(shù)據(jù)隨時(shí)間變化的算法,是一種常用的回歸預(yù)測(cè)方法。原則是事物的連續(xù)性。所謂連續(xù)性,是指客觀事物的發(fā)展具有規(guī)律性的連續(xù)性,事物的發(fā)展是按照其內(nèi)在規(guī)律進(jìn)行的。在一定的條件下,只要規(guī)則作用的條件不發(fā)生質(zhì)的變化,事物的基本發(fā)展趨勢(shì)就會(huì)持續(xù)到未來(lái)。
7、異常數(shù)據(jù)檢測(cè)
在大多數(shù)數(shù)據(jù)挖掘或數(shù)據(jù)工作中,異常值將被視為“噪聲”,并在數(shù)據(jù)預(yù)處理過(guò)程中消除,以避免其對(duì)整體數(shù)據(jù)評(píng)估和分析挖掘的影響。然而,在某些情況下,如果數(shù)據(jù)工作的目標(biāo)是關(guān)注異常值,這些異常值將成為數(shù)據(jù)工作的焦點(diǎn)。
數(shù)據(jù)集中的異常數(shù)據(jù)通常被稱(chēng)為異常點(diǎn)、異常值或孤立點(diǎn)等。典型的特征是這些數(shù)據(jù)的特征或規(guī)則與大多數(shù)數(shù)據(jù)不一致,表現(xiàn)出“異常”的特征。檢測(cè)這些數(shù)據(jù)的方法稱(chēng)為異常檢測(cè)。
二、業(yè)務(wù)模型
業(yè)務(wù)流程實(shí)體模型指的是對(duì)于某一業(yè)務(wù)流程情景而界定的,用以解決困難的某些實(shí)體模型,這種實(shí)體模型跟上邊實(shí)體模型的差別取決于情景化的運(yùn)用。
1、會(huì)員數(shù)據(jù)化運(yùn)營(yíng)分析模型
類(lèi)型:會(huì)員細(xì)分模型、會(huì)員價(jià)值模型、會(huì)員活躍度模型、會(huì)員流失預(yù)測(cè)模型、會(huì)員特征分析模型、市場(chǎng)營(yíng)銷(xiāo)回應(yīng)預(yù)測(cè)模型。
2、商品數(shù)據(jù)化運(yùn)營(yíng)分析模型
類(lèi)型:商品價(jià)格敏感度模型、新產(chǎn)品市場(chǎng)定位模型、銷(xiāo)售預(yù)測(cè)模型、商品關(guān)聯(lián)銷(xiāo)售模型、異常訂單檢測(cè)模型、商品規(guī)劃的最優(yōu)組合。
3、流量數(shù)據(jù)化運(yùn)營(yíng)分析模型
類(lèi)型:流量波動(dòng)檢測(cè)、渠道特征聚類(lèi)、廣告整合傳播模型、流量預(yù)測(cè)模型。
4、內(nèi)容數(shù)據(jù)化運(yùn)營(yíng)分析模型
類(lèi)型:情感分析模型、搜索優(yōu)化模型、文章關(guān)鍵字模型、主題模型、垃圾信息檢測(cè)模型。