二分類、多分類、回歸任務(wù),一個(gè)項(xiàng)目get競(jìng)賽必備模型
數(shù)據(jù)挖掘類比賽必備模型,四種實(shí)現(xiàn)方法,你值得擁有。
數(shù)據(jù)科學(xué)競(jìng)賽是學(xué)習(xí)各類算法、深入理解數(shù)據(jù)科學(xué)、提升和挑戰(zhàn)自己的絕佳機(jī)會(huì),而這些競(jìng)賽中有一些常用的模型。
近日,有開發(fā)者在 GitHub 上開源了一個(gè)包含數(shù)據(jù)挖掘類比賽常用模型的項(xiàng)目,主要涵蓋二分類、多分類以及回歸任務(wù)。項(xiàng)目代碼全部使用 Python 實(shí)現(xiàn)。
項(xiàng)目地址:https://github.com/QLMX/data_mining_models
該項(xiàng)目包含二分類模型、多分類模型以及回歸模型,它們分別基于 lightgbm 實(shí)現(xiàn)、xgboost 實(shí)現(xiàn)、keras 實(shí)現(xiàn)和 pytorch 實(shí)現(xiàn):
lightgbm
- binary_class.py :lightgbm 實(shí)現(xiàn)的二分類
 - multi_class.py :lightgbm 實(shí)現(xiàn)的多分類
 - regression.py :lightgbm 實(shí)現(xiàn)的回歸
 - multi_class_custom_feval.py :lightgbm 自定義評(píng)價(jià)函數(shù)實(shí)現(xiàn)多分類
 - multi_class_weight_loss.py :lightgbm 多類別不平衡問題,實(shí)現(xiàn)類別加權(quán)優(yōu)化
 
xgboost
- binary_class.py :xgboost 實(shí)現(xiàn)的二分類
 - multi_class.py :xgboost 實(shí)現(xiàn)的多分類
 - regression.py :xgboost 實(shí)現(xiàn)的回歸
 
keras 實(shí)現(xiàn)的 mlp
- binary_class.py :keras 實(shí)現(xiàn)的 mlp,做二分類任務(wù)
 - multi_class.py :keras 實(shí)現(xiàn)的 mlp,做多分類任務(wù)
 - regression.py :keras 實(shí)現(xiàn)的 mlp,做回歸任務(wù)
 
pytorch 實(shí)現(xiàn)的 mlp
- binary_class.py :pytorch 實(shí)現(xiàn)的 mlp,做二分類任務(wù)
 - multi_class.py :pytorch 實(shí)現(xiàn)的 mlp,做多分類任務(wù)
 - regression.py :實(shí)現(xiàn)的 mlp,做回歸任務(wù)
 
環(huán)境設(shè)置
可以直接通過 pip install -r requirements.txt 安裝指定的函數(shù)包,具體的函數(shù)包如下:
- pandas
 - numpy
 - matplotlib
 - sklearn
 - tensorflow==1.12.0
 - keras==2.2.4
 - pytorch
 - seaborn
 - lightgbm==2.2.1
 - xgboost==0.90
 
項(xiàng)目解讀
第一部分 lightgbm 的數(shù)據(jù)是基于拍拍貸比賽截取的一部分特征,隨機(jī)選擇了 5000 個(gè)訓(xùn)練數(shù)據(jù),3000 個(gè)測(cè)試數(shù)據(jù)。針對(duì)其中 gender、cell_province 等類別特征,直接進(jìn)行重新編碼處理。
第二部分又基于 xgboost 實(shí)現(xiàn)了二分類、多分類和回歸任務(wù)。
第三、四部分是深度網(wǎng)絡(luò)部分,是基于 keras 實(shí)現(xiàn)的多層感知機(jī)網(wǎng)絡(luò) (mlp)。pytorch 主要用于圖像處理任務(wù),在數(shù)據(jù)挖掘類比賽中很少用到,但該項(xiàng)目整理了基于 pytorch 實(shí)現(xiàn)的 mlp 做分類與回歸任務(wù)代碼。
項(xiàng)目作者對(duì)項(xiàng)目的各部分進(jìn)行了詳細(xì)的解讀,具體參考以下內(nèi)容:

















 
 
 









 
 
 
 