數(shù)據(jù)分析實(shí)戰(zhàn),用Pandas分析二手車市場(chǎng)行情
引言
這個(gè)項(xiàng)目主要是研究二手車市場(chǎng)上車輛定價(jià)的決定因素,本文將展示如何從汽車銷售商網(wǎng)站Cars24上抓取所有的搜索結(jié)果,并建立一個(gè)包含所有找到的列表的數(shù)據(jù)庫(kù)。
使用的工具(庫(kù))
- Requests
- Beautiful Soup
- Pandas
- Numpy
- Matplotlib
- Seaborn
- Plotly
導(dǎo)入所需的包并加載數(shù)據(jù)集:
來(lái)自網(wǎng)站的原始數(shù)據(jù):
現(xiàn)在,可以看到有一個(gè)名為Unnamed:0的列。這一列一定是在抓取數(shù)據(jù)并將其保存到CSV文件中時(shí)添加的。因此,下一步就是刪除數(shù)據(jù)。
數(shù)據(jù)清洗:
現(xiàn)在將刪除Unnamed:0列,然后再次清洗,使數(shù)據(jù)可視化。
清洗后的Dataframe:
數(shù)據(jù)概覽:
DataFrame.info()將為項(xiàng)目提供有關(guān)數(shù)據(jù)類型和每一列中非空值的數(shù)量的信息。
Describe()每一列的數(shù)字特征和信息:
- Data Frame.describe()可以給出數(shù)字?jǐn)?shù)據(jù)的描述。這可以幫助我們獲得每個(gè)數(shù)字列的最小值、最大值、平均值、標(biāo)準(zhǔn)偏差等數(shù)值。
最后我們得到了560行和9列,并且在Year、Brand、Car name、kilometer、owner、fuel、Emi、location和price等列中沒有空值。
探索數(shù)據(jù)
車輛信息匯總
列類型:
- 數(shù)字 — kilometer、price、Emi
- 分類 — Year、Brand、Car name、fuel、location、owner
- 2010年至2022年之間的車型年份
- 公里數(shù)范圍從121英里到99944英里不等
- 價(jià)格從1.62萬(wàn)到24.36萬(wàn)盧比不等
數(shù)據(jù)可視化
單變量:
最暢銷的品牌:
a[‘Brand’].value_counts().plot(kind=’bar’)
plt.xlabel(‘Brand’)
plt.ylabel(‘Highest selling’)
plt.show()
- 從上面的圖表中可以看到Tata是最暢銷的汽車。
價(jià)格分布:
sns.histplot(a[‘price(in_lk)’],kde=True)
- 平均價(jià)格約為60k,二手車的中位數(shù)為50k。
- 價(jià)格分布更像是一個(gè)長(zhǎng)尾分布和右偏度。這在價(jià)格分布上是非常正常的。
燃料
px.bar(a[‘fuel’].value_counts())
- 人們擁有的大多數(shù)汽車是汽油類型的。
- 人們購(gòu)買最多的是汽油車,然后是柴油車和壓縮天然氣車。
雙變量分析
不同數(shù)量的前車主的車輛列表 :
sns.barplot(x=a[‘owner’],y=a[‘price(in_lk)’],errorbar=None)
- 從上面的圖中可以看出,第一任車主的平均駕駛里程較少。
- 從第一任車主那里買車更好。
來(lái)自不同州的車輛列表
a.groupby([‘Location’])[‘year’].count().sort_values(ascending=False).plot(kind=’bar’, figsize=(10,6))
plt.ylabel(‘Number of listings per state’, fnotallow=12)
plt.xlabel(‘State’, fnotallow=12)
plt.title(‘Listings per State’, fnotallow=18)
plt.show()
- Hyderabad、Mumbai、Pune是二手車上市數(shù)量最多的三個(gè)州,這三個(gè)州占印度汽車市場(chǎng)的32%。
比較年份和價(jià)格:
sns.lineplot(x=a[“year”],y=a[“price(in_lk)”],errorbar=None)
- 我們可以看到,當(dāng)年份增加時(shí),價(jià)格也在增加。
燃料類型將如何影響轉(zhuǎn)售價(jià)格?
sns.boxplot(x=a[“fuel”],y=a[“price(in_lk)”])
- 從上圖中可以注意到,大多數(shù)燃料類型的柴油車價(jià)格高于其他汽油和壓縮天然氣。
- 這就是為什么大多數(shù)人想購(gòu)買汽油車的原因。
多變量分析:
sns.barplot(x=a[“year”],y=a[“price(in_lk)”],errorbar=None,hue=a[“owner”])
- 在大多數(shù)年份里,第一任車主的汽車現(xiàn)價(jià)都很高。
- 當(dāng)汽車以高價(jià)出售時(shí),第一任車主的售價(jià)比第二任和第三任車主的售價(jià)高。
相關(guān)性:
可以使用corr()函數(shù)找到各種特征之間的相關(guān)性。
sns.heatmap(a.corr(),annot=True)
- Price和Emi的相關(guān)度為0.61。
- Price一欄與Emi高度相關(guān),因此我們可以使用任何一個(gè)變量進(jìn)行分析。
plt.figure(figsize=(18,7))
sns.barplot(x=a[“Location”],y=a[“price(in_lk)”],hue=a[“Location”],errorbar=None)
plt.xticks(rotation = 90)
plt.show()
- 從上圖可以看出,Gurgaon地區(qū)的汽車價(jià)格高于其他地區(qū)。
結(jié)論
從可視化中,我們發(fā)現(xiàn)了以下結(jié)論:
- Hyderabad,Mumbai,Pune是排名前三的二手車市場(chǎng)。
- 在大多數(shù)年份里,第一任車主的汽車現(xiàn)價(jià)都很高。
- 當(dāng)汽車出售時(shí),第一任車主的售價(jià)比第二任和第三任車主的售價(jià)高。
- 我們可以看到,在Gurgaon地區(qū)的汽車價(jià)格高于其他地區(qū)。
- 在印度最暢銷的汽車制造商是Tata、Maruti。
- 當(dāng)二手車定價(jià)時(shí),最重要的特征包括里程數(shù)、車主和車型年份。從可視化中,我們看到里程數(shù)越高,價(jià)格越低。
- 車型價(jià)格也與Emi相關(guān),車齡越長(zhǎng),價(jià)格越低。