




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
北京??房?jī)r(jià)數(shù)據(jù)分析?、報(bào)告背景:根據(jù)某房?jī)r(jià)平臺(tái)數(shù)據(jù),通過數(shù)據(jù)分析,知曉各區(qū)??房?jī)r(jià)狀況。?、?的:報(bào)告?的:通過數(shù)據(jù)完成?份Python的??房?jī)r(jià)分析報(bào)告。分析?的:1、找到影響??房?jī)r(jià)的因素是:區(qū)域?房間數(shù)??廳數(shù)??積數(shù)?樓層?有?地鐵?有?學(xué)區(qū)?誰的影響因素最??如何排序?2、尋找??房低洼處投資。四、代碼解析:(1)、數(shù)據(jù)基本情況#導(dǎo)?庫importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassns#讀取數(shù)據(jù)df=pd.read_csv(r"C:\Users\41174\Desktop\sndHsPr.csv")#價(jià)格單位元轉(zhuǎn)化成萬元df.price=df.price/10000#數(shù)據(jù)分析開始3部曲print(df.head())print(())print(df.describe())如圖,dist是地區(qū),roomnum是房間數(shù),halls是?廳數(shù),AREA是房間?積,floor是樓層?度,AREA是?積(單位平??),subway是地鐵(1代表有,0代表?),school是學(xué)校(1代表有,0代表?),price,代表價(jià)格(單位萬元)如圖,dist和floor是字符串類型,其余都是數(shù)值型數(shù)據(jù),同時(shí)沒有臟數(shù)據(jù)和缺漏數(shù)據(jù)如圖,數(shù)據(jù)樣本量:16210。在沒有通過圖表發(fā)現(xiàn)數(shù)據(jù)的整體異常值時(shí),先以平均數(shù)為基準(zhǔn)看基本情況,但通過后?的分析會(huì)發(fā)現(xiàn),存在許多異常值,所以專業(yè)分析需要看中位數(shù)。現(xiàn)在先分析基本平均信息:roomnum2.1,?廳1.2,?積91.7,地鐵0.83,學(xué)校0.3,房?jī)r(jià)6.1萬/每平??。通過基本平均信息可以知道,房間正常屬于?眾型剛需型,基本有地鐵,但?學(xué)校。根據(jù)《?出好戲》的3句經(jīng)典臺(tái)詞分析:1、稀缺2、消耗3、希望。地鐵、房間等基本配置都屬于消耗資源,不會(huì)產(chǎn)?杠桿或者增值價(jià)值,屬于消耗品,屬于保值或貶值品。但學(xué)校屬于孩?和未來的希望,屬于增值品,同時(shí)?稀缺,瘋搶和增值空間明顯增?,但隨著移動(dòng)互聯(lián)?的教育資源興起,和教育改?,該現(xiàn)象期待改變。fromscipyimportstatsprint(df.price.describe())print('眾數(shù)',stats.mode(df.price)[0][0])如圖,價(jià)格(單位萬/每平??)平均數(shù)6.1,中位數(shù)5.7,眾數(shù)5。dict1={u'chaoyang':"朝陽",u'dongcheng':"東城",u'fengtai':"豐臺(tái)",u'haidian':"海淀",u'shijingshan':"?景?",u'xicheng':"西城"}#將拼?轉(zhuǎn)化成中?df.dist=df.dist.apply(lambdax:dict1[x])print(pd.concat([(df[df.price==min(df.price)]),(df[df.price==max(df.price)])]))最?房?jī)r(jià):西城3房,1廳,78平??,低樓層,有地鐵,?學(xué)區(qū),價(jià)格15萬每平??。最低房?jī)r(jià):豐臺(tái)2房,2廳,101平??,?樓層,?地鐵,?學(xué)區(qū),價(jià)格,1.8萬每平??。foriinrange(7):ifi!=3:print(df.columns.values[i],";")print(df[df.columns[i]].agg(['value_counts']).T)print("=======================================================================")else:continueprint("AREA:")print(df.AREA.agg(['min','mean','median','max','std']).T)如圖:房源:豐臺(tái)區(qū)域房源最多2947套,?景?最少房源1947套。房數(shù):2房最多7971套,5房最少102套。廳數(shù):1廳最多11082套,3廳最少85套。樓層:?乎相等。地鐵:有地鐵13419套,沒地鐵2791套。學(xué)校:有學(xué)校4913套,沒學(xué)校11297套。(稀缺)?積:最?299平??,最低30平????偨Y(jié):學(xué)區(qū)房最稀缺。(2)、圖表基本情況#解決中?亂碼問題plt.rcParams['font.sans-serif']=['SimHei']sns.distplot(df.price,color='lightblue',bins=20,kde=True)plt.xlabel("單位?積房?jī)r(jià)(萬元/平??)")plt.ylabel("密度")plt.title('房?jī)r(jià)密度直?圖')plt.show()如圖,直?圖曲線圖右側(cè)有較多異常值,屬于正偏或右偏正態(tài)曲線,不能使?平均值,需要使?中位數(shù),房?jī)r(jià)中位數(shù)是5.7萬每平??。(3)、盒須圖①、單因素分析df.groupby('dist').median().price.sort_values(ascending=False)df.boxplot(column='price',by='dist')plt.show()如圖,顯?各區(qū)價(jià)格盒須圖,盒須圖?低?序,通過什么?法讓視圖清晰可見,容易分析?#顯?各區(qū)中位數(shù)從?到低排序。print(df.groupby('dist').median().price.sort_values(ascending=False))df.dist=df.dist.astype('category')#根據(jù)各區(qū)中位數(shù)排序,調(diào)整區(qū)域先后順序。df.dist.cat.set_categories(['西城','東城','海淀','朝陽','豐臺(tái)','?景?'],inplace=True)df.boxplot(column='price',by='dist')plt.show()如圖,區(qū)域明顯與價(jià)格成強(qiáng)相關(guān)。區(qū)域差異最?是西城與?景?,故后?分析時(shí)采?西城與?景?的分析。print(df.groupby('roomnum').median().price.sort_values(ascending=False))df.roomnum=df.roomnum.astype('object')df.roomnum=df.roomnum.astype('category')df.roomnum.cat.set_categories([4,1,5,3,2],inplace=True)df.boxplot(column='price',by='roomnum')plt.show()如圖,房間數(shù)與價(jià)格成弱相關(guān)。print(df.groupby('halls').median().price.sort_index(ascending=False))df.halls=df.halls.astype('category')df.halls.cat.set_categories([0,1,2,3],inplace=True)df.boxplot(column='price',by='halls')plt.show()如圖,?廳數(shù)與價(jià)格成弱相關(guān)。df.plot.scatter(x='price',y='AREA')plt.show()如圖,?積與價(jià)格關(guān)系暫時(shí)?法確定。print(df.groupby('floor').median().price.sort_index(ascending=False))df.floor=df.floor.astype('category')df.floor.cat.set_categories(['middle','low','high'],inplace=True)df.boxplot(column='price',by='floor')plt.show()如圖,樓層與價(jià)格成弱相關(guān)。print(df.groupby('subway').median().price.sort_index(ascending=False))df.subway=df.subway.astype('category')df.subway.cat.set_categories([1,0],inplace=True)df.boxplot(column='price',by='subway')plt.show()如圖,地鐵與價(jià)格成強(qiáng)相關(guān)。print(df.groupby('school').median().price.sort_index(ascending=False))df.school=df.school.astype('category')df.school.cat.set_categories([1,0],inplace=True)df.boxplot(column='price',by='school')plt.show()如圖,學(xué)校與價(jià)格成強(qiáng)相關(guān)。綜上可知,區(qū)域、地鐵、學(xué)校與價(jià)格關(guān)系密切,其余因素關(guān)系不密切,忽略不計(jì)。②、雙因素分析print(df.groupby(['dist','school']).median().price.sort_index(ascending=False).unstack())df.boxplot(column='price',by=['dist','school'],figsize=(12,6))plt.show()如圖可知,1、(西城,1)-(西城,0)>(西城,1)-(東城,1),可知學(xué)區(qū)因素>區(qū)域因素,分析其余情況基本類似。2、(?景?,1)價(jià)格<(?景?,0),明顯存在被低估的價(jià)格,很可能是潛?股,可以先調(diào)查后投資。print(df.groupby(['school','subway']).median().price.sort_index(ascending=False).unstack())df.boxplot(column='price',by=['school','subway'],figsize=(12,6))plt.show()如圖可知,(1,1)-(1,0)<(1,1)-(0,1),因此學(xué)區(qū)因素>地鐵因素。print(df.groupby(['dist','subway']).median().price.sort_index(ascending=False).unstack())df.boxplot(column='price',by=['dist','subway'],figsize=(12,6))plt.show()如圖,(西城,1)-(西城,0)>(西城,1)-(東城,1),因此學(xué)區(qū)因素>區(qū)域因素。③、多因素分析print(df.groupby(['dist','school','subway']).median().price.sort_index(ascending=False).unstack())df.boxplot(column='price',by=['dist','school','subway'],figsize=(20,10))plt.xticks(rotation=90)plt.show()如圖可知,(豐臺(tái),1,0)與(?景?,1,1)和(?景?,1,0)明顯存在低估,可以先調(diào)查,然后投資。綜合如上分析可知:1、單因素、雙因素和多因素分析,可知學(xué)區(qū)因素>地區(qū)因素>地鐵因素>其他因素。2、(豐臺(tái),1,0)與(?景?,1,1)和(?景?,1,0)明顯存在低估,可以先調(diào)查,然后投資。五、完整代碼#導(dǎo)?庫importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassns#讀取數(shù)據(jù)df=pd.read_csv(r"C:\Users\41174\Desktop\sndHsPr.csv")#價(jià)格單位元轉(zhuǎn)化成萬元df.price=df.price/10000#數(shù)據(jù)分析開始3部曲print(df.head())print(())print(df.describe())fromscipyimportstatsprint(df.price.describe())print('眾數(shù)',stats.mode(df.price)[0][0])dict1={u'chaoyang':"朝陽",u'dongcheng':"東城",u'fengtai':"豐臺(tái)",u'haidian':"海淀",u'shijingshan':"?景?",u'xicheng':"西城"}#將拼?轉(zhuǎn)化成中?df.dist=df.dist.apply(lambdax:dict1[x])print(pd.concat([(df[df.price==min(df.price)]),(df[df.price==max(df.price)])]))foriinrange(7):ifi!=3:print(df.columns.values[i],";")print(df[df.columns[i]].agg(['value_counts']).T)print("=======================================================================")else:continueprint("AREA:")print(df.AREA.agg(['min','mean','median','max','std']).T)#解決中?亂碼問題plt.rcParams['font.sans-serif']=['SimHei']sns.distplot(df.price,color='lightblue',bins=20,kde=True)plt.xlabel("單位?積房?jī)r(jià)(萬元/平??)")plt.ylabel("密度")plt.title('房?jī)r(jià)密度直?圖')plt.show()df.groupby('dist').median().price.sort_values(ascending=False)df.boxplot(column='price',by='dist')plt.show()#顯?各區(qū)中位數(shù)從?到低排序。print(df.groupby('dist').median().price.sort_values(ascending=False))df.dist=df.dist.astype('category')#根據(jù)各區(qū)中位數(shù)排序,調(diào)整區(qū)域先后順序。df.dist.cat.set_categories(['西城','東城','海淀','朝陽','豐臺(tái)','?景?'],inplace=True)df.boxplot(column='price',by='dist')plt.show()print(df.groupby('roomnum').median().price.sort_values(ascending=False))df.roomnum=df.roomnum.astype('object')df.roomnum=df.roomnum.astype('category')df.roomnum.cat.set_categories([4,1,5,3,2],inplace=True)df.boxplot(column='price',by='roomnum')plt.show()print(df.groupby('halls').median().price.sort_index(ascending=False))df.halls=df.halls.astype('category')df.halls.cat.set_categories([0,1,2,3],inplace=True)df.boxplot(column='price',by='halls')plt.show()df.plot.scatter(x='price',y='AREA')plt.show()print(df.groupby('floor').median().price.sort_index(ascending=False))df.floor=df.floor.astype('category')df.floor.cat.set_categories(['middle','low','high'],inplace=True)df.boxplot(column='price',by='floor')plt.show()print(df.groupby('subway').median().price.sort_index(ascending=False))df.subway=df.subway.astype('category')df.subway.cat.set_categories([1,0],inplace=True)df.boxplot(column='price',by='subway')plt.show()print(df.groupby('school').median().price.sort_index(ascend
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)合同范本制作
- 口才教室出租合同范本
- 企業(yè)采購(gòu)合作合同范例
- 以物抵債合同范本
- 冷凍品購(gòu)銷合同范例
- 合唱排練協(xié)議合同范本
- 周口市安置房買賣合同范例
- 品牌店 轉(zhuǎn)讓 合同范本
- 廠房買賣合同范本模板
- 廚師人工合同范本
- 省級(jí)示范幼兒園評(píng)估細(xì)則解讀 辦園管理部分解讀課件
- 第四章-消費(fèi)者行為理論:邊際效用分析
- 八年級(jí)物理上冊(cè)課程綱要
- 商用密碼應(yīng)用服務(wù)平臺(tái)建設(shè)方案
- 檔案銷毀清冊(cè)(封面)
- 數(shù)據(jù)結(jié)構(gòu)與算法 課件全套 機(jī)械自考版 第1-8章 緒論、線性表-查找
- 機(jī)械制造投標(biāo)書
- 2024-2025學(xué)年小學(xué)綜合實(shí)踐活動(dòng)一年級(jí)下冊(cè)滬科黔科版教學(xué)設(shè)計(jì)合集
- 2024華中區(qū)域電力輔助服務(wù)管理實(shí)施細(xì)則
- 20以內(nèi)減法口算練習(xí)題4000題74
- 2024年1月份煙臺(tái)市220kV公用變電站可開放容量信息明細(xì)表
評(píng)論
0/150
提交評(píng)論