大數(shù)據(jù)分析及應(yīng)用期末課程報(bào)告_第1頁(yè)
大數(shù)據(jù)分析及應(yīng)用期末課程報(bào)告_第2頁(yè)
大數(shù)據(jù)分析及應(yīng)用期末課程報(bào)告_第3頁(yè)
大數(shù)據(jù)分析及應(yīng)用期末課程報(bào)告_第4頁(yè)
大數(shù)據(jù)分析及應(yīng)用期末課程報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、云南大學(xué)軟件學(xué)院期末課程報(bào)告Final Course ReportSchool of Software, Yunnan University個(gè)人成績(jī)序號(hào)學(xué)號(hào)姓名成績(jī)123學(xué)期: 課程名稱: 大數(shù)據(jù)分析及應(yīng)用 任課教師: 實(shí)踐題目: 小 組 長(zhǎng): 聯(lián)系電話: 電子郵件: 完成提交時(shí)間:2015年 1 月 4 日作業(yè)截止時(shí)間:2015年 1 月 4 日2015-2016學(xué)年上學(xué)期 大數(shù)據(jù)分析及應(yīng)用 成績(jī)考核表年級(jí): 專業(yè): 學(xué)號(hào): 姓名: 本人所做工作: 指標(biāo)內(nèi)容分值指標(biāo)內(nèi)涵及評(píng)估標(biāo)準(zhǔn)得分技術(shù)路線的可行程度10合理可行,具體且有創(chuàng)新合理可行,具體基本合理可行不夠合理或不夠具體程序或系統(tǒng)設(shè)計(jì)思路10

2、程序或系統(tǒng)思路非常清晰、運(yùn)行正確程序或系統(tǒng)思路基本清晰、運(yùn)行正確程序或系統(tǒng)思路清晰、環(huán)境配置錯(cuò)誤無(wú)法運(yùn)行程序或系統(tǒng)思路不清晰,程序無(wú)法運(yùn)行小組成員的工作量(每個(gè)人分別打分)15高出平均要求工作量的15%以上高出平均要求工作量達(dá)到平均要求工作量低于平均要求的工作量理論知識(shí)應(yīng)用水平15用理論知識(shí)對(duì)程序設(shè)計(jì)方法、思路和代碼進(jìn)行詳盡、準(zhǔn)確地分析和總結(jié)用理論知識(shí)對(duì)程序設(shè)計(jì)方法、思路和代碼進(jìn)行較準(zhǔn)確地分析和總結(jié)理論知識(shí)應(yīng)用一般理論知識(shí)差達(dá)到預(yù)期目標(biāo)的程度10完全達(dá)到基本達(dá)到無(wú)法預(yù)見未能達(dá)到團(tuán)隊(duì)合作精神10很強(qiáng)的團(tuán)隊(duì)合作精神合作情況良好合作情況一般合作不好,各自為政報(bào)告撰寫質(zhì)量(30分)5報(bào)告非常完整報(bào)告比

3、較完整完整程度一般報(bào)告不完整5邏輯結(jié)構(gòu)清晰邏輯組織較好邏輯組織一般邏輯不清5內(nèi)容非常豐富內(nèi)容較豐富內(nèi)容一般內(nèi)容欠缺5文字表達(dá)非常好文字表達(dá)較好文字表達(dá)一般文字表達(dá)差,意思不明了5圖表制作非常專業(yè)化圖件制作良好圖件制作一般圖件制作效果差5整體效果很好整體效果良好整體效果一般整體效果差綜合得分(滿分100分)評(píng)語(yǔ)2015-2016學(xué)年上學(xué)期 大數(shù)據(jù)分析及應(yīng)用 成績(jī)考核表年級(jí): 專業(yè): 學(xué)號(hào): 姓名: 本人所做工作: 指標(biāo)內(nèi)容分值指標(biāo)內(nèi)涵及評(píng)估標(biāo)準(zhǔn)得分技術(shù)路線的可行程度10合理可行,具體且有創(chuàng)新合理可行,具體基本合理可行不夠合理或不夠具體程序或系統(tǒng)設(shè)計(jì)思路10程序或系統(tǒng)思路非常清晰、運(yùn)行正確程序或系

4、統(tǒng)思路基本清晰、運(yùn)行正確程序或系統(tǒng)思路清晰、環(huán)境配置錯(cuò)誤無(wú)法運(yùn)行程序或系統(tǒng)思路不清晰,程序無(wú)法運(yùn)行小組成員的工作量(每個(gè)人分別打分)15高出平均要求工作量的15%以上高出平均要求工作量達(dá)到平均要求工作量低于平均要求的工作量理論知識(shí)應(yīng)用水平15用理論知識(shí)對(duì)程序設(shè)計(jì)方法、思路和代碼進(jìn)行詳盡、準(zhǔn)確地分析和總結(jié)用理論知識(shí)對(duì)程序設(shè)計(jì)方法、思路和代碼進(jìn)行較準(zhǔn)確地分析和總結(jié)理論知識(shí)應(yīng)用一般理論知識(shí)差達(dá)到預(yù)期目標(biāo)的程度10完全達(dá)到基本達(dá)到無(wú)法預(yù)見未能達(dá)到團(tuán)隊(duì)合作精神10很強(qiáng)的團(tuán)隊(duì)合作精神合作情況良好合作情況一般合作不好,各自為政報(bào)告撰寫質(zhì)量(30分)5報(bào)告非常完整報(bào)告比較完整完整程度一般報(bào)告不完整5邏輯結(jié)構(gòu)清

5、晰邏輯組織較好邏輯組織一般邏輯不清5內(nèi)容非常豐富內(nèi)容較豐富內(nèi)容一般內(nèi)容欠缺5文字表達(dá)非常好文字表達(dá)較好文字表達(dá)一般文字表達(dá)差,意思不明了5圖表制作非常專業(yè)化圖件制作良好圖件制作一般圖件制作效果差5整體效果很好整體效果良好整體效果一般整體效果差綜合得分(滿分100分)評(píng)語(yǔ)摘要I小組成員分工II1. 引言11.1 課題研究背景和研究現(xiàn)狀11.1.1 課題研究的背景和目的11.1.2 課題研究的現(xiàn)狀11.2 課題的研究意義和主要工作21.2.1 課題的研究意義21.2.2 課題的主要工作21.2.3 課題的結(jié)構(gòu)安排31.3 開發(fā)工具及開發(fā)環(huán)境31.4本章小結(jié)32 算法描述92.1 DB-SCAN算法

6、92.1.1 算法原理92.1.2 算法模型及偽代碼102.2 LR算法102.2.1算法原理102.2.2算法模型及偽代碼112.3 貝葉斯算法102.3.1算法原理102.3.2算法模型及偽代碼112.4 本章小結(jié)153 數(shù)據(jù)質(zhì)量及統(tǒng)計(jì)分析173.1 數(shù)據(jù)質(zhì)量分析173.2 簽到數(shù)據(jù)統(tǒng)計(jì)213.3 本章小節(jié) 234 聚類挖掘?qū)嶒?yàn)174.1 數(shù)據(jù)集說(shuō)明174.2 挖掘技術(shù)及方法214.3 聚類結(jié)果分析 234.4本章小結(jié)255 預(yù)測(cè)分析實(shí)驗(yàn)175.1 數(shù)據(jù)集說(shuō)明175.2預(yù)測(cè)技術(shù)及方法215.3 算法1預(yù)測(cè)結(jié)果對(duì)比分析 235.3.1熱點(diǎn)區(qū)域數(shù)量預(yù)測(cè)105.3.2熱點(diǎn)區(qū)域位置預(yù)測(cè)115.4

7、算法2預(yù)測(cè)結(jié)果對(duì)比分析 235.3.1熱點(diǎn)區(qū)域數(shù)量預(yù)測(cè)105.3.2熱點(diǎn)區(qū)域位置預(yù)測(cè)115.5 預(yù)測(cè)算法之間的對(duì)比分析 235.6本章小結(jié)256 可視化展示266.1 第一個(gè)月每周的聚類結(jié)果展示276.2第二個(gè)月每周的聚類結(jié)果展示296.3 測(cè)試數(shù)據(jù)的每天聚類結(jié)果展示307 總結(jié)及展望30參考文獻(xiàn)531引言2算法描述說(shuō)明:列舉所使用的算法名稱,原理及實(shí)現(xiàn)的偽代碼。聚類算法統(tǒng)一用DB-SCAN,預(yù)測(cè)算法根據(jù)每組制定的不同算法進(jìn)行描述。3數(shù)據(jù)質(zhì)量及統(tǒng)計(jì)分析說(shuō)明:(1)數(shù)據(jù)質(zhì)量分析主要是針對(duì)昆明四區(qū)POI_ALL.xls文件,從如下幾個(gè)方面進(jìn)行評(píng)估。第一、POI名稱是否完整和清楚,比如:名稱只為“昆

8、明”, “昆明市”等就屬于不完整,標(biāo)識(shí)性不強(qiáng)等質(zhì)量問(wèn)題。此部分用表格完成,并將表格劃為直方圖。第二、地址缺失。第三、電話號(hào)碼缺失。第四、電話號(hào)碼錯(cuò)誤。表3-1 POI名稱質(zhì)量不規(guī)范性表IDPOI名稱數(shù)量1昆明22昆明市4表3-2 POI名稱質(zhì)量不規(guī)范比例名稱不規(guī)范數(shù)量名稱總量比例1620000.3%21994200099.7%圖3-1 POI名稱質(zhì)量不規(guī)范性統(tǒng)計(jì)(2)統(tǒng)計(jì)分析主要是針對(duì)昆明四區(qū)POI_ALL.xls文件和kunming_7-11_all.xls兩個(gè)文件。POI_ALL.xls文件:A. 按類別名稱分組統(tǒng)計(jì)簽到數(shù)和簽到用戶數(shù)TOP10的POI點(diǎn),將統(tǒng)計(jì)結(jié)果繪制為表格和直方圖。B.

9、 根據(jù)POI的經(jīng)緯度坐標(biāo)和昆明市四區(qū)的范圍,統(tǒng)計(jì)四個(gè)區(qū)(五華區(qū)、盤龍區(qū)、西山區(qū)和官渡區(qū))按類別名稱分組統(tǒng)計(jì)簽到數(shù)和簽到用戶數(shù)TOP10的POI點(diǎn),并將統(tǒng)計(jì)結(jié)果繪制為表格和直方圖。表3-3 高等院校簽到數(shù)TOP 10的統(tǒng)計(jì)表IDPOI名稱簽到數(shù)1云南大學(xué)1002昆明理工大學(xué)8010財(cái)經(jīng)大學(xué)10表3-4高等院校簽到用戶數(shù)TOP 10的統(tǒng)計(jì)表IDPOI名稱簽到用戶數(shù)1云南大學(xué)1002昆明理工大學(xué)8010財(cái)經(jīng)大學(xué)10表3-5五華區(qū)高等院校簽到用戶數(shù)TOP 10的統(tǒng)計(jì)表IDPOI名稱簽到用戶數(shù)1云南大學(xué)1002昆明理工大學(xué)8010財(cái)經(jīng)大學(xué)10給出對(duì)應(yīng)的直方圖kunming_7-11_all.xls文件:

10、A. 統(tǒng)計(jì)每個(gè)月,每周工作日和休息日,每天的用戶簽到數(shù)量,將統(tǒng)計(jì)結(jié)果繪制為表格和直方圖。B. 按四個(gè)區(qū)(五華區(qū)、盤龍區(qū)、西山區(qū)和官渡區(qū))統(tǒng)計(jì)每個(gè)月,每周工作日和休息日,每天的用戶簽到數(shù)量,將統(tǒng)計(jì)結(jié)果繪制為表格和直方圖。C. 根據(jù)POI的經(jīng)緯度坐標(biāo)和用戶簽到的經(jīng)緯度坐標(biāo),統(tǒng)計(jì)按類別名稱分組簽到數(shù)和簽到用戶數(shù)TOP10的POI點(diǎn)附件有多少對(duì)應(yīng)的用戶簽到數(shù)量,并將統(tǒng)計(jì)結(jié)果繪制為表格和直方圖。D. 根據(jù)POI的經(jīng)緯度坐標(biāo)和用戶簽到的經(jīng)緯度坐標(biāo),統(tǒng)計(jì)按類別名稱分組和四個(gè)區(qū)的簽到數(shù)和簽到用戶數(shù)TOP10的POI點(diǎn)附件(兩者距離最大為25m)有多少對(duì)應(yīng)的用戶簽到數(shù)量,并將統(tǒng)計(jì)結(jié)果繪制為表格和直方圖。表3-6

11、 2015年7月-9月用戶簽到數(shù)統(tǒng)計(jì)表月份簽到數(shù)7月50008月80009月6000表3-7 2015年7月每周用戶簽到數(shù)統(tǒng)計(jì)表周次簽到數(shù)110002500316004900表3-8 2015年7月各周次工作日和休息日用戶簽到數(shù)統(tǒng)計(jì)表周次工作日簽到數(shù)休息日簽到數(shù)11020234表3-9 2015年7月每天用戶簽到數(shù)統(tǒng)計(jì)表7月1日7月2日7月3日7月4日7月5日7月6日7月7日10207月8日7月9日7月10日7月11日7月12日7月13日7月14日7月15日7月16日7月17日7月18日7月19日7月20日7月21日7月22日7月23日7月24日7月25日7月26日7月27日7月28日7月29

12、日7月30日表3-10 高等院校簽到用戶數(shù)TOP 10的統(tǒng)計(jì)表IDPOI名稱簽到用戶數(shù)1云南大學(xué)1002昆明理工大學(xué)8010財(cái)經(jīng)大學(xué)10表3-11 五華區(qū)高等院校簽到用戶數(shù)TOP 10的統(tǒng)計(jì)表(距離25m)IDPOI名稱簽到用戶數(shù)1云南大學(xué)1002昆明理工大學(xué)8010財(cái)經(jīng)大學(xué)10注意:以上對(duì)兩個(gè)文件的分析都可以用Modeler實(shí)現(xiàn)。但需要把每一個(gè)對(duì)應(yīng)的數(shù)據(jù)流截圖到統(tǒng)計(jì)表格上方,并標(biāo)識(shí)其名稱。4聚類挖掘?qū)嶒?yàn)說(shuō)明:聚類挖掘需要給出每個(gè)月,每周,每周的工作日和休息日、每天以及每小時(shí)的聚類挖掘結(jié)果。不需要將聚類結(jié)果加載到地圖上??捎帽?-1和圖4-1所示的方法進(jìn)行展示。表4-1 2015年7月1日時(shí)段

13、6:00-6:59聚類熱點(diǎn)結(jié)果統(tǒng)計(jì)表編號(hào)聚類熱點(diǎn)范圍(經(jīng)緯度坐標(biāo)最大-最小值所形成的區(qū)域)簽到用戶數(shù)1經(jīng)度1,緯度1;經(jīng)度2,緯度2;經(jīng)度3,緯度3;經(jīng)度4,緯度4300226010152圖4-1 2015年7月1日時(shí)段6:00-6:59聚類熱點(diǎn)結(jié)果圖此外,聚類結(jié)果需要按照如下目錄進(jìn)行存儲(chǔ)和說(shuō)明:1先創(chuàng)建每個(gè)月的文件夾;2. 再創(chuàng)建每個(gè)月下每天的文件夾;3. 在每天文件夾下創(chuàng)建每個(gè)時(shí)段的文件夾。如圖4-2a所示。a. 每個(gè)時(shí)段文件夾圖4在每個(gè)時(shí)段下,生成所有的聚類文件,每個(gè)聚類生成一個(gè)文件,文件命名如圖b所示。每個(gè)文件的內(nèi)容如圖c所示。b一個(gè)時(shí)段下的聚類文件和聚類效果圖c聚類結(jié)果示意圖注意:聚類結(jié)果包括4列:時(shí)間,經(jīng)度,緯度,所屬聚類編號(hào)。圖4-2 聚類熱點(diǎn)結(jié)果保存圖5預(yù)測(cè)分析實(shí)驗(yàn)1、根據(jù)前面2個(gè)月的簽到數(shù)據(jù)聚類結(jié)果的數(shù)量和位置預(yù)測(cè)測(cè)試集在每天、每個(gè)時(shí)段可能的數(shù)量和位置。2、用DBSCAN算法計(jì)算測(cè)試集所形成的數(shù)量和位置。3、將預(yù)測(cè)結(jié)果與實(shí)際結(jié)果進(jìn)行比較,根據(jù)要求分析誤差,并將誤差結(jié)果繪制為折線圖。4、

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論