jsjds2016-24693基于智慧校園卡的大數(shù)據(jù)分析與可視化動態(tài)展示作品設計說明書_第1頁
jsjds2016-24693基于智慧校園卡的大數(shù)據(jù)分析與可視化動態(tài)展示作品設計說明書_第2頁
jsjds2016-24693基于智慧校園卡的大數(shù)據(jù)分析與可視化動態(tài)展示作品設計說明書_第3頁
jsjds2016-24693基于智慧校園卡的大數(shù)據(jù)分析與可視化動態(tài)展示作品設計說明書_第4頁
jsjds2016-24693基于智慧校園卡的大數(shù)據(jù)分析與可視化動態(tài)展示作品設計說明書_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、基于智慧校園卡的大數(shù)據(jù)分析與可視化動態(tài)展示 設計說明書參賽編號:24693參賽學校:上海大學參賽成員:吳婷 龔成 金安琪2021 年 5 月 9 日1簡介31.11.2作品創(chuàng)意/項目背景3項目實施計劃32總體設計42.1系統(tǒng)功能.2功能概述4功能說明42.2系統(tǒng)軟硬件平臺.2系統(tǒng)開發(fā)平臺(含開源/第工具)5系統(tǒng)運行平臺作品特色83詳細設計說明103.1系統(tǒng)結(jié)構(gòu)設計.23.1.3技術架構(gòu)10功能模塊設計10關鍵功能/算法設計103.2數(shù)據(jù)結(jié)構(gòu)設計123.2.1數(shù)據(jù)121. 數(shù)據(jù)庫122. 文件.3.13接口

2、(模塊接口、系統(tǒng)間接口)13關鍵數(shù)據(jù)結(jié)構(gòu)143.3系統(tǒng)界面設計.23.3.3界面設計風格14主要功能頁面15Web頁面結(jié)構(gòu)設計錯誤!未定義書簽。456系統(tǒng)安裝及使用說明40總結(jié)41附錄4名詞定義42參考資料42源代碼.421簡介1.1作品創(chuàng)意/項目背景在大數(shù)據(jù),步入大學的我們學生,甚至是老師,已經(jīng)與一卡通有著密不可分的關系。每一次刷卡的背后,都隱藏著數(shù)據(jù)的奧秘。比如刷一卡通的地點、刷一卡通的時間、通過一卡通消費的金額等,都會暗示出一個人乃至一群人的消費水平、生活習慣以及各方面潛在的規(guī)律?;谝陨险J識,我們的項目旨在通過分析與一卡通有關的數(shù)據(jù)了解每位和一卡

3、通有關的校園人每年利用一卡通消費數(shù)據(jù)(以月為進行統(tǒng)計)以及每位校園人在一年每一天的同一時間消費情況等來找出校園人背后消費的奧秘。1.2項目實施計劃【介紹作品創(chuàng)作過程中的分工、設計制作進度安排等。】吳婷龔成金安琪2016.1.1-2016.1.18了解題意并理清思路、找準處理數(shù)據(jù)的方向2016.1.19-2016.2.20學習利用 python處理數(shù)據(jù)學習利用數(shù)據(jù)庫處理數(shù)據(jù)學習利用 D3.js、hcharts 處理數(shù)據(jù)繪圖2016.2.20-2016.3.20集中處理分析數(shù)據(jù)2016.3.28提交作品2總體設計【本章對系統(tǒng)實現(xiàn)的功能、開發(fā)技術和應用環(huán)境進行介紹?!?.1系統(tǒng)功能2.1.1功能概述

4、【概述系統(tǒng)實現(xiàn)的主要功能,包括系統(tǒng)性能。需給出系統(tǒng)功能的框架結(jié)構(gòu)圖,樣例如圖 1 所示?!吭撓到y(tǒng)主要以分析處理數(shù)據(jù)為主,通過對消費地點、一卡通刷門禁的時間、個人以及群體消費金額等,來發(fā)現(xiàn)和一卡通有關的校園的生活習慣等方面的規(guī)律,進而對現(xiàn)實生活提出指導建議。消費地點門禁時間消費金額刷卡地點食堂受歡迎程度特殊生活習慣個人消費習慣生源地點食堂管理水平相似人群關系網(wǎng)暫停任務各消費地點物價高低結(jié)束任務圖 1 系統(tǒng)功能框架圖2.1.2功能說明【對系統(tǒng)功能分層逐一詳細說明。注意此處給出的是從用戶角度看到的功能?!俊鞠M地點】:1、統(tǒng)計人流量或人均消費金額等可以判斷出一個食堂的受歡迎程度;2、刷卡機上有操作與

5、否的,對食堂管理有指導意義;3、對消費地點降低物價或是多提供服務窗口等有指導意義?!鹃T禁時間】:1、對某個人長期的生活習慣加以了解進而判斷其性格等特點;2、若其中幾個人的刷門禁時間接近的幾率很高,可判斷其幾人的親密程度或者相關的程度?!鞠M金額】:1、對一個人的的消費進行跟蹤統(tǒng)計,可判斷其消費習慣;2、若存在一部分人的消費所對應時間與大部分人的習慣不一致,則可推斷原因。若與智慧校園一卡通數(shù)據(jù)分析學校上課時間有關,則可對學校排課時間提供指導建議;3、若兩人的消費金額很相近且消費時間近似度很高,則可推斷出這個人的關系網(wǎng),比如室友、等關系?!舅⒖ǖ攸c】:1、如果在周末經(jīng)常有刷校門門禁的,可在一定程度

6、上推斷出學生的生源地為上海等;2、刷卡地點有很多,除了門禁,還有澡堂、教學樓澡堂和可以判斷人群對該種設備的需求度,可在一定程度上增加或是減少該項服務。教學樓的屬性可以判斷群的專業(yè)信息。2.2系統(tǒng)軟硬件平臺2.2.1系統(tǒng)開發(fā)平臺(含開源/第工具)【介紹系統(tǒng)開發(fā)所使用的軟件和硬件環(huán)境,包括所用到的開源平臺、第給出使用操作系統(tǒng)的名稱、生產(chǎn)廠家、版本號等。工具。給出所用開源平臺的、版本,該平臺提供的功能。如關鍵算法的實現(xiàn)或部分實現(xiàn)調(diào)用了第工具或源代碼,請標出其出處,寫明已實現(xiàn)的功能。給出使用數(shù)據(jù)庫的名稱、生產(chǎn)廠家、版本號等。如使用了多種數(shù)據(jù)庫,則要說明如何實現(xiàn)相互之間的關聯(lián)。給出使用的硬件設備,型號、

7、生產(chǎn)廠家等。】操作系統(tǒng):Windows7、Windows10 開源平臺:Pycharm、notepad+、數(shù)據(jù)庫:SOL sever 2008開發(fā)軟件:Python 2.7.11硬件設備:Lenovo Y50,華碩超極本2.2.2系統(tǒng)運行平臺【介紹系統(tǒng)運行時需要的軟件和硬件環(huán)境。指明系統(tǒng)是集中式還是分布式的,說明設備的部署要求。提供系統(tǒng)通信網(wǎng)絡的詳細描述, 示系統(tǒng)組件是如何連接的。說明每臺硬件設備上部署的系統(tǒng)軟件,包括版本要求】。表2.3【介紹作品完成所用到的各項,包括開發(fā)技術和理論技術?!?.3.1【python 簡介】Python 是一門跨平臺的開源、的解釋型語言,同時也支持偽編碼以進行優(yōu)

8、化和提高運行速度,還支持使用 Py2exe 工具將 Python 程序轉(zhuǎn)換為 exe 可執(zhí)行程序以使得可以在沒有安裝Python 解釋器和相關依賴包的平臺運行;Python 同時支持命令式編程、函數(shù)式編程和面向?qū)ο缶幊?,語法簡潔清晰,并且擁有大量的幾乎支持所有領域應用開發(fā)的成熟擴展庫;最后,Python 就像膠水一樣,可以把多種不同語言編寫的程序融合到一起實現(xiàn)無縫拼接,更好地發(fā)揮不同語言和工具的優(yōu)勢。2.3.2【抽樣算法介紹】采樣算法是學習中比較常用,也比較容易實現(xiàn)的。常用的采樣算法有以下幾種:1、單純隨機抽樣(simple random sampling)將總體全部觀察編號,再用抽簽法或隨機

9、數(shù)字表隨機抽取部分觀察組成樣本。優(yōu)點:操作簡單,均數(shù)、率及相應的標準誤計算簡單。缺點:總體較大時,難以一一編號。python 代碼實現(xiàn):def RandomSampling(dataMat,number):try:slice = random.sample(dataMat, number)return sliceexcept:print 'sample larger than population'2、系統(tǒng)抽樣(systematic sampling 搜索)又稱機械抽樣、等距抽樣,即先將總體的觀察按某一順序號分成 n 個部分,再從第一部分隨機抽取第 k 號觀察,依次用相等間距,

10、從每一部分各抽取一個觀察組成樣本。優(yōu)點:易于理解、簡便易行。缺點:總體有周期或增減趨勢時,易產(chǎn)生偏性。python 代碼實現(xiàn):def systematicSampling(dataMat,number):length=len(dataMat)k=length/numbersample=i=0if k>0 :while len(sample)!=number:sample.append(dataMat0+i*k)i+=1return sampleelse :return RandomSampling(dataMat,number)3、整群抽樣(cluster sampling)總體分群,再

11、隨機抽取幾個群組成樣本,群內(nèi)全部優(yōu)點:便于組織、節(jié)省經(jīng)費。缺點:抽樣誤差大于單純隨機抽樣。4、分層抽樣(stratified sampling)先按對觀察指標影響較大的某種特征,將總體分為若干個類別,再從每一層內(nèi)隨機抽取一定數(shù)量的觀察,合起來組成樣本。有按比例分配和最優(yōu)分配兩種方案。優(yōu)點:樣本代表性好,抽樣誤差減少。以上四種基本抽樣方法都屬單階段抽樣,實際應用中常根據(jù)實際情況將整個抽樣過程分為若干階段來進行,稱為多階段抽樣。各種抽樣方法的抽樣誤差一般是:整群抽樣單純隨機抽樣系統(tǒng)抽樣分層抽樣5、蓄水池抽樣簡介:蓄水池抽樣算法隨機算法的一種,用來從 N 個樣本中隨機選擇 K 個樣本,其中 N 非常

12、大(以至于 N 個樣本不能同時放入內(nèi)存)或者 N 是一個未知數(shù)。其時間復雜度為O(N),包含下列步驟 (假設有一維數(shù)組 S, 長度未知,需要從中隨機選擇 k 個元素, 數(shù)組下標從碼如下:1開始),偽代array Rk;integer i, j;/ result/ fill the reservoir arrayfor each i in 1 to k doRi := Sidone;/ replace elements with gradually decreasing probabilityfor eachi in k+1 to length(S) doj :=if jrandom(1, i)

13、;/ important: inclusive range<= k thenRj := Sifidone算法首先創(chuàng)建一個長度為 k 的數(shù)組(蓄水池)用來存放結(jié)果,初始化為 S 的前 k 個元素。然后從 k+1 個元素開始迭代直到數(shù)組結(jié)束,在 S 的第 i 個元素,算法生成一個隨機數(shù) j1,i, 如果 j <= k, 那么蓄水池的第 j 個元素被替換為 S 的第 i 個元素。算法正確性證明:定理:該算法保證每個元素以 k / n 的概率被選入蓄水池數(shù)組。證明:首先,對于任意的 i,第 i 個元素進入蓄水池的概率為 k / i;而在蓄水池內(nèi)每個元素被替換的概率為 1 / k; 因此在第

14、 i 輪第j 個元素被替換的概率為 (k / i ) * (1 / k) = 1/ i。 接下來用數(shù)學歸納法來證明,當循環(huán)結(jié)束時每個元素進入蓄水池的概率為 k / n.假設在 (i-1) 次迭代后,任意一個元素進入 蓄水池的概率為 k / (i-1)。有上面的結(jié)論,在第 i 次迭代時,該元素被替換的概率為 1 / i,那么其不被替換的概率則為 1 - 1/i = (i-1)/i;在第 i 此迭代后,該元素在蓄水池內(nèi)的概率為 k / (i-1) * (i-1)/i = k / i. 歸納部分結(jié)束。因此當循環(huán)結(jié)束時,每個元素進入蓄水池的概率為 k / n. 命題得證。算法的局限性:蓄水池算法的基本

15、假設是總的樣本數(shù)很多,不能放入內(nèi)存,暗示了選擇的樣本數(shù) k是一個與 n 無關的常數(shù)。然而在實際的應用中,k 常常與 n 相關,比如我們想要隨機選擇 1/3(k = n / 3),這時候就需要別的算法或者分布式的算法。的樣本6、吉布斯抽樣吉布斯采樣是生成馬爾科夫鏈的法,生成的馬爾科夫鏈可以用來做蒙特卡洛,從而求得一個較復雜的多元分布。吉布斯(Gibbs)抽樣可以在給定協(xié)方差數(shù)據(jù)和參數(shù)的先驗分布條件下獲得結(jié)構(gòu)方程參數(shù)的后驗分布樣本。參數(shù)的點估計、區(qū)間估計和標準誤就可以用這些樣本數(shù)據(jù)計算吉布斯采樣的具體做法:假設有一個 k 維的隨機向量,現(xiàn)想要構(gòu)造一條有 n 個樣本的 k 維向量(n 樣本馬爾科夫序

16、列),那么(隨機)初始化一個 k 維向量,然后固定這個向量其中的 k-1個元素,抽取剩下的那個元素(生成給定后驗的隨機數(shù)),這樣循環(huán) k 次,就把整個向量更新了一遍,也就是生成了一個新的樣本,把這個整體重復 n 次就得到了一條馬爾科夫鏈。參考文獻:蓄水池抽樣:http:/news/view/1d1ec162.4作品特色【重點介紹本作品在創(chuàng)意、開發(fā)實現(xiàn)、應用等方面的亮點,有特色的功能,團隊重點解決的問題等?!俊咀髌返膭?chuàng)意】:在分析處理數(shù)據(jù)的過程中,每當發(fā)現(xiàn)一個有有關聯(lián)的各種數(shù)據(jù),并發(fā)掘出很多有趣的現(xiàn)象。的數(shù)據(jù)點,我們會著重關注進一步加以分析與之比一部分人群的有凌晨刷卡消費的,這就很令我們項目組成

17、員好奇其刷卡的途徑以及刷卡的目的;比的人的消費到下半年七月份之后就消失了,是否可以判斷該人已經(jīng)離校(畢業(yè)、休學等任何可能的情況)【特色的功能】:我們通過數(shù)據(jù)分析出的結(jié)果,可以對現(xiàn)實提出指導意義,比如,學校的排課時間是否可以調(diào)整, 食堂的物價是否可以下調(diào),學校的澡堂數(shù)量是否可以增加、服務時間是否可以延長,學校是否根據(jù)個人特殊的消費習慣開設特色服務比如夜間美食屋等?!緢F隊重點解決的問題】:在大數(shù)據(jù)的前提下,如何快速處理數(shù)據(jù)、篩選出我們需要的數(shù)據(jù)是一個問題。而且在一開始,面對這么多數(shù)據(jù),無從下手,不知可以從何處開始加以分析。之后在與同學的討論交流下,找到了方向、找到了目標。3詳細設計【對系統(tǒng)或子系統(tǒng)

18、實現(xiàn)方法進行詳細說明?!?.1系統(tǒng)結(jié)構(gòu)設計3.1.1技術架構(gòu),B/S、C/S 平臺和移動平臺,說明選用該技術的原因。使用【說明系統(tǒng)實現(xiàn)采用的的關鍵開發(fā)技術框架說明。】Html, CSS原因:一:大多瀏覽器支持,低版本也沒問題 。我看點這方面的資料,是為了做應用(有三個方案,這個是備用方案),可以開發(fā)響應式,可以脫離開發(fā)平臺進行跨平臺。在 Html5 網(wǎng)頁中引入 Modernizr,就能讓 IE 支持 HTML5 新元素。HTML5 樣板文件快速開發(fā)(ht) 。二:布局、省時省力在 CODE 上查看代碼片派生到代碼片。3.1.2功能模塊設計【給出系統(tǒng)開發(fā)的功能模塊結(jié)構(gòu)圖,并說明系統(tǒng)按照什么原理進

19、行劃分,系統(tǒng)將由哪些部分, 或?qū)哟谓M成。用圖的形式將各個模塊之間的調(diào)用關系說明清楚。如果采用面向過程的開發(fā)技術,給出主要的函數(shù)結(jié)構(gòu)和調(diào)用關系圖;如果采用面向?qū)ο蟮姆椒ㄟM行設計,模塊調(diào)用關系圖相當于包(package )圖?!肯到y(tǒng)模塊有首頁、館消費、體育館消費、藝術中心消費、以及消費情況分析。3.1.3關鍵功能/算法設計【給出系統(tǒng)關鍵功能的實現(xiàn)流程圖或算法設計流程圖,功能優(yōu)化的技巧等。數(shù)據(jù)庫系統(tǒng)如使過程也應在此進行介紹。用了#-*- coding: UTF-8 -*- import numpy as np import datetimeimport matplotlib.dates import

20、 pylab as pl import csvimport rewith open("") as f:reader = csv.reader(f)cfile = open("D:/Python/project/ls.txt","w")for row in reader:if( re.match(r'201501(.*?)',row1,re.M|re.I):cfile.write(row0+" "+row1+" "+row2+" "+row3+" &q

21、uot;+row4+" "+row5+""+row6+"n")import numpy as np import datetimeimport matplotlib.dates import pylab as pl import csvimport refrom openpyxl import Workbookwith open("D:/Python/project/bf.csv") as f: wb = Workbook()ws = wb.activereader = csv.reader(f) for row

22、in reader:if(re.match(r'201501(.*?)',row1,re.M|re.I): ws.append(row0, float(row1),float(row2),row3,float(row4),row5,row6+"n")wb.save("D:/Python/project/m1.xlsx")#-*- coding: UTF-8 -*-import csv import refrom openpyxl import Workbookwith open("D:/Python/project/bf.csv

23、") as f: wb = Workbook()ws = wb.activereader = csv.reader(f) for row in reader:#if( re.match(r'YQSH20(.*?)|YQSH210(.*?)|YQSH211(.*?)|YQSH212(.*?)',row3,re.M|re.I):#地點的查找if( row0 ="XLHZQXPQ"):#查找人ws.append(row0, float(row1), float(row2),row3,float(row4),row5,row6+"n")

24、wb.save("D:/Python/project/m1.xlsx")and re.match(r'YQSH100(.*?)|YQSH101(.*?)',row3,re.M|re.I) df=pd.read_csv('D:/Python/project/df.csv') frame=pd.DataFrame(df)print(df.head) print(frame'ACCESSTIME',frame'NODEDSC') tup=frame'ACCESSTIME'print (tup)x=fr

25、ame1y=frame2 plt.plot(x,y,'ro')3.2數(shù)據(jù)結(jié)構(gòu)設計【一般而言數(shù)據(jù)分為數(shù)據(jù)及內(nèi)部邏輯數(shù)據(jù),而前兩類數(shù)據(jù)是系統(tǒng)和外部系統(tǒng)之間,以及系統(tǒng)內(nèi)部模塊間交換用的,內(nèi)部邏輯數(shù)據(jù)是模塊內(nèi)為了實現(xiàn)一定的邏輯功能而設計的?!课覀儚脑镜?CSV 文件提取想要的數(shù)據(jù),沒有原本 CSV 文件的數(shù)據(jù)結(jié)構(gòu),消費數(shù)據(jù)和消費數(shù)據(jù)對應表相對應,這兩張表格起來,獲取想要的信息。主要以消費數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)處理數(shù)據(jù),并加以處理,做出相應的表格。3.2.1【數(shù)據(jù)數(shù)據(jù)是指系統(tǒng)產(chǎn)生的需長期存放在介質(zhì)上的數(shù)據(jù),一般系統(tǒng)都將重要數(shù)據(jù)存放在介質(zhì)上,且存放在介質(zhì)上的數(shù)據(jù)往往其他系統(tǒng)也可以到。根據(jù)1. 數(shù)

26、據(jù)庫方式的不同又可以分為數(shù)據(jù)庫和文件等方式?!俊臼褂?Visio 或直接使用數(shù)據(jù)庫管理系統(tǒng)建立系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)對象模型。畫出建立的邏輯數(shù)據(jù)模型 E-R 圖,給出數(shù)據(jù)字典,即列表說明數(shù)據(jù)庫中每個表及視圖的字段、主鍵、外鍵、約束和索引等,如表 1 所示。門禁地點門禁日期門禁時間編號門禁消費消費地點消費日期消費金額消費時間消費地點表 1 個人消費數(shù)據(jù)表數(shù)據(jù)表名: costID中文描述:個人消費數(shù)據(jù)表字段名稱字段描述數(shù)據(jù)類型長度是否允許空缺省值備注date消費日期date10N000000索引time消費時間time10N00:00:00索引cost消費金額float50NNULLaddress消費地

27、點varchar50NNULL一卡通校園人表 2 個人門禁對應表2. 文件【如果方式為文件,應給出文件的路徑及方式,完整清楚地說明文件名規(guī)則。對存放在文件中的數(shù)據(jù)格式和含義應進行說明。從“消費數(shù)據(jù).csv”文件中篩選出個人的消費數(shù)據(jù)以該校園人的學號轉(zhuǎn)碼命名,以xlsx文件格式,存放在 python 工程的 data 目錄下。到處的文件如下圖所示:表頭分別對應:學號、消費日期、消費時間、刷卡機編號、消費金額、級別該下圖所示信息為 12 級某學號為 XLHZQXPQ 的博士生在 2015 年 1 月的部分消費。3.2.2接口(模塊接口、系統(tǒng)間接口)【包含系統(tǒng)間或者模塊間用來交換信息用的數(shù)據(jù),它是系

28、統(tǒng)接口或者模塊接口的一部分,是系統(tǒng)間或者模塊間交換信息的橋梁。交換數(shù)據(jù)方式也可以分為共享數(shù)據(jù)(共享文件,共享內(nèi)存等)、通訊協(xié)議、參數(shù)傳遞、拋異常等方式。無論采用何種方式必須詳細說明數(shù)據(jù)(協(xié)議)的格式及含義。用 python 導入并csv 格式的文件,進而加工處理篩選出需要的數(shù)據(jù),將其導出為 xlsx數(shù)據(jù)表名: addressID中文描述:個人門禁對應表字段名稱字段描述數(shù)據(jù)類型長度是否允許空缺省值備注date門禁日期date10N000000索引time門禁時間time10N00:00:00索引address門禁地點varchar50NNULL文件進一步處理,生成圖像。3.2.3關鍵數(shù)據(jù)結(jié)構(gòu)【指

29、關鍵信息在內(nèi)存中的數(shù)據(jù)概念數(shù)據(jù)模型(即類圖)。結(jié)構(gòu)。如果采用面向?qū)ο蟮某绦蛟O計,這里應該給出就是3.3系統(tǒng)界面設計3.3.1界面設計風格頁面上方是菜單欄進行導航,下方是各個分析的結(jié)果,包含數(shù)據(jù)和圖表。主頁面標題是本次項目的名稱。爭鋒頁面色系偏暖,頁面布局簡潔育館消費、浴室消費、藝術中心消費、還有一些,操作便捷。菜單欄分別有館消費、體學生的消費數(shù)據(jù),都可以進行。3.3.2主要功能頁面主頁面列出了我們分析的數(shù)據(jù)圖表,以及相應的分析,只要點擊相應的數(shù)據(jù)分析,就能轉(zhuǎn)到想對應的頁面,可以看到圖表與文字相結(jié)合的敘述,使用戶對數(shù)據(jù)分析有一個完整的了解。消費金額與生活習慣首先,我們篩選出某位博士

30、生同學一年中每月消費總額:根據(jù)二月和八月的數(shù)據(jù),可以推斷出該博士生在寒暑假在學校的時間非常少。其他月份的消費也幾乎出于正常水平。接著,我們對該博士生一年內(nèi)每天消費數(shù)據(jù)都顯示在同一張表格中:橫坐標為一天的時間,從零點到 24 點;縱坐標為消費金額。該數(shù)據(jù)取自 2015 年,即為該博士生一年的消費金額與時間散點圖。通過圖片,我們意外發(fā)現(xiàn),該博士生出現(xiàn)了一次凌晨四點刷卡消費的!是什么樣的 pos 刷卡機會在凌晨四點就提供服務,而又是什么原因?qū)е略摬┦可鷷诹璩克狞c出門刷卡消費?!帶著疑問,我們進行了如下的圖像處理。我們發(fā)現(xiàn)這個博士生在夜間 12 點左右有消費,是在益新水果行機,這個地方我們不是十分了

31、解,我們推測這是一個自動收貨點,因為我們在其他人的消費中也發(fā)現(xiàn)了在深夜有在這個地方的消費。一般在深夜是有消費的,可以推測在這么晚時間還有消費的人,一定很晚睡覺。但是這些深夜消費只是偶然的,在眾多數(shù)據(jù)之中,可以被忽略,但是從這個不同尋常的消費中,我們可以推測出這個博士生應該是住在校內(nèi)的,而且在晚上 10 點之后的消費也很多,應該是睡得較晚的人,而且喜歡在晚上吃零食。這是某的月消費金額趨勢,通過數(shù)據(jù)可發(fā)現(xiàn),該在八月之后再無消費,加之我們查找數(shù)據(jù)發(fā)現(xiàn)在相同時間段的其他地方也無刷卡,可判斷該生已畢業(yè)。這種情況的發(fā)現(xiàn)可體現(xiàn)出畢業(yè)人群的特點,可以此為依據(jù)判斷學生畢業(yè)時間。接下來,老師、本科生、的消費金額趨

32、勢放在一張表格中:我們發(fā)現(xiàn)如下規(guī)律:1、老師的在一年中每月的消費金額比較均勻,學生波動較大。2、一般看來,學生消費比老師要略多,我們猜測老師可能會經(jīng)?;丶页?。帶著疑問,又分析了老師的日消費散點圖:老師的作息真是規(guī)律,而且老師的早飯時間比較早,中午和晚上的時間分布可能與教課時間有關系,這里不做評估。但是換法統(tǒng)計該老師的日消費數(shù)據(jù),又得到的現(xiàn)象:該老師三月是沒有晚餐消費的,而且該老師在暑假仍保持著和平時一樣的消費習慣,可推測三月對他的不一樣的意義,可能一直回家吃飯;而暑假在學校帶學生做項目的可能性也是極大的。老師的飲食習慣很規(guī)律,但是學生就不一樣了:可以說,該本科生白天的刷卡時間沒有非常規(guī)律的現(xiàn)象

33、,可推測其作息隨著課程的開課時間,有時需要早起,需要刷晨跑,消費早餐的刷卡時間就早一點;若是沒有早課不需要早起,就在需要上課的時間之前起床吃早飯消費。就連中午和晚上的時間,也不是很有規(guī)律。眾所周知,一個人的飲食習慣對一個人的健康是非常重要的,年輕的時候不規(guī)律飲食,可能的增長,毛病就會一點一點顯現(xiàn)出來危害我們的健康。隨著學校的課表中午沒有休息時間,十一點四十下課,后的十二點十分就會繼續(xù)上課,雖說選課自由可以不選那個時間,但是有的專業(yè)課的時間是定下來的必須要選的,不僅學生吃不好飯,老師也是。所以,在此我們誠懇的呼吁學校教務處多給我們一點點中午的時間,哪怕晚上上課會更晚一點,我們也需要好好吃一段飯!

34、繼續(xù)著,我們又發(fā)現(xiàn)一個不是“大數(shù)據(jù)”的數(shù)據(jù):該的消費很少,只有 100 條左右,將改的消費換式統(tǒng)計:以日期為橫坐標,時間為縱坐標,可看出在 2015 年的消費不怎么在學校待著,一放假就很早就回家,應該是上海學生。主要集中在寒假前,而且該為什么說他不經(jīng)常在學校待著呢,因為一個正常在學校吃喝玩耍的學生的日常應該是這樣的:每個月均勻分布,多有愛而類似于這種少了下半年數(shù)據(jù)的, 就是前面提到的畢業(yè)了的同學,或者當兵也是有可能的。分析了好多個例,這些個例放在一張圖表中,加以比對:由此可見,學生群體,不管是本科生、還是博士生,大家的消費趨勢都是大同小異的,集中在一、四、五、九、十二等月份?;蛟S學??梢岳脤W

35、生的這一特點,在這幾個月多辦一些美食活動,而在淡季多辦一些促銷活動,達到雙贏!這位學生是 09 級的本科生,我們從他的消費中可以看出,他已經(jīng)不在學校居住,只有在畢業(yè)時和一月份左右回過學校,而且也不記得自己有這么長一段時間的沒有還書的情況。應該是之后在辦畢業(yè)手續(xù)的時候,學校通知他的,這時他才不得不還這么多的滯留金,這對他來說也是一筆不小的經(jīng)濟損失。建議校館可以以通知的方式,滯留金較高的同學。從這個同學在益新的消費,可以看出這個人在益新食堂窗口的選擇上偏向于一個窗口,我們無法確切得知這是哪個窗口,但是我們也可以推測出這個人在事物的選擇上是有偏好的,進一步也可以推測出當一個食堂的一個窗口的事物吸引了

36、一個人之后,這個人會有很大概率再次來這個窗口用餐。在圖中可以看出,其他窗口的選擇較為平均,說明這個人在選擇食物時也會考慮平衡一些,營養(yǎng)均衡一些。而對于食堂來說,美味可口的佳肴絕對是吸引人選用的最大利器。寶山館滯納金繳費對于給出的消費文件,使用 Python 對寶山館滯納金繳費數(shù)據(jù)進行了分析,首先根據(jù) 設 備 對 照 表 檢 索館 滯 留 金 刷 卡 設 備 對 應 的 設 備 ID 號 :XAZHK00009|1060830|ZHK00073|ZHK00024|ZHK00026|ZHK00028|ZHK00030|ZHK00072|ZHK00010|ZHK00022再根據(jù)消費數(shù)據(jù)

37、表檢索出每一個刷卡,圖表展示如下:(一)從以上兩個圖中我們可以看出:1.2.本科生延期還書所占比重最大,其次是。老師和博士生的比重相當。從圖中可以看出成員的信譽由高到底依次是(二)從上圖我們可以看出1.全校學生中,不管是本科生、還是老師,當欠款金額達到 20 元之后都會較主動得將圖書歸還。少部分人有超過 50 元的現(xiàn)象。大部分人的欠款金額集中在 0-20 元之間,占總?cè)藬?shù)的 95.43%2.經(jīng)過統(tǒng)計篩選出來的數(shù)據(jù),我們得知有欠款的人數(shù)共有:9600 人欠款金額在 0-20 元人數(shù):9162 人占總?cè)藬?shù)的 9162/9600=95.43%根據(jù)上海大學館的規(guī)章制度(http:/w/shulib/a

38、bout/policy#3)凡逾期違約的資料每冊每天收取違約金0.10 元。假設每個人平均有 4 本書超期,一天的滯留金為 0.4,欠款 20 元即超期 50 天。這種現(xiàn)象將使館滯留,不利于共享,同時將會使同學們養(yǎng)成不誠信的習慣。因此,建議學校改善違約金制度,超期的前 15 天,資料每冊每天收取違約金0.10 元,超過 15 天0.20 元。這樣大部分人將會在超期的前兩周集中歸的部分,資料每冊每天收取違約金還,有利于的充分共享。(三)縱坐標:一個年級的滯留金總額橫坐標:年級從上圖中我們可以看出:13 級 14 級滯留金總額最多,其次是 12 級和 11 級,由于 13 級和 14 級大部分都是

39、在校生,因此借書機會,滯留現(xiàn)象也更加嚴重。而 12 級大部分都已經(jīng)開始實習,因此借書次數(shù)相對較少,超期現(xiàn)象也相對較少。(四)從圖中可以看出:1.2015 年 1 月、7 月、8 月數(shù)據(jù)相對較少,其中 2 月、3 月、7 月、8 月晚上的數(shù)據(jù)明顯很少, 由此現(xiàn)象我們可以推斷這段時間學校處于放假狀態(tài),但是依然有部分學生在學校學習,借閱。2.上海大學館的開發(fā)時間是每天 8:00-22:00,從圖中可以看出有少部分同學是在 8:00 之前歸還,人數(shù):32,總?cè)藬?shù):9600 人,占總?cè)藬?shù)的 0.3%。3.針對早起還書的 32 位同學,我們對這些同學進行抽樣,分析了其中一名學號為 XQWNAXXQ的同學的

40、所有消費數(shù)據(jù),得出以下表格:大部分同學的作息如下表所示:從兩個圖我們可以看到,一般同學在早晨 6:00 左右沒有刷卡,而學號為 XQWNAXXQ的同學 6:00 左右就有很多,因此我們可以推斷該同學具有早起的習慣。我們可以看出:這位同學具有早起的習慣。(五)這位學生是 09 級的本科生,我們從他的消費中可以看出,他已經(jīng)不在學校居住,只有在畢業(yè)時和一月份左右回過學校,而且也不記得自己有這么長一段時間的沒有還書的情況。應該是之后在辦畢業(yè)手續(xù)的時候,學校通知他的,這時他才不得不還這么多的滯留金,這對他來說也是一筆不小的經(jīng)濟損失。建議校館可以以通知的方式,滯留金較高的同學。(六)我們發(fā)現(xiàn)這個博士生在夜

41、間 12 點左右有消費,是在益新水果行機,這個地方我們不是十分了解,我們推測這是一個自動收貨點,因為我們在其他人的消費中也發(fā)現(xiàn)了在深夜有在這個地方的消費。一般在深夜是有消費的,可以推測在這么晚時間還有消費的人,一定很晚睡覺。但是這些深夜消費只是偶然的,在眾多數(shù)據(jù)之中,可以被忽略,但是從這個不同尋常的消費中,我們可以推測出這個博士生應該是住在校內(nèi)的,而且在晚上 10 點之后的消費也很多,應該是睡得較晚的人,而且喜歡在晚上吃零食。(七)藝術中心根據(jù)以下設備 ID,我們得出下列表格:ART00001|ART00002|ART00003|ART00004從上表我們可以看出,上海大學藝術中心的消費博士生

42、消費最少。主要是本科生和,其中,從上述表格我們可以看出藝術中心每個月的消費基本穩(wěn)定,每個月的消費金額集中在0-100 元的居多,也有少數(shù)月份金額較高,比如 1 月份,由于上海大學每年 1 月份都會舉辦新年音樂會,因此去藝術中心練習的人會比平時時水平。,消費數(shù)據(jù)也就比超出平在上海大學每個年級的人數(shù)基本相等,但是從上圖可以看出去藝術中心的學生中大部分是低年級的學生,年級越高消費金額越少,去的次數(shù)越少。我們可以由此推斷,低年級的學生課余時間比高年級的時間更加充裕。除此之外,14 級的人數(shù)是最多的,超過了 15 級,這是由于數(shù)據(jù)是 2015 年一整年的,但是 15 級學生剛剛進入學校,時間較短,消費數(shù)

43、據(jù)相對較少是非常合理的。從上圖我們可以看出,從 8:00-22:00 每個時間段都有很多消費,由此可以推斷,去藝術中心的學生非常多,學生需求很大。為了進一步滿足學生的需求,提高學生的藝術修養(yǎng),可以考慮適當增加藝術中心樂器,擴大規(guī)模。(八)體育項目從上述三育館的圖表可以看出:1) 由于本科生的人數(shù)本身就多于其他的人,所以本科生人數(shù)基本上都占最多的人,但在訓練館的消費中看出,的人數(shù)大與本科生,可以看出對排球,冰球和籃球的要略大于本科生。2) 縱向比較的話,在訓練館的消費分布都要高于其在另外兩個地點的人數(shù)分布,而網(wǎng)球管的消費相比較其他兩個運動項目略低,可以推斷出老師打網(wǎng)球的人數(shù)不多。3) 博士生和其

44、他的人在各個場地的消費都差不多,在此就不做出什么結(jié)論。從上述數(shù)據(jù)可以看出:1) 體育館消費的主力軍是 13 級和 14 級,因為級 9 月份新生入學,而 12 級除了在游泳館的消費的是 15 年的,所以 11 級畢業(yè),15,其他的數(shù)據(jù)都要明顯低于 13,14 級的,這也許與 12 級的同學體育課在 2015 年已經(jīng)不開設了,并且與 12 級同學也了一些就業(yè)的等等。在此我們建議學校還是要給大三的學生開一些體育課程,維持同學們運動的積極性。2) 從游泳數(shù)據(jù)可以看出無論是 12,13,14 級的同學參與度都很高,可以看出游泳是一項大家都喜愛的運動,我們學??梢岳^續(xù)發(fā)揮同學們的積極性,并且增加泳池的開

45、放時間。3) 在訓練館消費上 14 級的同學略高于 13 的同學,其中的因素也許是這些在訓練館開設的項目在 14 級同學心目中收到好評,積極性略高。(九)浴室從這張洗澡的時間的分布圖可以看出,校內(nèi)浴室消費從早上十點左右開始就有人還款,可以看出這時浴室并沒有開,但是就有人開始還款。然后從下午四點開始,還款開始增加,這時也正是浴室開放的時候。此后人數(shù)開始增加,直到九到十點浴室開始出現(xiàn)一個小浴室即將關閉的時候,也是最后一節(jié)課下課的時候,這兩個原因?qū)е逻€款人數(shù)的,這時也是。還有一點就是還款金額在 05 元和 40 到 50 元這個區(qū)間,我們推測這和人的習慣有關系,有一小部分人習慣在花掉一點錢之后就馬上

46、充滿,或者是這個人很久么有使用洗澡卡了,不知道洗澡卡中的余額是多少,在的時候順便就充值了。還有一種就是在余額就快用盡的時候充值,這也是大多數(shù)人的習慣,因為沒有人會一直關系自己的洗澡卡里有沒有錢。4系統(tǒng)安裝及使用說明系統(tǒng)就是網(wǎng)頁,打開后,點擊菜單上的內(nèi)容即可轉(zhuǎn)到所在的頁面。菜單上的內(nèi)容有首頁、館消費、體育館消費、藝術中心消費、以及消費情況分析。操作簡潔,頁面布局。5總結(jié)其實一開始,面對大數(shù)據(jù)的我們,是手無足措的。找不到方向,不知道從何下手。后來,我們小組成員多在一起交流,在一起討論,一起查閱資料,啟發(fā)了很多,腦洞也開了好多:我們從消費數(shù)據(jù)與個人生活習慣、消費數(shù)據(jù)與人群之間關系、館還書引出的指導政

47、策、體育館刷卡、浴室刷卡等,來盡可能多地判斷數(shù)據(jù)背后隱藏的涉及到人的性格、部門的管理等各方面問題,令人深思。我們一開始用 python 處理數(shù)據(jù)的時候重重,由于數(shù)據(jù)文件太大不能用 python 導入、不會以 excel 格式導出、 csv 格式文件如何連接數(shù)據(jù)庫、D3.js 如何處理 csv 文件并生成可視化圖像這些都是我們的問題,需要一個一個解決。按照計劃,每人負責一個部分的學習,最后集中起來一起處理數(shù)據(jù)是最理想的。但是計劃趕不上變化,集中在一起的時候一邊做一邊一起學習,感覺互相討論著會進展很快。事實也確實是這樣,我們一邊討論著 python 的導入導出以及數(shù)據(jù)結(jié)構(gòu),一邊對數(shù)據(jù)進行畫圖分析,

48、確實也發(fā)現(xiàn)了很多值得我們深入挖掘的點。比如,我們會發(fā)現(xiàn)一個人的消費活動在晚上比較活躍是不是可以判斷有一部分人群的存在會促進夜間營業(yè)額的提升?比如,我們發(fā)現(xiàn)館的還書繳費是不是可以調(diào)整超期還款的政策以保證館得到更好的流通?比如,我們發(fā)現(xiàn)一個人在學校就餐的次數(shù)與價格是不是可以進一步推斷這個人的?順著這個思路我們一步一步挖掘下去,果真是發(fā)現(xiàn)了很多好玩的現(xiàn)象。不僅引起我們深思, 提出了我們感覺理想化的建議,還讓我們更加認清了一卡通,認清了大數(shù)據(jù),認清了數(shù)據(jù)挖掘!真是受益匪淺!6附錄6.1名詞定義【列出本文檔中用到的可能會引起的專業(yè)術語、定義或縮寫的原文?!?.2參考資料【列出設計說明書中的文獻或資料,資料的作者、標題、樣例如下。】和日期等信息,1 蓄水池抽樣:http:/news/view/1d1ec166.37源代碼#-*- coding: UTF-8 -*- imp

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論