![《Python經(jīng)濟大數(shù)據(jù)分析》數(shù)據(jù)獲取與預(yù)處理_第1頁](http://file4.renrendoc.com/view/cc21070ab3fc78646518fbc7fe0e0910/cc21070ab3fc78646518fbc7fe0e09101.gif)
![《Python經(jīng)濟大數(shù)據(jù)分析》數(shù)據(jù)獲取與預(yù)處理_第2頁](http://file4.renrendoc.com/view/cc21070ab3fc78646518fbc7fe0e0910/cc21070ab3fc78646518fbc7fe0e09102.gif)
![《Python經(jīng)濟大數(shù)據(jù)分析》數(shù)據(jù)獲取與預(yù)處理_第3頁](http://file4.renrendoc.com/view/cc21070ab3fc78646518fbc7fe0e0910/cc21070ab3fc78646518fbc7fe0e09103.gif)
![《Python經(jīng)濟大數(shù)據(jù)分析》數(shù)據(jù)獲取與預(yù)處理_第4頁](http://file4.renrendoc.com/view/cc21070ab3fc78646518fbc7fe0e0910/cc21070ab3fc78646518fbc7fe0e09104.gif)
![《Python經(jīng)濟大數(shù)據(jù)分析》數(shù)據(jù)獲取與預(yù)處理_第5頁](http://file4.renrendoc.com/view/cc21070ab3fc78646518fbc7fe0e0910/cc21070ab3fc78646518fbc7fe0e09105.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)獲取與預(yù)處理CONTENTS目錄2.1數(shù)據(jù)類型2.2數(shù)據(jù)獲取2.3數(shù)據(jù)質(zhì)量分析與清洗2.4數(shù)據(jù)特征分析2.5數(shù)據(jù)集成2.6數(shù)據(jù)規(guī)約012.1數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù)由二維表結(jié)構(gòu)來邏輯表達和實現(xiàn)的數(shù)據(jù)嚴(yán)格地遵循數(shù)據(jù)格式與長度規(guī)范2.1數(shù)據(jù)類型序號姓名年齡性別1張三27男2李四33男3王五21男4趙六48女
數(shù)據(jù)特點:關(guān)系模型數(shù)據(jù),關(guān)系數(shù)據(jù)庫表示。
常見格式:MySQL、Oracle、SQLServer等。
應(yīng)用場合:數(shù)據(jù)庫、系統(tǒng)網(wǎng)站、ERP等。
數(shù)據(jù)采集:數(shù)據(jù)庫導(dǎo)出、SQL方式等。半結(jié)構(gòu)數(shù)據(jù)比關(guān)系型數(shù)據(jù)庫或其他數(shù)據(jù)表形式關(guān)聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu)更加靈活和普通純文本相比又具有一定的結(jié)構(gòu)性2.1數(shù)據(jù)類型數(shù)據(jù)特點:非關(guān)系模型數(shù)據(jù),有一定的格式。常見格式:Email、HTML、XML、JSON等。應(yīng)用場合:郵件系統(tǒng)、檔案系統(tǒng)、新聞網(wǎng)站等。數(shù)據(jù)采集:網(wǎng)絡(luò)爬蟲、數(shù)據(jù)解析等。非結(jié)構(gòu)化數(shù)據(jù)沒有固定結(jié)構(gòu)以二進制的格式整體進行存儲大數(shù)據(jù)時代,非結(jié)構(gòu)化數(shù)據(jù)扮演著越來越重要的角色2.1數(shù)據(jù)類型數(shù)據(jù)特點:沒有固定格式的數(shù)據(jù)。常見格式:文本、PDF、PPT、圖片、音頻、視頻等。應(yīng)用場合:人臉識別、文本分析、醫(yī)療影像分析等。數(shù)據(jù)采集:網(wǎng)絡(luò)爬蟲、數(shù)據(jù)存檔等。022.2數(shù)據(jù)獲取文件是存儲在輔助存儲器上的數(shù)據(jù)序列,是數(shù)據(jù)的集合和抽象,有兩種展現(xiàn)形式:文本文件和二進制文件。文本文件:由單一特定編碼的字符組成,如UTF-8編碼,適用于例如:txt文件,.py文件等。二進制文件:直接由比特0和比特1組成,沒有統(tǒng)一字符編碼,適用于例如:.png文件,.avi文件等文件可以用“文本文件方式”和“二進制文件方式”打開2.2.1文件存取2.2.1文件存取2.1.txt文件保存:“實現(xiàn)中華民族偉大復(fù)興”文本方式打開二進制方式打開2.2.1文件存取Python對文本文件和二進制文件采用統(tǒng)一的操作步驟,即“打開—操作—關(guān)閉”2.2.1文件存取Python通過open()函數(shù)打開一個文件,并實現(xiàn)該文件與一個程序變量的關(guān)聯(lián),格式如下:<變量名>=open(<文件名>,<打開模式>)2.2.1文件存取Python通過open()函數(shù)打開一個文件,并實現(xiàn)該文件與一個程序變量的關(guān)聯(lián),格式如下:<變量名>=open(<文件名>,<打開模式>)open()函數(shù)提供了7種基本打開模式文件打開模式描述'r'只讀模式,默認(rèn)值,如果文件不存在,返回FileNotFoundError'w'覆蓋寫模式,文件不存在則創(chuàng)建,存在則完全覆蓋'x'創(chuàng)建寫模式,文件不存在則創(chuàng)建,存在則返回FileExistsError'a'追加寫模式,文件不存在則創(chuàng)建,存在則在文件最后追加內(nèi)容'b'二進制文件模式't'文本文件模式,默認(rèn)值'+'與r/w/x/a一同使用,在原功能基礎(chǔ)上增加同時讀寫功能2.2.1文件存取打開模式中,'r'、'w'、'x'、'a'可以和'b'、't'、'+'組合使用,形成既表達讀寫又表達文件模式的方式打開模式含義說明r+/rb+讀?。ǜ拢┠J揭宰x/寫的形式打開文本文件/二進制文件,如果文件不存在,open()調(diào)用失敗w+/wb+寫入(更新)模式以讀/寫的形式創(chuàng)建文本文件/二進制文件,如果文件已存在,則清空文件a+/ab+追加(更新)模式以讀/寫的形式打開文本/二進制文件,但只允許在文件末尾添加數(shù)據(jù),若文件不存在,則創(chuàng)建新文件文件使用結(jié)束后,需用close()方法關(guān)閉,釋放文件的使用授權(quán),該方法的使用方式如下:<變量>.close()2.2.1文件存取文件內(nèi)容的讀取當(dāng)文件以文本方式打開時,讀寫按照字符串方式,采用計算機使用的編碼或指定編碼當(dāng)文件以二進制方式打開時,讀寫按照字節(jié)流方式三種文件內(nèi)容讀取方式操作方法描述<f>.read(size=-1)讀入全部內(nèi)容,如果給出參數(shù),讀入前size長度<f>.readline(size=-1)讀入一行內(nèi)容,如果給出參數(shù)讀入該行前size長度<f>.readlines(hint=-1)讀入文件所有行,以每行為元素形成列表,如果給出參數(shù),讀入前hint行2.2.1文件存取用戶輸入文件路徑,以文本文件方式讀入文件內(nèi)容并逐行打印提示用戶輸入一個文件名打開文件并賦值給文件對象變量fo文件的全部內(nèi)容通過fo.readlines()方法讀入到一個列表中通過for-in方式遍歷列表2.2.1文件存取文件內(nèi)容寫入的3種方法操作方法描述<f>.write(s)向文件寫入一個字符串或字節(jié)流<f>.writelines(lines)將一個元素全為字符串的列表寫入文件<f>.seek(offset)改變當(dāng)前文件操作指針的位置,offset含義如下:0–文件開頭;1–當(dāng)前位置;2–文件結(jié)尾2.2.1文件存取2.2.1文件存取fo.seek(0)將文件操作指針返回到文件開始2.2.2CSV文件存取CSV(Comma-SeparatedValues),中文通常叫做逗號分隔值,是一種國際通用的一維、二維數(shù)據(jù)存儲格式常用pandas庫處理CSV文件2.2.2CSV文件存取代碼、體重和身高都作為DataFrame的數(shù)據(jù)進行了讀取,而索引是系統(tǒng)自動生成的0,1,2,3。如果想把代號作為索引進行讀取,則執(zhí)行如下操作2.2.2CSV文件存取文件存儲有多種形式,CSV文件是比較常用而且方便的一種方式,使用pandas庫中to_csv()函數(shù)進行存儲2.2.2CSV文件存取如果不需要dataframe中的索引,可以在to_csv()函數(shù)中設(shè)置index參數(shù)為None2.2.3網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲是在萬維網(wǎng)瀏覽網(wǎng)頁并按照一定規(guī)則提取信息的腳本或程序Python中常用與網(wǎng)絡(luò)爬蟲的庫有Requests庫、Scrapy庫等在進行網(wǎng)頁內(nèi)容爬取時,使用Requests庫即可滿足要求2.2.3網(wǎng)絡(luò)爬蟲性能騷擾法律風(fēng)險隱私泄露2.2.3網(wǎng)絡(luò)爬蟲來源審查:判斷User‐Agent進行限制檢查來訪HTTP協(xié)議頭的User‐Agent域,只響應(yīng)瀏覽器或友好爬蟲的訪問發(fā)布公告:Robots協(xié)議告知所有爬蟲網(wǎng)站的爬取策略,要求爬蟲遵守2.2.3網(wǎng)絡(luò)爬蟲/robots.txt2.2.3網(wǎng)絡(luò)爬蟲Requests庫有7個主要方法,requests.get()是獲取網(wǎng)頁數(shù)據(jù)的核心函數(shù)操作方法描述requests.request()構(gòu)造一個請求,支撐以下各方法的基礎(chǔ)方法requests.get()獲取HTML網(wǎng)頁的主要方法,對應(yīng)于HTTP的GETrequests.head()獲取HTML網(wǎng)頁頭信息的方法,對應(yīng)于HTTP的HEADrequests.post()向HTML網(wǎng)頁提交POST請求的方法,對應(yīng)于HTTP的POSTrequests.put()向HTML網(wǎng)頁提交PUT請求的方法,對應(yīng)于HTTP的PUTrequests.patch()向HTML網(wǎng)頁提交局部修改請求,對應(yīng)于HTTP的PATCHrequests.delete()向HTML頁面提交刪除請求,對應(yīng)于HTTP的DELETE2.2.3網(wǎng)絡(luò)爬蟲常用數(shù)據(jù)格式JSONHTML/XMLYAML022.3數(shù)據(jù)質(zhì)量分析與清洗2.3.1數(shù)據(jù)質(zhì)量分析數(shù)據(jù)質(zhì)量分析是數(shù)據(jù)預(yù)處理的前提,是數(shù)據(jù)挖掘分析結(jié)論有效性和準(zhǔn)確性的基礎(chǔ),其主要任務(wù)是檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù),臟數(shù)據(jù)一般是指不符合要求,以及不能直接進行相應(yīng)分析的數(shù)據(jù),在常見的數(shù)據(jù)挖掘工作中,臟數(shù)據(jù)包括:
缺失值
異常值
不一致的值
重復(fù)數(shù)據(jù)及含有特殊符號(如#、¥、*)的數(shù)據(jù)本小節(jié)將主要對數(shù)據(jù)中的缺失值、異常值和一致性進行分析。2.3.1數(shù)據(jù)質(zhì)量分析有些信息暫時無法獲取,或者獲取信息的代價太大。有些信息是被遺漏的。可能是因為輸入時認(rèn)為不重要、忘記填寫或?qū)?shù)據(jù)理解錯誤等一些人為因素而遺漏,也可能是由于數(shù)據(jù)采集設(shè)備的故障、存儲介質(zhì)的故障、傳輸媒體的故障等機械原因而丟失。屬性值不存在。在某些情況下,缺失值并不意味著數(shù)據(jù)有錯誤,對一些對象來說屬性值是不存在的,如一個未婚者的配偶姓名、一個兒童的固定收入狀況等。缺失值產(chǎn)生的原因2.3.1數(shù)據(jù)質(zhì)量分析數(shù)據(jù)挖掘建模將丟失大量有用信息數(shù)據(jù)挖掘模型所表現(xiàn)出的不確定性更加顯著,模型中蘊涵的確定性成分更難把握包含空值的數(shù)據(jù)會使挖掘建模過程陷入混亂,導(dǎo)致不可靠的輸出缺失值的影響2.3.1數(shù)據(jù)質(zhì)量分析對缺失值做簡單統(tǒng)計分析統(tǒng)計缺失值的變量個數(shù)統(tǒng)計每個變量的未缺失數(shù)統(tǒng)計變量的缺失數(shù)及缺失率缺失值分析2.3.1數(shù)據(jù)質(zhì)量分析異常值分析異常值分析是檢驗數(shù)據(jù)是否有錄入錯誤以及含有不合常理的數(shù)據(jù)。忽視異常值的存在是十分危險的,不加剔除地把異常值包括進數(shù)據(jù)的計算分析過程中,對結(jié)果會帶來不良影響;重視異常值的出現(xiàn),分析其產(chǎn)生的原因,常常成為發(fā)現(xiàn)問題進而改進決策的契機。異常值是指樣本中的個別值,其數(shù)值明顯偏離其余的觀測值。異常值也稱為離群點,異常值的分析也稱為離群點的分析。異常值分析方法主要有:簡單統(tǒng)計量分析、3原則、箱型圖分析。2.3.1數(shù)據(jù)質(zhì)量分析異常值分析——簡單統(tǒng)計分析可以先做一個描述性統(tǒng)計,進而查看哪些數(shù)據(jù)是不合理的。需要的統(tǒng)計量主要是最大值和最小值,判斷這個變量中的數(shù)據(jù)是不是超出了合理的范圍,如身高的最大值為5米,則該變量的數(shù)據(jù)存在異常。2.3.1數(shù)據(jù)質(zhì)量分析異常值分析——3原則如果數(shù)據(jù)服從正態(tài)分布,在3原則下,異常值被定義為一組測定值中與平均值的偏差超過三倍標(biāo)準(zhǔn)差的值。在正態(tài)分布的假設(shè)下,距離平均值3之外的值出現(xiàn)的概率為
,屬于極個別的小概率事件。2.3.1數(shù)據(jù)質(zhì)量分析異常值分析——箱型圖分析箱形圖依據(jù)實際數(shù)據(jù)繪制,不需要事先假定數(shù)據(jù)服從特定的分布形式,沒有對數(shù)據(jù)作任何限制性要求,它只是真實直觀地表現(xiàn)數(shù)據(jù)分布的本來面貌;另一方面,箱形圖判斷異常值的標(biāo)準(zhǔn)以四分位數(shù)和四分位距為基礎(chǔ),四分位數(shù)具有一定的魯棒性:多達25%的數(shù)據(jù)可以變得任意遠(yuǎn)而不會很大地擾動四分位數(shù),所以異常值不能對這個標(biāo)準(zhǔn)施加影響,箱形圖識別異常值的結(jié)果比較客觀。由此可見,箱形圖在識別異常值方面有一定的優(yōu)越性。2.3.1數(shù)據(jù)質(zhì)量分析餐飲系統(tǒng)銷售數(shù)據(jù)質(zhì)量分析2.3.1數(shù)據(jù)質(zhì)量分析一致性分析數(shù)據(jù)不一致性是指數(shù)據(jù)的矛盾性、不相容性。直接對不一致的數(shù)據(jù)進行挖掘,可能會產(chǎn)生與實際相違背的挖掘結(jié)果。在數(shù)據(jù)挖掘過程中,不一致數(shù)據(jù)的產(chǎn)生主要發(fā)生在數(shù)據(jù)集成的過程中,可能是由于被挖掘數(shù)據(jù)是來自于從不同的數(shù)據(jù)源、重復(fù)存放的數(shù)據(jù)未能進行一致性地更新造成的,比如兩張表中都存儲了用戶的地址,在用戶的地址發(fā)生改變時,如果只更新了一張表中的數(shù)據(jù),那么這兩張表中就有了不一致的數(shù)據(jù)。2.3.2數(shù)據(jù)清洗數(shù)據(jù)清洗主要是刪除原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù),平滑噪聲數(shù)據(jù),處理缺失值、異常值等。2.3.2數(shù)據(jù)清洗缺失值處理處理缺失值的方法可分為三類:刪除記錄、數(shù)據(jù)插補和不處理。操作方法描述均值/中位數(shù)/眾數(shù)插補根據(jù)屬性值的類型,用該屬性取值的均值/中位數(shù)/眾數(shù)插補使用固定值將缺失的屬性值用一個常量替換。如廣州一個工廠外來務(wù)工人員“基本工資”屬性缺失,可以用2020年廣州市普通外來務(wù)工人員工資標(biāo)準(zhǔn)這個固定值代替最近臨插補在記錄中找到與缺失樣本最接近樣本的該屬性值回歸方法根據(jù)已有數(shù)據(jù)和與其相關(guān)的其他變量數(shù)據(jù),建立擬合模型來預(yù)測缺失的屬性值插值法2.3.2數(shù)據(jù)清洗均值插補法較為簡單,其過程為:求出所有非空值屬性的平均值,并利用平均值對空值進行插補。2.3.2數(shù)據(jù)清洗拉格朗日插值法
第一步:
求已知的n個點的
次多項式:
將個點的坐標(biāo)代入多項式函數(shù)
第二步:
將缺失的函數(shù)值對應(yīng)的點
代入插值多項式得到缺失值的近似值
解出拉格朗日插值多項式2.3.2數(shù)據(jù)清洗異常值處理在數(shù)據(jù)預(yù)處理時,異常值是否剔除,需視具體情況而定,因為有些異常值可能蘊含著有用的信息。異常值處理常用方法見下表異常值處理方法方法描述刪除含有異常值的記錄直接將含有異常值的記錄刪除視為缺失值將異常值視為缺失值,利用缺失值處理的方法進行平均值修正可用前后兩個觀測值的平均值修正該異常值不處理直接在具有異常值的數(shù)據(jù)集上進行挖掘建模2.3.2數(shù)據(jù)清洗重復(fù)值處理重復(fù)值是指部分?jǐn)?shù)據(jù)重復(fù)出現(xiàn),從而造成數(shù)據(jù)挖掘結(jié)果的不準(zhǔn)確。部分?jǐn)?shù)據(jù)重復(fù),使用drop_duplicates()函數(shù)去除利用drop()函數(shù)直接刪除某列2.4數(shù)據(jù)特征分析對數(shù)據(jù)進行質(zhì)量分析以后,接下來就是對數(shù)據(jù)做特征分析。一般可通過繪制圖表、計算某些特征量等手段進行數(shù)據(jù)的特征分析,對數(shù)據(jù)集進行深入了解,檢驗屬性間的相互關(guān)系,確定觀察對象感興趣的子集。統(tǒng)計量分析分布分析對比分析周期性分析相關(guān)性分析2.4.1統(tǒng)計量分析用統(tǒng)計指標(biāo)對定量數(shù)據(jù)進行統(tǒng)計描述集中趨勢分析均值中位數(shù)眾數(shù)離散趨勢分析極差標(biāo)準(zhǔn)差變異系數(shù)四分位數(shù)間距2.4.2分布分析分布分析能揭示數(shù)據(jù)的分布特征和分布類型,便于發(fā)現(xiàn)某些特大或特小的可疑值。對于定量數(shù)據(jù),欲了解其分布形式,是對稱的、還是非對稱的,可做出頻率分布表、繪制頻率分布直方圖、繪制莖葉圖進行直觀地分析;對于定性分類數(shù)據(jù),可用餅圖和條形圖直觀地顯示分布情況。2.4.2分布分析定量數(shù)據(jù)的分布分析對于定量變量而言,做頻率分布分析時選擇“組數(shù)”和“組寬”是主要的問題,一般按照以下步驟:求極差決定組距與組數(shù)決定分點列出頻率分布表繪制頻率分布直方圖遵循的主要原則有:各組之間必須是相互排斥的各組必須將所有的數(shù)據(jù)包含在內(nèi)各組的組寬最好相等2.4.2分布分析某小微企業(yè)的銷售數(shù)據(jù)第一步:求極差極差=最大值-最小值=3960-45=3915第二步:分組這里根據(jù)業(yè)務(wù)數(shù)據(jù)的含義,可取組距為500。組數(shù)=極差/組距=3915/500=7.83=82.4.2分布分析第三步:決定分點,如下表:第四步:求出頻率分布直方表根據(jù)分組區(qū)間,統(tǒng)計二季度銷售數(shù)據(jù)在每個組段中出現(xiàn)的次數(shù)即頻數(shù),再利用頻數(shù)除以總天數(shù),可以得到相應(yīng)的評率。例如,銷售額在[0,500)區(qū)間的共有28天,即頻數(shù)為28,頻率為31%。2.4.2分布分析第五步:繪制頻率分布直方圖以二季度每天的銷售額組段為橫軸,以各組段的頻率密度(頻率與組距之比)為縱軸,可以繪制出頻率分布直方圖。2.4.2分布分析定性數(shù)據(jù)的分布分析對于定性數(shù)據(jù),常常根據(jù)變量的分類類型來分組,可以采用餅圖和條形圖來描述定性變量的分布餅圖的每一個扇形部分代表每一類型的百分比或頻數(shù),根據(jù)定性變量的類型數(shù)目將餅圖分成幾個部分,每一部分的大小與每一類型的頻數(shù)成正比;條形圖的高度代表每一類型的百分比或頻數(shù),條形圖的寬度沒有意義。2.4.2分布分析下面左右兩圖分別是菜品A、B、C在某段時間的餅形和條形銷售量分布圖:2.4.3對比分析對比分析是指把兩個相互聯(lián)系的指標(biāo)數(shù)據(jù)進行比較,從數(shù)量上展示和說明研究對象規(guī)模的大小,水平的高低,速度的快慢,以及各種關(guān)系是否協(xié)調(diào)。特別適用于指標(biāo)間的橫縱向比較、時間序列的比較分析。在對比分析中,選擇合適的對比標(biāo)準(zhǔn)是十分關(guān)鍵的步驟,選擇得合適,才能做出客觀的評價,選擇不合適,評價可能得出錯誤的結(jié)論。2.4.3對比分析對比分析主要有以下兩種形式:第一種:絕對數(shù)比較
它是利用絕對數(shù)進行對比,從而尋找差異的一種方法。第二種:相對數(shù)比較
它是由兩個有聯(lián)系的指標(biāo)對比計算的,用以反映客觀現(xiàn)象之間數(shù)量聯(lián)系程度的綜合指標(biāo),其數(shù)值表現(xiàn)為相對數(shù)。由于研究目的和對比基礎(chǔ)不同,相對數(shù)可以分為以下幾種:
1)結(jié)構(gòu)相對數(shù)4)強度相對數(shù)
2)比例相對數(shù)5)計劃完成程度相對數(shù)
3)比較相對數(shù)6)動態(tài)相對數(shù)2.4.3對比分析1)結(jié)構(gòu)相對數(shù):將同一總體內(nèi)的部分?jǐn)?shù)值與全部數(shù)值對比求得比重,用以說明事物的性質(zhì)、結(jié)構(gòu)或質(zhì)量。如居民食品支出額占消費支出總額比重、產(chǎn)品合格率等。2)比例相對數(shù):將同一總體內(nèi)不同部分的數(shù)值對比,表明總體內(nèi)各部分的比例關(guān)系,如人口性別比例、投資與消費比例等。3)比較相對數(shù):將同一時期兩個性質(zhì)相同的指標(biāo)數(shù)值對比,說明同類現(xiàn)象在不同空間條件下的數(shù)量對比關(guān)系。如不同地區(qū)商品價格對比,不同行業(yè)、不同企業(yè)間某項指標(biāo)對比等。2.4.3對比分析4)強度相對數(shù):將兩個性質(zhì)不同但有一定聯(lián)系的總量指標(biāo)對比,用以說明現(xiàn)象的強度、密度和普遍程度。如人均國內(nèi)生產(chǎn)總值用“元/人”表示,人口密度用“人/平方公里”表示,也有用百分?jǐn)?shù)或千分?jǐn)?shù)表示的,如人口出生率用‰表示。5)計劃完成程度相對數(shù):是某一時期實際完成數(shù)與計劃數(shù)對比,用以說明計劃完成程度。6)動態(tài)相對數(shù):將同一現(xiàn)象在不同時期的指標(biāo)數(shù)值對比,用以說明發(fā)展方向和變化的速度。如發(fā)展速度、增長速度等。2.4.3對比分析拿各菜品的銷售數(shù)據(jù)來看,從時間的維度上分析,可以看到甜品部A、海鮮部B、素菜部C三個部門之間的銷售金額隨時間的變化趨勢,了解在此期間哪個部門的銷售金額較高,趨勢比較平穩(wěn),如圖3?5;也可以從單一部門(如海鮮部)做分析,了解各月份的銷售對比情況,如下圖:2.4.3對比分析從總體來看,三個部門的銷售金額呈遞減趨勢;A部門和C部門的遞減趨勢比較平穩(wěn);B部門的銷售金額在2月份驟降,可以進一步分析造成這種現(xiàn)象的業(yè)務(wù)原因,可能是原材料不足造成的。2.4.4周期性分析周期性分析是探索某個變量是否隨著時間變化而呈現(xiàn)出某種周期變化趨勢。周期性趨勢相對較長的有年度周期性趨勢、季節(jié)性周期趨勢,相對較短的一般有月度周期性趨勢、周度周期性趨勢,甚至更短的天、小時周期性趨勢。如在做某用電單位用電量趨勢預(yù)測過程中,可以先分析該用電單位日用電量的時序圖,來直觀地估計其用電量變化趨勢。2.4.4周期性分析下面兩圖分別是正常用戶和竊電用戶在2020年2月份與3月份的用電量2.4.4周期性分析正常用戶和竊電用戶在2020年2月份與3月份日用電量呈現(xiàn)出周期性,以周為周期,因為周末不上班,所以周末用電量較低。正常用戶工作日和非工作日的用電量比較平穩(wěn),沒有太大的波動。而竊電用戶在2020年2月份與3月份日用電量呈現(xiàn)出遞減趨勢。2.4.5相關(guān)性分析相關(guān)性分析是指對兩個或多個具備相關(guān)性的變量元素進行分析,從而衡量兩個變量因素的相關(guān)密切程度,并用適當(dāng)?shù)慕y(tǒng)計指標(biāo)表示出來的過程。相關(guān)性分析方法主要有:直接繪制散點圖繪制散點圖矩陣計算相關(guān)系數(shù)2.4.5相關(guān)性分析判斷兩個變量是否具有線性相關(guān)關(guān)系的最直觀的方法是直接繪制散點圖2.4.5相關(guān)性分析繪制散點圖矩陣需要同時考察多個變量間的相關(guān)關(guān)系時,可以利用散點圖矩陣來同時繪制各變量間的散點圖,從而快速發(fā)現(xiàn)多個變量間的主要相關(guān)性,這在進行多元線性回歸時尤為重要2.4.5相關(guān)性分析計算相關(guān)系數(shù)為了更加準(zhǔn)確的描述變量之間的線性相關(guān)程度,可以通過計算相關(guān)系數(shù)來進行相關(guān)分析。在二元變量的相關(guān)分析過程中比較常用的如Pearson相關(guān)系數(shù)、Spearman秩相關(guān)系數(shù)和判定系數(shù)。Pearson相關(guān)系數(shù)一般用于對定距變量的數(shù)據(jù)進行計算,即分析兩個連續(xù)性變量之間的關(guān)系,其計算公式如下:2.4.5相關(guān)性分析Spearman秩相關(guān)系數(shù)用于描述分類或等級變量之間、分類或等級變量與連續(xù)變量之間的關(guān)系。其計算公式如下:判定系數(shù)判定系數(shù)是相關(guān)系數(shù)的平方,用r^2表示,用來衡量回歸方程對y的解釋程度。判定系數(shù)的取值范圍為0≤r^2≤1。r^2越接近于1,表明x與y之間的相關(guān)性越強,r^2越接近于0,越表明x與y之間幾乎沒有線性相關(guān)關(guān)系2.4.5相關(guān)性分析利用餐飲管理系統(tǒng)可以統(tǒng)計得到不同菜品的日銷量數(shù)據(jù),分析這些菜品日銷售量之間的相關(guān)性可以得到不同菜品之間的相關(guān)關(guān)系,如是替補菜品、互補菜品或者沒有關(guān)系,為原材料采購提供參考結(jié)果顯示,“百合醬蒸鳳爪”與“樂膳真味雞”“原汁原味菜心”等相關(guān)性較高,而與“翡翠蒸香茜餃”“蜜汁焗餐包”等主食類菜品相關(guān)性較低2.5數(shù)據(jù)集成數(shù)據(jù)挖掘需要的數(shù)據(jù)往往分布在不同的數(shù)據(jù)源中,數(shù)據(jù)集成就是將多個數(shù)據(jù)源合并存放在一個一致的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫)中的過程。實體識別冗余屬性識別數(shù)據(jù)變換屬性構(gòu)造2.5.1實體識別實體識別的任務(wù)是檢測和解決同名異義、異名同義、單位不統(tǒng)一的沖突。如:同名異義:數(shù)據(jù)源A中的屬性ID和數(shù)據(jù)源B中的屬性ID分別描述的是菜品編號和訂單編號,即描述的是不同的實體。異名同義:數(shù)據(jù)源A中的sales_dt和數(shù)據(jù)源B中的sales_date都是是描述銷售日期的,即A.sales_dt=B.sales_date。單位不統(tǒng)一:描述同一個實體分別用的是國際單位和中國傳統(tǒng)的計量單位。2.5.2冗余屬性識別數(shù)據(jù)集成往往導(dǎo)致數(shù)據(jù)冗余,如:同一屬性多次出現(xiàn)同一屬性命名不一致導(dǎo)致重復(fù)不同源數(shù)據(jù)的仔細(xì)整合能減少甚至避免數(shù)據(jù)冗余與不一致,以提高數(shù)據(jù)挖掘的速度和質(zhì)量。對于冗余屬性要先分析檢測到后再將其刪除。有些冗余屬性可以用相關(guān)分析檢測到。給定兩個數(shù)值型的屬性A和B,根據(jù)其屬性值,可以用相關(guān)系數(shù)度量一個屬性在多大程度上蘊含另一個屬性。2.5.3數(shù)據(jù)變換主要是對數(shù)據(jù)進行規(guī)范化的操作,將數(shù)據(jù)轉(zhuǎn)換成“適當(dāng)?shù)摹备袷?,以適用于挖掘任務(wù)及算法的需要。簡單函數(shù)變換規(guī)范化連續(xù)屬性離散化2.5.3數(shù)據(jù)變換簡單函數(shù)變換簡單函數(shù)變換就是對原始數(shù)據(jù)進行某些數(shù)學(xué)函數(shù)變換,常用的函數(shù)變換包括平方、開方、對數(shù)、差分運算等,即:2.5.3數(shù)據(jù)變換數(shù)據(jù)標(biāo)準(zhǔn)化(歸一化)處理是數(shù)據(jù)挖掘的一項基礎(chǔ)工作,不同評價指標(biāo)往往具有不同的量綱和量綱單位,數(shù)值間的差別可能很大,不進行處理可能會影響到數(shù)據(jù)分析的結(jié)果,為了消除指標(biāo)之間的量綱和大小不一的影響,需要進行數(shù)據(jù)標(biāo)準(zhǔn)化處理,將數(shù)據(jù)按照比例進行縮放,使之落入一個特定的區(qū)域,從而進行綜合分析。如將工資收入屬性值映射到[-1,1]或者[0,1]之間。下面介紹三種規(guī)范化方法:最小-最大規(guī)范化、零-均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化2.5.3數(shù)據(jù)變換最小-最大規(guī)范化:也稱為離差標(biāo)準(zhǔn)化,是對原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0,1]之間。
轉(zhuǎn)換函數(shù)如:
其中
為樣本數(shù)據(jù)的最大值,
為樣本數(shù)據(jù)的最小值。
為極差。零-均值規(guī)范化:也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,經(jīng)過處理的數(shù)據(jù)的平均數(shù)為0,標(biāo)準(zhǔn)差為1。轉(zhuǎn)化函數(shù)為:
其中
為原始數(shù)據(jù)的均值,
為原始數(shù)據(jù)的標(biāo)準(zhǔn)差。小數(shù)定標(biāo)規(guī)范化:通過移動屬性值的小數(shù)位數(shù),將屬性值映射到[-1,1]之間,移動的小數(shù)位數(shù)取決于屬性值絕對值的最大值。轉(zhuǎn)化函數(shù)為:2.5.3數(shù)據(jù)變換2.5.3數(shù)據(jù)變換一些數(shù)據(jù)挖掘算法,特別是某些分類算法,要求數(shù)據(jù)是分類屬性形式,如ID3算法、Apriori算法等。這樣,常常需要將連續(xù)屬性變換成分類屬性,即連續(xù)屬性離散化。離散化的過程連續(xù)屬性變換成分類屬性涉及兩個子任務(wù):決定需要多少個分類變量,以及確定如何將連續(xù)屬性值映射到這些分類值。常用的離散化方法常用的無監(jiān)督離散化方法有:等寬法、等頻法、基于聚類分析的方法2.5.3數(shù)據(jù)變換使用3種離散化方法對“醫(yī)學(xué)中醫(yī)證型的相關(guān)數(shù)據(jù)”進行連續(xù)屬性離散化2.5.4數(shù)據(jù)變換在數(shù)據(jù)挖掘的過程中,為了幫助提取更有用的信息、挖掘更深層次的模式,提高挖掘結(jié)果的精度,需要利用已有的屬性集構(gòu)造出新的屬性,并加入到現(xiàn)有屬性集合中。比如進行防竊漏電診斷建模時,已有的屬性包括進入線路供入電量、該條線路上各大用戶用電量之和,記為供出電量。理論上供入電量和供出電量應(yīng)該是相等的,但是由于在傳輸過程中的電能損耗,會使得供入電量略大于供出電量,如果該條線路上的一個或多個大用戶存在竊漏電行為,會使供入電量遠(yuǎn)大于供出電量。反過來,為了判斷是否存在有竊漏電行為的大用戶,需要構(gòu)造一個新的關(guān)鍵指標(biāo)--線損率,該過程就是構(gòu)造屬性。新構(gòu)造的屬性線損率計算公式如下:線損率=(供入電量-供出電量)/供入電量線損率的范圍一般在3%~15%,如果遠(yuǎn)遠(yuǎn)超過該范圍,就可以認(rèn)為該條線路的大用戶很大可能存在竊漏電等用電異常行為。2.6數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約是將海量數(shù)據(jù)進行規(guī)約,規(guī)約之后的數(shù)據(jù)仍接近于保持原數(shù)據(jù)的完整性,但數(shù)據(jù)量小得多。通過數(shù)據(jù)規(guī)約,可以達到:降低無效、錯誤數(shù)據(jù)對建模的影響,提高建模的準(zhǔn)確性少量且具代表性的數(shù)據(jù)將大幅縮減數(shù)據(jù)挖掘所需的時間降低儲存數(shù)據(jù)的成本2.6.1屬性規(guī)約屬性規(guī)約常用方法有:合并屬性、逐步向前選擇、逐步向后刪除、決策樹歸納、主成分分析合并屬性初始屬性集:
規(guī)約后屬性集:逐步向前選擇
初始屬性集:
規(guī)約后屬性集:
屬性歸約通過屬性合并創(chuàng)建新屬性維數(shù),或者通過直接刪除不相關(guān)的屬性(維)來減少數(shù)據(jù)維數(shù),從而提高數(shù)據(jù)挖掘的效率,降低計算成本2.6.1屬性規(guī)約逐步向后刪除
初始屬性集:
規(guī)約后屬性集:決策樹規(guī)約
初始屬性集:
規(guī)約后屬性集:
2.6.1屬性規(guī)約下面詳細(xì)介紹主成分分析計算步驟:1)設(shè)原始變量
的觀測n次數(shù)據(jù)矩陣為:2)將數(shù)據(jù)矩陣中心標(biāo)準(zhǔn)化。為了方便,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 職場溝通中的情緒管理技巧
- 食品企業(yè)安全生產(chǎn)事故綜合應(yīng)急預(yù)案
- 工業(yè)環(huán)境下的安全教育及應(yīng)急措施
- 兩人合作研發(fā)合同范本
- 事業(yè)單位臨時工勞動合同相關(guān)規(guī)定
- 二手車交易合同官方范本
- 個人業(yè)務(wù)合作合同版
- 二手房買賣合同模板全新版
- 專業(yè)育兒嫂勞動合同協(xié)議書范例
- 個人車輛抵押借款合同標(biāo)準(zhǔn)版
- 2024年農(nóng)村述職報告
- 2025-2030年中國減肥連鎖市場發(fā)展前景調(diào)研及投資戰(zhàn)略分析報告
- 2024年湖南司法警官職業(yè)學(xué)院高職單招職業(yè)技能測驗歷年參考題庫(頻考版)含答案解析
- 女性私密項目培訓(xùn)
- 2025年麗水龍泉市招商局招考招商引資工作人員高頻重點提升(共500題)附帶答案詳解
- 《加拿大概況》課件
- 期末復(fù)習(xí)之一般疑問句、否定句、特殊疑問句練習(xí)(畫線部分提問)(無答案)人教版(2024)七年級英語上冊
- TD-T 1048-2016耕作層土壤剝離利用技術(shù)規(guī)范
- 抖音賬號租賃合同協(xié)議
- 直線加速器專項施工方案
- 2022年全國卷高考語文答題卡格式
評論
0/150
提交評論