數(shù)據(jù)挖掘 第二章 認(rèn)識(shí)數(shù)據(jù)總結(jié)_第1頁
數(shù)據(jù)挖掘 第二章 認(rèn)識(shí)數(shù)據(jù)總結(jié)_第2頁
數(shù)據(jù)挖掘 第二章 認(rèn)識(shí)數(shù)據(jù)總結(jié)_第3頁
數(shù)據(jù)挖掘 第二章 認(rèn)識(shí)數(shù)據(jù)總結(jié)_第4頁
數(shù)據(jù)挖掘 第二章 認(rèn)識(shí)數(shù)據(jù)總結(jié)_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第二章認(rèn)識(shí)數(shù)據(jù)數(shù)據(jù)的統(tǒng)計(jì)描述概念:數(shù)據(jù)對象,屬性類型,屬性(維,特征,變量,標(biāo)稱<分類,枚舉,二元/序數(shù)>/數(shù)值<區(qū)間標(biāo)度/比率標(biāo)度>,定性/定量,連續(xù)/離散)。數(shù)據(jù)對稱性和中心趨勢度量:⑴均值(Mean):x算術(shù)均值,xi是觀測值/樣本,數(shù)值型;受極端值,傾斜數(shù)據(jù)影響⑵加權(quán)均值:x加權(quán)算術(shù)均值,權(quán)值wi描述對應(yīng)觀測值的意義,重要性或出現(xiàn)頻率等;優(yōu)劣同上。截尾均值:丟棄高低極端值后的均值中位數(shù)(Median):應(yīng)用于數(shù)值數(shù)據(jù),把所有數(shù)值數(shù)據(jù)排序,位于有序隊(duì)伍正中的數(shù)據(jù);計(jì)算時(shí)間復(fù)雜度高于算術(shù)均值,不受極端值影響;眾數(shù)(Mode):多個(gè)眾數(shù),單峰/多峰,每個(gè)數(shù)據(jù)出現(xiàn)一次,則沒有眾數(shù);不受極端值影響,計(jì)算簡單,多用于非數(shù)值型數(shù)據(jù),可靠性差;⑸中列數(shù)(Midrange):最大和最小值的均值;易受極端值影響,計(jì)算簡單,應(yīng)用于數(shù)值型數(shù)據(jù)數(shù)據(jù)散布度量:第k個(gè)q分位數(shù):把排好序的樣本,均分為q等分,子集的邊界可能就是分位數(shù);在有序樣本中的下標(biāo)計(jì)算:[Nkq],取上整,k=1,2,...,q-1。單個(gè)值描述分布;中位數(shù),四分位數(shù)百分位數(shù)常使用,Q3-Q1四分位數(shù)極差(IRQ,用于判定盒圖的離群點(diǎn));⑵五數(shù)概括:最小值,Q1,Q2,Q3,最大值;用均勻分布的5個(gè)點(diǎn)來描述分布,不是單個(gè)值;用于描述傾斜數(shù)據(jù)的分布;盒圖:盒的上下邊界是Q3,Q1,中位數(shù)是盒內(nèi)線,盒外胡須可延伸到;可以看成是直觀地表示了五數(shù)概括;計(jì)算時(shí)間O(nlogn);方差:標(biāo)準(zhǔn)差:當(dāng)均值作為中心趨勢度量時(shí),適用。大部分觀測樣本,其偏離中心不會(huì)超過很多倍標(biāo)準(zhǔn)差;統(tǒng)計(jì)描述的圖形顯示:(1)分位數(shù)圖:用來觀察單變量數(shù)據(jù)分布,數(shù)據(jù)值低于或等于在一個(gè)單變量分布中獨(dú)立的變量的粗略百分比。這樣,他可以展示所有數(shù)的分位數(shù)信息,而為獨(dú)立變量測得的值(縱軸)相對于它們的分位數(shù)(橫軸)被描繪出來;(2) 分位數(shù)-分位數(shù)圖:縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一單變量分布的分位數(shù)。兩個(gè)坐標(biāo)軸顯示它們的測量值相應(yīng)分布的值域,且點(diǎn)按照兩種分布分位數(shù)值展示。一條線(y=x)可畫到圖中,以增加圖像的信息。落在該線以上的點(diǎn)表示在y軸上顯示的值的分布比x軸的相應(yīng)的等同分位數(shù)對應(yīng)的值的分布高。反之,對落在該線以下的點(diǎn)則低。直方圖:直方圖(數(shù)值型屬性),頻率直方圖,條形圖(標(biāo)稱型屬性),概率密度函數(shù);橫坐標(biāo)是變量的取值(或者類別);縱坐標(biāo)是變量出現(xiàn)的次數(shù);桶(bucket)/箱(bin),bin的寬度??梢杂脕肀容^多組數(shù)據(jù)分布的差異具有相同的盒圖/boxplot,但是數(shù)據(jù)的分布完全不一樣;直方圖具備更強(qiáng)的描述能力;散點(diǎn)圖(一般超過四維就不太有效了):繪法:兩個(gè)數(shù)值型變量的任何一組取值,看成一個(gè)二維坐標(biāo);用于:描述兩個(gè)數(shù)值變量/數(shù)值型屬性之間是否存在關(guān)系/模式/趨勢;解釋:兩個(gè)變量(線性)相關(guān),可能是正相關(guān),也可能是負(fù)相關(guān);相關(guān)性的理解:知道一個(gè)變量的值,能大致(用直線)估計(jì)出另一個(gè)變量的值。不招關(guān)不相關(guān)正相關(guān)負(fù)相關(guān)不相關(guān)不招關(guān)不相關(guān)正相關(guān)負(fù)相關(guān)不相關(guān)基于像素的可視化技術(shù):(a)Income(b)CreditLimit(c)transactionvolume(a)Income(b)CreditLimit(c)transactionvolume說明Q每個(gè)孌屋維護(hù)一半色君表,其不同的值用不同的色特的慷乗點(diǎn)來表示,如數(shù)值越大.邑誓越深e灰度圖)。選定某個(gè)變呈Income). 的共個(gè)分布(由丈至I?。┡帕泄蕮?jù){堆列不同色彩的像索點(diǎn)).待別第一個(gè)子雷9將蔑它姿扯封應(yīng)的值堆制成不同的獨(dú)立子兩;I將毎個(gè)子圖中相同忖雷的像素賓取出”恢氯成對應(yīng)的壊值就蓿利脈該據(jù)表中的一牛竝據(jù)(jtiS/fT)°例子視明c^ditUin.iL和insm亡呈現(xiàn)正相關(guān).收入中等的人言歡購物(成交量大〕收入和年齡之間沒有明顯相炭閨思考:數(shù)據(jù)布局(像索點(diǎn)位這在子圉中的堊標(biāo)位萱安排)諦如何設(shè)計(jì).最奸了(鑒見曹材231T)幾何投影可視化技術(shù):散點(diǎn)圖矩陣:

IlHljIMIMDMfl丹協(xié)北 fe>HRil說陰Q用于n-維栽據(jù),得到nxIlHljIMIMDMfl丹協(xié)北 fe>HRil說陰Q毎行/列代表一個(gè)屬燃與碁它屬性的現(xiàn)個(gè)啟點(diǎn)圉°左圖.駕尾花垃揺.日個(gè)屬性(萼片的長/萼片的寬/花潮的墳/花覇的寬/沖屬)"不同瀕色代表木司種屬Q(mào)左圖■用2D散點(diǎn)圏表示了3D數(shù)據(jù).所以只有!X4的走陣。對卻線是什么亍平行坐標(biāo):橫坐標(biāo)的每個(gè)取值代表一維,n維數(shù)據(jù)有n個(gè)縱坐標(biāo),一個(gè)縱坐標(biāo)上標(biāo)記出對應(yīng)維的各種取值從左到右的一條折線對應(yīng)于表中的一個(gè)數(shù)據(jù)(元組/行),可用不同顏色折線區(qū)分能看出每個(gè)維的數(shù)據(jù)分布情況主要局限性:平行坐標(biāo)在數(shù)據(jù)較多時(shí),折線太密,影響可讀性基于圖符的可視化技術(shù):使用少量圖符表示多維數(shù)據(jù)值,兩個(gè)例子切爾諾夫臉和人物線條畫層次可視化技術(shù):世界中的世界:分為多層世界,每個(gè)世界的維數(shù)不超過3維;最內(nèi)層的世界是個(gè)3D散點(diǎn)圖;最內(nèi)層世界在它的直接(相鄰)外部世界(另外三維屬性構(gòu)成的3D散點(diǎn)圖)中就是一個(gè)點(diǎn);依次類推。Feverpitch□FTXMlSSBtiCiftUffl刖諭dft/rTjQ-ftrFeverpitch□FTXMlSSBtiCiftUffl刖諭dft/rTjQ-ftrB 」虹性尹SrrnnEXr- 壽蠡二一匸LuwCimfirnB****Winnd¥■琵嚴(yán)金崙&迂蘭iribianaJfifiOE dPlans;(r&毗亠沁uW *nfrilCki|>JUHKC臚—gtitling=l-—l—?—mag npq_Pentag鏤霜皿豐啊0仃 邑亠A也世m(xù)thioitxDsniss 詬如心巒Desecr汕臨亦":"皚豔一?TVW~P■帖 w?m,on第沁埠II啊時(shí)TtoDhlB'On1rIVSI 彳:■Hiiiiiiitfes”zTrw際監(jiān)臨益;“Miii:mnts寸曽”眾幕?-?InSHMijun碗詢躋lFHujni 竺a:云二■—?翳BKSlv?mirfliE||^ 荀■liMftdiaMiiMiKlKJdotHcir割5卡ESffilU膿;nowmarkets4hnw —>■+>■睥亙itMnts'.谿也-,―復(fù)雜數(shù)據(jù)的可視化:文本數(shù)據(jù),標(biāo)簽云(tagcloud),標(biāo)簽字體的大小,色彩代表不同的含義,如次數(shù)重要性等網(wǎng)絡(luò),社會(huì)網(wǎng)絡(luò),信息網(wǎng)絡(luò),技術(shù)網(wǎng)絡(luò)等等,頂點(diǎn)的色彩/大小,邊的色彩/粗細(xì),頂點(diǎn)和邊的權(quán)值等等,可以用來表示不同的關(guān)系,數(shù)據(jù)對象的重要性■噸■噸archiecijflart毗月園擁百植切“比仙beacn—“河“bath出yHackt4dL?r>*tceeIuc甜califotTtiaicanedacaion惟mGhwacchnachnsirnascity就店伽ocncert*如:曲*deg別財(cái)Mfiurope■?■怯nily吸林帕血愉亦fltwrflowers腦犧如旳幣Efriendsfir間帥爐刪齒germingjd阿申旳也曲ih—垢?:Mi4yrw?jtqvwfiddfmtriincamu.it^ly]白盟11艸旃Q|憫ifliasc^sismhebndonmm詢聃低戯砂 msunmusicnatirenewnew^rk十,詡likOH哂omp血parkpattypeopleph*鞋=<皿porluitre?n世冋畑SiiMrfficiKOkl?is whomttmskysnow,即喬閃^treEi亂叩叫創(chuàng)wsunseiiaifanjh*対叭to級伽.環(huán)tOVBl無檢tri;曲麗usavacationm^-pmwater'Wadding耐艸加,喬沖価度量數(shù)據(jù)的相似性與相異性(書本P44-P52)第三章數(shù)據(jù)預(yù)處理-J,UIWL科r4b——?-Q見工隊(duì)口UJOJJ.5^.U.J呂數(shù)據(jù)預(yù)處理的四項(xiàng)工作p.iLir-^-?iuL7iion.IlFibulaAi--J,UIWL科r4b——?-Q見工隊(duì)口UJOJJ.5^.U.J呂數(shù)據(jù)預(yù)處理的四項(xiàng)工作p.iLir-^-?iuL7iion.IlFibulaAi-TrI7.ftan□數(shù)據(jù)清理0填充缺失數(shù)據(jù)Q平滑噪聲般Q識(shí)別;刪除離眸點(diǎn)Q解決不一致性□數(shù)據(jù)集成□融合來自多個(gè)數(shù)搞庵強(qiáng)據(jù)文件/教據(jù)立方的敵據(jù)。數(shù)據(jù)歸約0維歸約Q數(shù)值規(guī)約4數(shù)據(jù)壓縮。數(shù)據(jù)變換及離散化Q歸TtQ產(chǎn)生分層慨念臟數(shù)據(jù):缺失值(不完備的數(shù)據(jù))、噪聲數(shù)據(jù)(離群點(diǎn))、不一致數(shù)據(jù)、故意、偽造數(shù)據(jù)(使用缺省值,即默認(rèn)值)

缺失值定義:某些元組在部分屬性上沒有被記錄下來的值可能原因:數(shù)據(jù)產(chǎn)生設(shè)備故障;數(shù)據(jù)錄入時(shí)因?yàn)橛X得不重要或者理解錯(cuò)誤,暫時(shí)放棄錄入;因?yàn)楹推渌鼣?shù)據(jù)不一致而被刪除。此建專出瞠用條件一妣產(chǎn)品記錄血表,連了質(zhì)置普杜,其中郵金產(chǎn)品倉■!■尋桃抽臭任軻刊的塊曳卒不能叢離.若任何尢粗湘同時(shí)捷耳個(gè)躊扯鋼逅附,企垂失濟(jì)4t用的軌年竽址點(diǎn)出單中星作-學(xué)隹箱護(hù)了工□課朗威嫩手工塢J5您淒值曲對.百缺史彼步,就理茸土,時(shí);枚通.用于垂畠的戢.小時(shí)軟船昴一妣產(chǎn)氏記錄坨抿.fe運(yùn)了攬t■普規(guī),典屮那令產(chǎn)品度董尋飲奘A,忍卅unknown'刑也赫晦質(zhì)重尋収"urikrKJwrT?"自sT住用金肋那就代桂隸農(nóng)處,哼龜琳參響呼來的推,楊熱鼻"一妣戶甘姑杲施泉.A中卑睜?wèi)羝沸垢缰雕k夫■0對屋逹務(wù)爲(wèi)螳腎屮」s丈愛氓可沖覺旳值或中住苴.一艦劃于車.池型教據(jù)。撫軸變會(huì)時(shí)捋憒?一扯產(chǎn)花記崔施菽,標(biāo)念了嵐卷*傀.斗申卻t動(dòng)軒it為產(chǎn)盂朋囲肇的中屜度董氈&屋滾有類薦蛭,息玄辦?雖于慕種推理耳壊班機(jī)啊"扣曲策■鉗,Bayes賊何4復(fù)禊匿三的址制索疫駕住用童南可琵的1"M"萇于第種就氓*址農(nóng)機(jī)制.如玻塞Baye5<i!t^.魁慕解釋說明后四種方法「自動(dòng)填寫數(shù)據(jù),會(huì)造成數(shù)據(jù)?有偏”0數(shù)據(jù)庫定K時(shí)[可控錶失數(shù)據(jù);但是非關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)呢?噪聲數(shù)據(jù)定義:被測變量的隨機(jī)誤差或方差產(chǎn)生原因:產(chǎn)生數(shù)據(jù)的儀器設(shè)備精度不夠;數(shù)據(jù)錄入錯(cuò)誤;數(shù)據(jù)傳輸誤差;(重復(fù)/不一致數(shù)據(jù))芍infHtflMiiijhyhlri芍infHtflMiiijhyhlri曲門iii訶rHz:SurirddnkLfor^HnTTinJuLlira)?I.k佩21L】」L.湖頁IiiUjIwiual-frti|Lit,ii€>,Ibh]^Bh2:2L3124iceii:i-需g:tniTtmchLii hiit応詼申【1*toI.<1.9.暫Pin2-TL22.22Hk-i:l!211.31團(tuán)Bn1:Bn1:妝九Itnll:■■■分箱法-binningQ酋先將敢恰型敦耗排序.撚若分割成若千誓怕.保證酹佗中期祥夢,■■或冇彳

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論