非結(jié)構(gòu)化數(shù)據(jù)分析與應用 課件 第3、4章 非結(jié)構(gòu)化數(shù)據(jù)描述性分析、經(jīng)典模型與分析方法_第1頁
非結(jié)構(gòu)化數(shù)據(jù)分析與應用 課件 第3、4章 非結(jié)構(gòu)化數(shù)據(jù)描述性分析、經(jīng)典模型與分析方法_第2頁
非結(jié)構(gòu)化數(shù)據(jù)分析與應用 課件 第3、4章 非結(jié)構(gòu)化數(shù)據(jù)描述性分析、經(jīng)典模型與分析方法_第3頁
非結(jié)構(gòu)化數(shù)據(jù)分析與應用 課件 第3、4章 非結(jié)構(gòu)化數(shù)據(jù)描述性分析、經(jīng)典模型與分析方法_第4頁
非結(jié)構(gòu)化數(shù)據(jù)分析與應用 課件 第3、4章 非結(jié)構(gòu)化數(shù)據(jù)描述性分析、經(jīng)典模型與分析方法_第5頁
已閱讀5頁,還剩106頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第三章非結(jié)構(gòu)化數(shù)據(jù)描述性分析3.1數(shù)據(jù)的描述3.2數(shù)據(jù)的可視化3.3數(shù)據(jù)的質(zhì)量目錄和內(nèi)容3.1文本數(shù)據(jù)的描述文本的自然描述文本是由文字和標點組成的字符串。字組成詞、詞組,形成句子、段落和文檔。對于只能理解0和1的計算機來說,尋找一種能夠讓機器接收的表示方法就是描述文本描述成為理解非結(jié)構(gòu)化數(shù)據(jù)的關鍵。文字和表情混用

如圖展示了電影《美麗人生》海報和用戶在豆瓣APP上對電影進行的評價。網(wǎng)絡社交圈子中,除了文字之外,還有豐富的表情包、新生的顏文字,通過卡通表情來敘述自己的態(tài)度。中英文混雜縮寫DIY:DoItYourself的縮寫,自己動手做的意思。例句:清歡太壞了,青眉電腦壞了找他修,他讓青眉DIY。SOHO:SmallOfficeHomeOfficer的簡稱,意思是“在家辦公”。

例句:《游俠秀秀》的作者小非是SOHO一族啊。BUG:原意是“臭蟲”,后來把跟電腦有關的故障都稱之為“BUG”。例句:每回俠客社區(qū)出現(xiàn)BUG,青眉都急得跳腳。I服了U:我服了你……周星星片子里的經(jīng)典臺詞。例句:你居然能讓清歡不對你說“不”,I服了U!EMO:“我抑郁了”,“我網(wǎng)抑云了”,“我頹了”“我傻了”諧音短語:數(shù)字諧音快速表達某些短語,如下:

3166:沙喲娜拉,日語,再見886:拜拜嘍,再見3Q:ThankYou,謝謝7456:氣死我了9494:就是就是表情包emoji:表情包是直接、快速的現(xiàn)代表達方式挖掘emoji信息幫助提升評論的情感分析文本數(shù)字化描述構(gòu)建文本表示模型,如何選取要素來表示文本文本表示模型:詞袋模型N-gram文本數(shù)值化描述基于頻次詞嵌入方法大模型文本表示模型詞袋模型BagofWords(BOW)詞袋模型將整個語料庫以詞為單位進行切分,形成一個不包含重復對象的詞集合。例如有語料庫:“今天一直下雨,明天會不會一直下雨”。利用BOW詞袋模型建模,獲得集合:(今天,明天,一直,下雨,會不會)。該方法十分簡單,容易理解忽略了句子中詞語的出現(xiàn)順序沒有將不同詞之間的相關性、是否是近義詞考慮進去表示稀疏N元語言模型N-gram

基于統(tǒng)計語言模型的算法,將文本按照字節(jié)進行大小為N的滑動窗口操作,形成了長度是N的字節(jié)片段序列?;诩僭O:第N個詞的出現(xiàn)只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現(xiàn)概率的乘積。概率可以通過直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。具體操作是將N個詞之間的組合看作一個詞,生成一個不包含重復對象的詞組合集合。例如:“今天一直下雨,明天會不會一直下雨”,當N=2時,獲得(今天一直,一直下雨,明天會不會,會不會一直)N-gram同樣非常稀疏,且隨著N的增加,N-gram模型的維數(shù)迅速膨脹。文本數(shù)值化將文本按照相應表示模型轉(zhuǎn)化成集合后,對其進行數(shù)值化將模型中的每個元素以數(shù)值代替。

頻次編碼CountVector:通過計數(shù)來生成詞向量的。舉例說明:包含2個文檔的語料庫:“我愛浙大”、“我愛中國,非常愛”。語料庫中共有5個詞出現(xiàn),首先使用文本表示方法轉(zhuǎn)換為詞袋:(我,愛,浙大,中國,非常)則該語料庫的這兩個文檔都使用維度為5的CountVector來表示:第一個文檔中,“我”出現(xiàn)1次,計數(shù)為1;第二個文檔中“愛”出現(xiàn)了2次,計數(shù)為2。以此類推:共現(xiàn)矩陣共現(xiàn)矩陣是一個對稱矩陣,用來分析詞與詞之間基于上下文的相似性指在中心詞的左右某個窗口大小的范圍內(nèi),某兩個詞共同出現(xiàn)的次數(shù)如果窗口大小為1,則計算中心詞與前后1個位置的詞的共現(xiàn)次數(shù)對于語料庫:“我愛浙大”、“我愛中國,非常愛”中的文檔“我愛浙大”,滑動窗口大小為1,尋找每一個詞前后的兩個詞如“愛”前后為“我”和“浙大”,在對應位置標注1即可得到共現(xiàn)矩陣為下:Index我愛浙大中國非常我01000愛10100浙大01000中國00000非常00000示例語料庫文檔“我愛浙大”的共現(xiàn)矩陣A/D轉(zhuǎn)換器鏡頭CCD傳感器濾波器CFA插值

白平衡、伽馬校正數(shù)據(jù)壓縮、存儲成像系統(tǒng)的內(nèi)部構(gòu)成相機拍照后選擇存儲格式3.2圖像數(shù)據(jù)的描述圖像的自然描述數(shù)字圖像是用傳感器將物體在光照下拍照獲得的手機和相機等光學傳感器獲取圖像的系統(tǒng)框圖有高度和寬度、以像素為基本單元順序的圖像數(shù)據(jù)圖像數(shù)據(jù)的描述-參數(shù)圖像大?。簣D像文件的大小決定了圖像文件所需的磁盤存儲空間,一般以字節(jié)(byte)來度量,其計算公式為:字節(jié)數(shù)=(位圖高×位圖寬×圖像深度)/8。圖像分辨率:指單位打印長度上的圖像像素的數(shù)目,表示圖像數(shù)字信息的數(shù)量或密度,決定了圖像的清晰程度。一張照片的分辨率為:1920*1080(dpi,全稱為dotperinch),1920是照片的寬度,1080是圖像的高度。圖像顏色:一種記錄圖像顏色的方式,將某種顏色表現(xiàn)為數(shù)字形式的模型。有RGB模式、RGBA模式、CMYK模式、位圖模式、灰度模式、索引顏色模式、雙色調(diào)模式等。位深:存儲每個像素所用的位數(shù)。圖像的每一個像素對應的數(shù)據(jù)通??梢允?位(bit)或多位字節(jié),用于存放該像素的顏色、亮度等信息,數(shù)據(jù)位數(shù)越多,對應的圖像顏色種類越多。如RGB的深度就是28*3=256*3=768,此圖像的深度為768,每個像素點都能夠代表768中的顏色。色調(diào):指各種圖像色彩模式下圖像的原色的明暗度。例如,RGB模式的圖像的原以為R、G、B的3種明暗度,色調(diào)的調(diào)整就是對明暗度的調(diào)整。飽和度:指圖像顏色的深度,它表明了色彩的純度,決定于物體反射或投射的特性。圖像數(shù)字化描述

圖像的數(shù)字化描述是能夠在計算機上存儲和容易分析的圖像形式可根據(jù)特性分為位圖和矢量圖。位圖通常使用數(shù)字陣列來表示,常見的格式有BMP、JPEG、GIF等。用數(shù)字照相機得到的圖像都是位圖圖像,位圖圖像由像素組成,每個像素都被分配一個特定位置和顏色值數(shù)字化描述方式,灰度圖像、二值圖像、彩色圖像和比特平面分層圖像等矢量圖有矢量數(shù)據(jù)庫表示,常見的是PNG圖形位圖的矩陣描述將一幅圖像視為一個二維函數(shù)f(x,y)其中x和y是空間坐標,在x-y平面中的任意一對空間坐標(x,y)上的幅值f用來表示一幅圖像具有兩個連續(xù)變量x和y的連續(xù)圖像函數(shù),該函數(shù)可以是該點的灰度、亮度或者強度。灰度圖像RGB彩色圖像自然界幾乎所有顏色都可以由紅綠藍三種顏色組合而成,稱為RGB三原色彩色圖像的每個像素通常是由紅(R)、綠(G)、藍(B)三個分量來表示的紅、綠、藍每一種顏色各有256級亮度,256級的RGB色彩總共能組合出約1678萬種色彩對于圖像的每個像素,通過控制RGB三原色的合成比例,則可決定該像素的顯示顏色

比特平面分層比特平面分層代替突出灰度級的范圍,突出特定的比特對整個圖像做出的貢獻像素是比特組成的數(shù)字,一幅8比特的圖像可以認為是8個1比特的平面構(gòu)成平面1包含圖像中所有像素的最低階比特,平面8包含圖像中所有像素的最高階比特低階的比特平面含有原圖的灰度細節(jié)高階的比特平面則包含了大多數(shù)的圖像的數(shù)據(jù)可以使用高階的幾層比頁面重建原圖,減少圖像存儲量《蒙娜麗莎的微笑》圖像的比特平面分層示例分層的作用:通過對特定位面提高亮度,改善圖像質(zhì)量分層觀察圖像進行圖像差異化的描述分析較高位(如前4位)包含視覺重要數(shù)據(jù)較低位(如后4位)對圖像小細節(jié)有作用可以分析每一位在圖像中的相對重要性

彩色圖像的比特平面分層彩色圖像的比特面分層只是在紅、藍、綠三個分量上分別進行分層如圖3.12中紅色通道上的一個像素用8比特的字節(jié)表示,二進制數(shù)存儲在不同的比特面層次的低層到高層中,則二進制11001010=十進制202最后彩色圖像上該像素的幅度值為RGB三個彩色分量上8比特字節(jié)的組合

圖像描述(ImageCaption)看圖說話:輸入是一幅圖像,輸出是對該幅圖像文字描述3.3視頻數(shù)據(jù)的描述視頻的自然描述視頻指連續(xù)的圖像序列是人肉眼可觀察到的連續(xù)畫面經(jīng)過捕捉和存儲后,可重復播放的信息形式用幀、鏡頭、場景、故事單元等元素來描述視頻的內(nèi)部內(nèi)容衡量視頻的質(zhì)量,用清晰度、分辨率、色彩空間以及峰值信噪比來量化視頻表現(xiàn)的時序動作信息

視頻數(shù)字化描述每個視頻都是一個圖像序列,其內(nèi)容比一張圖像豐富的多,表現(xiàn)力更強。視頻具有層次化結(jié)構(gòu),由場景、鏡頭和幀三個邏輯單元組成。對視頻的分析通常是基于視頻幀,通過視頻解碼后得到的視頻流中包含的I幀、B幀、P幀等。關鍵幀定義:把圖像坐標系中每個“視頻幀”都疊加在一起,這時鏡頭中視頻幀的特征矢量會在空間中呈現(xiàn)出一個軌跡的狀態(tài),而與軌跡中特征值進行對應的“幀”即可稱之為關鍵幀。在構(gòu)成一段動畫的若干幀中,起到?jīng)Q定性作用的往往是2-3幀。通常關鍵幀通常是1秒動畫的第一幀和最后一幀,因此,提取視頻的關鍵幀至關重要視頻流中的I幀、B幀、P幀和關鍵幀的信息抽取

百度智能云媒體內(nèi)容分析過程百度智能云媒體內(nèi)容分析MCA(MediaContentAnalysis)是一款基于多維AI技術的計算型產(chǎn)品,為用戶提供音視頻及直播的內(nèi)容分析能力。視頻語音、文字、公眾人物、物體、場景等多個維度進行識別后輸出對視頻的場景、公眾人物、地點、實體和關鍵詞的結(jié)構(gòu)化標簽信息提高搜索準確度和用戶推薦視頻的曝光量。

視頻描述(VideoCaptioning)3.4音頻數(shù)據(jù)的描述音頻的自然描述音頻信號(Audio)是帶有語音、音樂和音效的有規(guī)律的聲波的頻率、幅度變化信息載體。不同類型的音頻具有不同的內(nèi)在特征和自然描述,物理特征級、聲學特征級別和語義級。物理樣本級描述包含的特征有采樣頻率、時間刻度、樣本等;聲學特征級描述包含音調(diào)、音高、旋律、節(jié)奏等;語義級描述則包括音頻的敘事、音頻對象描述、語音識別文本等。

語音“我愛北京天安門”的時域信號語音:隨時間播放音樂:唱歌樂曲隨時間播放音頻數(shù)字化過程音頻數(shù)字化描述采樣率是指錄音設備在單位時間內(nèi)對聲音信號的采樣次數(shù),主流采樣率分為三個等級:22.05KHz、44.1KHz、48KHz。44.1KHz理論上是CD音質(zhì)的界限,這也是MP3具有的采樣率。量化是聲音信號在幅值的數(shù)字化,主要是將幅度上連續(xù)取值的每一個樣本轉(zhuǎn)換為離散值表示,其量化過后的樣本用二進制表示。二進制的位數(shù)反映了度量聲音波形幅度的精度。精度越大,聲音的質(zhì)量就越好。通常的精度有8bit,16bit,32bit等,質(zhì)量越好,需要的儲存空間就越大。音頻數(shù)據(jù)的時域和頻域表示音頻數(shù)據(jù)的時域和頻域表示數(shù)據(jù)率是音頻數(shù)字化的基本技術參數(shù),數(shù)據(jù)率為每秒bit數(shù),其總數(shù)據(jù)量與計算機的存儲空間有直接關系。未經(jīng)壓縮的數(shù)字音頻數(shù)據(jù)率可按下式計算:數(shù)據(jù)率=采樣頻率(Hz)×量化位數(shù)(bit)×聲道數(shù)(bit/s)3.5數(shù)據(jù)的可視化可視化技術通常會將數(shù)據(jù)分析內(nèi)容集成在一個圖形界面上,展示一個或多個可視化視圖。非結(jié)構(gòu)數(shù)據(jù)特征多,需要降維以緩解維數(shù)災難??梢詫?shù)據(jù)去冗余、降低信噪比,方便可視化。因此非結(jié)構(gòu)數(shù)據(jù)可視化需要首先提取特征,在分解和降維之后再進行可視化,分析和揭示數(shù)據(jù)的規(guī)律。文本的可視化分析詞云WordCloud使用Python,調(diào)用wordcloud庫中的方法來簡單制作詞云圖,步驟如下:收集語料:語料可以是某一類新聞,某一篇小說,某一篇報道,人物描述,公司描述,物品描述等等,通過某個語料,獲取該語料的主題。數(shù)據(jù)讀?。簩τ谂老x得到的數(shù)據(jù)需要去掉空行,對不規(guī)范的內(nèi)容進行處理,對于規(guī)范的文本可以直接調(diào)用jieba庫進行分詞。去停止詞:分詞后需去掉停止詞,停止詞的詞頻很大,影響結(jié)果。統(tǒng)計詞頻:使用wordcloud制作成詞云B站詞云的案例bilibili網(wǎng)站下視頻彈幕文本的詞云圖經(jīng)過爬取bilibili網(wǎng)站下視頻“建黨百年主題MV《少年》”下出現(xiàn)的高頻彈幕,并制作詞云圖可以清晰地展示大眾在該視頻下的彈幕評論高頻詞匯:“吾輩”、“當自強”、“中國”等。詞云可以很好地表現(xiàn)每個單詞在特定文本體中被提及的頻率(即詞頻分布)通過使用不同的顏色和大小來表示不同級別的相對顯著性。TIARA可視化方法TIARA結(jié)合了標簽云,通過主題分析技術(latentdirichletallocation,LDA),將文本關鍵詞根據(jù)時間點放置在每條色帶上用詞的大小來表示關鍵詞在該時刻出現(xiàn)的頻率。因此用TIARA可以幫助用戶快速分析文本具體內(nèi)容隨時間變化的規(guī)律。如圖3.24在可視化中,每一層代表一個主題,由一組關鍵字描述。此處顯示了總共18個主題中的前8個主題。這些主題關鍵字隨時間分布,總結(jié)了內(nèi)容隨時間的演變。x軸編碼時間,y軸編碼每個主題的強度。對于每個主題,高度編碼了特定時間主題的電子郵件。從每個話題的高度及其隨時間分布的內(nèi)容,用戶可以觀察到話題隨時間的演變。FaceAtlas氣泡圖FaceAtlas結(jié)合了氣泡集和節(jié)點-鏈接圖兩種視圖,用于表達文本各層面信息內(nèi)部和外部的關聯(lián)。每個節(jié)點表示一個實體,用KDE方法刻畫出氣泡圖的輪廓,然后用線將同一層面的實體鏈接起來,一種顏色代表一種實體。下圖是基于醫(yī)療健康文檔,展示了與HIV相關的病名、病因、癥狀、診斷方案等多層面的信息,“無癥狀HIV感染”中(右上角),顯示了更多相關疾?。ㄒ约t色圓圈突出顯示)。情感分析可視化情感分析是指從文本中挖掘出心情、喜好、感覺等主觀信息。分析文本能掌握人們對于一個事件的觀點或情感的發(fā)展。圖3.25是基于矩陣視圖的客戶反饋信息的可視化工作,其中的行是指用戶觀點的載體,列是用戶的評價,顏色表達的是用戶評價的傾向程度,紅色代表消極,藍色代表積極,每個方格內(nèi)的小格子代表用戶評價的人數(shù),評價人數(shù)越多小格子越大。文本的知識圖譜知識圖譜旨在用結(jié)構(gòu)化的形式描述真實世界中存在的各種實體或概念之間的關系,簡化成三元組模式,即:實體-關系-實體。最終呈現(xiàn)的是一張的關系網(wǎng),網(wǎng)中每個節(jié)點代表某種實體或概念,而關系則是展現(xiàn)兩者之間的關聯(lián)文本數(shù)據(jù)知識圖譜技術以最契合社會行為的形式表達復雜的社會結(jié)構(gòu),適合分析具有關聯(lián)關系的數(shù)據(jù)。圖表示知識圖譜助力新冠肺炎抗疫,在大量的數(shù)據(jù)中抽取出軌跡的關鍵點信息、新冠肺炎特征、預防措施、治療方案等信息,將數(shù)據(jù)進行信息化和知識化處理,經(jīng)過前期抽樣的人工校驗后作為疫情大腦的數(shù)據(jù)來源。CNN特征圖可視化深度神經(jīng)網(wǎng)絡性能很高,但其內(nèi)部的工作方式錯綜復雜,研究人員難以理解其中是如何得出結(jié)果的。

如下圖示出簡化的深度卷積神經(jīng)網(wǎng)絡結(jié)構(gòu),如何將紅色虛線框中的黑盒打開,用可視化方式展示網(wǎng)絡內(nèi)部各種層級結(jié)構(gòu),對黑箱的CNN進行可解釋對分析決策是非常重要的。

CNN特征圖可視化

類別激活映射(CAM)解釋CNN分類結(jié)果(圖像來源:BoleiZhouetalLearningDeepFeaturesforDiscriminativeLocalization.CVPR2016)交互式可視化學習CNN使用CNNExplainer觀察CNN運作過程(圖像來源:CNNExplainer(poloclub.github.io))特征降維PCAt-SNE降維與可視化與PCA的性能相比,t-SNE的表現(xiàn)更好。t-SNE算法將不同的手寫數(shù)字聚類,沒有任何重疊,PCA難以將手寫數(shù)字圖像進行完美分類。與PCA不同,t-SNE可以更好地應用于線性和非線性良好聚類的數(shù)據(jù)集,并產(chǎn)生更有意義的聚類。盡管t-SNE在可視化分離良好的群集方面非常出色,但大多數(shù)情況下它無法保留數(shù)據(jù)的整體幾何形狀。3.6數(shù)據(jù)的質(zhì)量數(shù)據(jù)質(zhì)量問題直接影響分析的結(jié)果高質(zhì)量數(shù)據(jù)應該是對現(xiàn)實世界的真實反映高質(zhì)量數(shù)據(jù)=?文本數(shù)據(jù)的質(zhì)量文本數(shù)據(jù)的描述,經(jīng)過爬取和收集的生數(shù)據(jù)集(rawdata)中常常包含大量來自于網(wǎng)絡的文本,無可避免的需要面對一些不規(guī)范的文本表達問題。社交網(wǎng)絡中常出現(xiàn)的顏文字、表情符號等圖像數(shù)據(jù)的質(zhì)量標簽噪聲自行車圖像清晰度質(zhì)量低環(huán)境照度圖像(下圖a)模糊不清圖像(下圖b)雨霧天圖像(下圖c,d)遠距離分辨率低圖像壓縮倍數(shù)大質(zhì)量低都將會影響圖像分析的結(jié)果音頻數(shù)據(jù)的質(zhì)量干擾場景:實際中聲音檢測主要是處于干擾環(huán)境中的背景音以及聲音的混響例如使用Siri的時候會發(fā)現(xiàn),如果周圍環(huán)境噪聲過大,Siri就會出現(xiàn)誤判,主要的原因是人說話的語音信號與手機麥克風所采拾的環(huán)境噪聲之間信噪比(SNR)較小,噪聲影響了正常識別系統(tǒng)的性能。遠場場景:遠場場景都是比較復雜的場景,這主要是因為麥克風距離遠,語音信號到達麥克風時衰減嚴重,使得環(huán)境噪音、混響、音樂等背景干擾信號,以及其他人聲的影響難以被忽略。實用中識別系統(tǒng)在訓練數(shù)據(jù)具有多重干擾時,尤其是多人人聲和干擾的環(huán)境下的魯棒性仍需解決。數(shù)據(jù)的偏差影響很多人認為,只要數(shù)據(jù)集的樣本足夠多,就能夠訓練得到在真實世界中性能同樣出眾的模型這種觀點的前提假設是訓練集的樣本分布與真實世界的分布一致。事實上,數(shù)據(jù)集與真實世界存在數(shù)據(jù)分布偏差,不同數(shù)據(jù)集之間也存在樣本分布偏差。有偏見的數(shù)據(jù)集不能準確地表示模型的用例,從而導致結(jié)果偏斜,準確性水平低、分析結(jié)果錯誤。樣本偏差當數(shù)據(jù)集不能反映模型將在其中運行的環(huán)境的實際情況時,就會發(fā)生樣本偏差。在2018年夏天,英國媒體就報道過,由于人臉識別技術的誤判,導致一名年輕黑人男性被誤認為嫌疑犯,在公眾場合被警察搜身。一些用于面部識別系統(tǒng)的數(shù)據(jù)集大部分都由白人構(gòu)成,這樣的偏見會在AI系統(tǒng)中形成錯判。這些模型對婦女和不同種族的人的準確率要低得多,此偏差的另一個名稱是選擇偏差,可能導致學習算法的泛化能力變差。亞馬遜AI識別深色女性人種的正確率更低(圖片來源:/archives/451383)數(shù)據(jù)的偏差影響只要數(shù)據(jù)樣本足夠多,就能夠訓練出性能同樣的模型?這觀點的前提假設是訓練集的樣本分布與真實世界的分布一致事實上,數(shù)據(jù)集與真實世界存在數(shù)據(jù)樣本分布偏差有偏見的數(shù)據(jù)集不能準確地表示模型的用例導致結(jié)果偏斜,準確性水平低、分析結(jié)果錯誤測量偏差收集的數(shù)據(jù)與現(xiàn)實世界中收集的數(shù)據(jù)有可能不同不同人、不同設備、不同角度的采集發(fā)生這種偏差訓練數(shù)據(jù)用一類相機收集的,測試數(shù)據(jù)是用另一種照相機不同人拍攝同樣建筑獲得不同的圖可能產(chǎn)生測量偏差在項目數(shù)據(jù)標記階段,注釋不一致也會導致測量偏差。觀察者偏差觀察者偏差是一種認知偏差,這是基于人們傾向于尋找與他們先前持有的信念相一致的信息。當研究人員在有意識或無意識的情況下,對自己的研究有主觀意識嵌入到項目里。例如當標簽制作者有自己的直覺習慣,制作的標簽就存在主觀思想的控制,會導致數(shù)據(jù)不準確。數(shù)據(jù)集間偏差數(shù)據(jù)集之間同樣也存在著偏差任務不同,每一個數(shù)據(jù)集收集到的圖像風格會受到影響不同數(shù)據(jù)集之間同一目標的圖像其拍攝角度、風格等各異一般的模型無法泛化所有的圖像數(shù)據(jù)集在遇到來自于其他數(shù)據(jù)集圖像,會出現(xiàn)誤判,準確率明顯下降。謝謝大家勤學/修德/明辨/篤實第四章經(jīng)典模型與分析方法4.1模型評價與模型選擇4.2集成樹模型4.3線性模型4.4K近鄰法4.5支持向量機4.6K均值聚類4.7層次聚類法目錄和內(nèi)容監(jiān)督學習versus

無監(jiān)督學習決策樹隨機森林XGBoost線性回歸邏輯回歸線性判別分析k近鄰法支持向量機感知器神經(jīng)網(wǎng)絡K均值聚類層次聚類法章節(jié)內(nèi)容概述目錄和內(nèi)容4.1模型評價與模型選擇4.2集成樹模型4.3線性模型4.4K近鄰法4.5支持向量機4.6K均值聚類4.7層次聚類法

4.1.1模型評價準則

錯誤率和精度以二分類問題為例,將樣本的真實類別和預測類別分為四種組合:真正例(TruePositive)、假正例(FalsePositive)、真反例(TrueNegative)和假反例(FalseNegative),假設這四種組合對應的樣本個數(shù)分別為TP、FP、TN和FN,則TP+FP+TN+FN=N。查準率和召回率真實情況預測結(jié)果正例反例正例TPFN反例FPTN

受試者工作特征曲線

以TPR為縱軸,F(xiàn)PR為橫軸即可畫出ROC曲線,模型對應的ROC曲線下圍成的面積(AreaUnderROCCurve,AUC)越大意味著模型更優(yōu)。ROC曲線下圍成的面積回歸問題評價指標

4.1.2模型評價方法-留出法令S為數(shù)據(jù)樣本,若在S較為充分的情況下,可以將數(shù)據(jù)集劃分為訓練集TR、測試集TE和驗證集VA三個互斥部分,且滿足:訓練集、測試集、驗證集劃分按照通常做法,訓練集、測試集和驗證集三部分的比例一般取6:2:2。訓練模型時,在訓練集和測試集上進行模型參數(shù)調(diào)整,并在驗證集上進行模型泛化能力的檢驗。交叉驗證法在實際應用中,有許多場合獲得的數(shù)據(jù)樣本量偏少,沒有足夠的數(shù)據(jù)進行訓練。為了能夠訓練出好的模型,較常使用的方法是S交叉驗證法(S-foldCrossValidation)。這里以5-fold交叉驗證為例,4.1.3過擬合和欠擬合模型學習能力過強,將訓練樣本的某些偏差當作樣本特征,會導致其在面對新樣本時表現(xiàn)不佳(相對訓練樣本而言),即泛化能力較弱,這種情況稱為過擬合(Overfitting)。與過擬合相對應的是欠擬合(Underfitting),其表現(xiàn)為模型不能充分學習訓練樣本的特征,遺漏了較多樣本信息,導致模型訓練效果較差。正確的擬合形式過擬合和欠擬合的對比4.1.4模型參數(shù)調(diào)整機器學習模型包含許多參數(shù),在用這些模型解決實際問題時,一般需要先對參數(shù)進行設定,這類需要事先設定的參數(shù)稱為“超參數(shù)”(Hyperparameter)。參數(shù)調(diào)優(yōu)的目標是選擇合適的參數(shù)以使模型能夠達到令人滿意的效果。常見方法網(wǎng)格搜索(GridSearch)隨機搜索(RandomSearch)這些參數(shù)調(diào)優(yōu)方法均已被封裝為工具包,讀者在實戰(zhàn)中可根據(jù)具體問題選擇合適的調(diào)優(yōu)方法并調(diào)用相應的工具包。目錄和內(nèi)容4.1模型評價與模型選擇4.2集成樹模型4.3線性模型4.4K近鄰法4.5支持向量機4.6K均值聚類4.7層次聚類法4.2.1基本的樹模型決策樹(DecisionTree)是一種非參數(shù)的機器學習算法,常用來解決分類和回歸問題。以二叉樹為例。一棵決策樹由結(jié)點和邊構(gòu)成,結(jié)點包括一個根結(jié)點(代表樣本集合),多個內(nèi)部結(jié)點(代表屬性)和多個葉結(jié)點(代表結(jié)果),邊代表分裂過程。根據(jù)屬性分裂準則的不同,決策樹可以分為ID3算法(使用信息增益選擇分裂屬性)C4.5算法(使用增益率選擇分裂屬性)CART算法(使用基尼指數(shù)選擇分裂屬性)信息增益

信息增益率

基尼指數(shù)

隨機森林為了克服決策樹泛化能力弱的特點,LeoBreiman在2001年提出了隨機森林(RandomForest)算法,結(jié)合多棵決策樹進行預測。隨機森林主要具有以下優(yōu)點:(1)通過對訓練樣本和特征進行隨機抽樣,防止過擬合,提高模型的泛化能力;(2)多棵樹的訓練相互獨立,可以通過并行計算,提高訓練速度。但是它也存在以下缺點:部分決策樹因為樣本類別不平衡、重復抽樣等原因預測表現(xiàn)比較差,會降低整個隨機森林的預測表現(xiàn)。4.2.2XGBoost算法Chen

Tianqi在2016年提出了XGBoost算法,克服了隨機森林算法的缺點。XGBoost(ExtremeGradientBoosting,極限梯度提升)算法屬于集成學習算法,它是對Boosting算法和GradientBoosting算法的進一步改進。Boosting算法通過迭代優(yōu)化,將多個弱學習器組合成一個強學習器,提高預測準確性。GradientBoosting算法是Boosting算法的改進,令損失函數(shù)在迭代過程中沿梯度方向下降。目標函數(shù)

目錄和內(nèi)容4.1模型評價與模型選擇4.2集成樹模型4.3線性模型4.4K近鄰法4.5支持向量機4.6K均值聚類4.7層次聚類法4.3.1基本線性模型

樣本序號11.11.023.44.132.02.544.23.755.05.067.26.978.18.3邏輯回歸

邏輯回歸

Logistic分布的分布函數(shù)曲線和概率密度函數(shù)曲線邏輯回歸

參數(shù)估計參數(shù)估計

4.3.2線性判別分析

兩個類別投影后的效果距離計算

算例本小節(jié)試圖通過LDA模型判斷圖像類別是否為貓,數(shù)據(jù)及參考代碼來源于Kaggle公開數(shù)據(jù)集(數(shù)據(jù)來源:/mriganksingh/cat-images-dataset;參考代碼來源:/gamerplayer/classification-using-logistic-regression-sklearn)。數(shù)據(jù)集中訓練集樣本數(shù)為209,包含72個正例,即72張圖像為貓的圖像;測試集大小為50,包含33個正例。其中,正例標記為1,反例標記為0。首先導入所需代碼包,并確定數(shù)據(jù)集所在位置:算例導入數(shù)據(jù)集:算例訓練集第8張圖像是貓的圖像,結(jié)果顯示如下:將數(shù)據(jù)處理成模型可識別的形式,并進行標準化:調(diào)用sklearn.discriminant_analysis函數(shù)庫中的LinearDiscriminantAnalysis()函數(shù)進行模型訓練:4.3.3常用策略和方法

k與權值的關系4.3.3常用策略和方法

目錄和內(nèi)容4.1模型評價與模型選擇4.2集成樹模型4.3線性模型4.4K近鄰法4.5支持向量機4.6K均值聚類4.7層次聚類法4.4.1算法介紹k近鄰法(K-nearestNeighbor,KNN)是一種常用的機器學習算法,屬于監(jiān)督學習。工作原理:輸入訓練樣本后,定義某種特定的距離算法,在訓練樣本中尋找k個和待預測樣本數(shù)據(jù)點最接近的樣本,即找到測試樣本點在訓練樣本點中的k個“鄰居”,并利用這些鄰居的表現(xiàn)預測測試樣本的表現(xiàn)。k近鄰法既可以用于分類問題,又可以用于回歸問題。4.4.2距離度量方式

4.4.3近鄰點搜索算法在應用k近鄰算法時,最大挑戰(zhàn)在于如何提高尋找訓練樣本中k個最近鄰點的搜索速度。當特征空間的維數(shù)升高或者訓練樣本數(shù)據(jù)量過大時,這個問題變得非常重要。kdtree算法就是一種快速實現(xiàn)近鄰點搜索的算法。在R2空間中根據(jù)以下數(shù)據(jù)集建立一個平衡kdtree:S={(1,1),(3,5),(4,2),(5,4),(6,0.5),(6.5,1),(7,3)}kdtree示意4.4.4KNN算例數(shù)據(jù)集:Sort_1000pics選擇卡車、花朵、馬和山峰共400張圖片,將數(shù)據(jù)集隨機分為訓練集和測試集,比例為7:3,進行圖片多分類識別

precisionrecallF1-scoresupport卡車0.860.970.9133花朵0.840.70.7630馬0.651.00.7926山峰10.580.7331

Accuracy

0.81120Macroavg0.840.810.80120Weightedavg0.850.810.80120

算法表現(xiàn):目錄和內(nèi)容4.1模型評價與模型選擇4.2集成樹模型4.3線性模型4.4K近鄰法4.5支持向量機4.6K均值聚類4.7層次聚類法4.5.1SVM算法介紹

二分類圖示支持向量機基本原理示意4.5.2線性可分支持向量機訓練數(shù)據(jù)集D中,有T個訓練樣本,每個訓練樣本由特征向量X和類別Y組成,寫作:D={(x1,y1),(x2,y2),...,(xT,yT)}線性可分支持向量機中的樣本可以被超平面完全分割,且能夠完全分割的超平面可能不唯一,因此希望能夠找到一個最佳的超平面,以獲得最優(yōu)的分類效果,使得出錯概率最小。以二分類問題為例,對i=1,2,...,T,令yi∈{-1,+1},如果特征向量X只有A和B兩個屬性的話,存在如下超平面進行分割:多個分割超平面示意4.5.2線性可分支持向量機為了得到最優(yōu)超平面,定義“帶寬”。因此目標轉(zhuǎn)化為尋找最大帶寬的超平面。超平面可以描述為:該超平面可以將所有樣本正確分類為+1和-1,正負臨界平面定義如下:①正臨界平面:②負臨界平面:(a)小帶寬

(b)大帶寬正負臨界超平面示意4.5.3線性支持向量機在線性可分支持向量機中,一個重要的假定是所有的樣本均可被一個分割超平面分開,但在許多情況下,盡管可以找到一個超平面較好地對數(shù)據(jù)樣本進行分類,卻因為噪聲和干擾的存在無法對所有點進行準確分類。線性不可分解決該問題的一個非常重要的方法是軟間隔法,即允許支持向量機在部分數(shù)據(jù)的分類上不滿足約束,即出現(xiàn)錯誤(線性可分支持向量機不允許出現(xiàn)錯誤),但是需要盡可能減少樣本的錯誤4.5.3線性支

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論