版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、介紹數(shù)據(jù)挖掘教師的解決方案手冊陳甘美華Pang-NingMichael教授Vipin Kumar版權(quán)所有2006年P(guān)earson Addison-Wesley。 保留所有權(quán)利。內(nèi)容。TOC o 1-2 h z u HYPERLINK l _Toc318808 1 IntroductionPAGEREF _Toc318808 h1PAGEREF _Toc318808 h HYPERLINK l _Toc318809 2 DataPAGEREF _Toc318809 h5PAGEREF _Toc318809 h HYPERLINK l _Toc318810 3 Exploring DataPAGE
2、REF _Toc318810 h19PAGEREF _Toc318810 h HYPERLINK l _Toc318811 4 Classification: Basic Concepts, Decision Trees, and ModelPAGEREF _Toc318811 hPAGEREF _Toc318811 h HYPERLINK l _Toc318812 EvaluationPAGEREF _Toc318812 h25PAGEREF _Toc318812 h HYPERLINK l _Toc318813 5 Classification: Alternative Technique
3、sPAGEREF _Toc318813 h45PAGEREF _Toc318813 h HYPERLINK l _Toc318814 6 Association Analysis: Basic Concepts and AlgorithmsPAGEREF _Toc318814 h71PAGEREF _Toc318814 h HYPERLINK l _Toc318815 7 Association Analysis: Advanced ConceptsPAGEREF _Toc318815 h95PAGEREF _Toc318815 h HYPERLINK l _Toc318816 8 Clust
4、er Analysis: Basic Concepts and AlgorithmsPAGEREF _Toc318816 h125PAGEREF _Toc318816 h HYPERLINK l _Toc318817 9 Cluster Analysis: Additional Issues and AlgorithmsPAGEREF _Toc318817 h147PAGEREF _Toc318817 h HYPERLINK l _Toc318818 10 Anomaly DetectionPAGEREF _Toc318818 h157PAGEREF _Toc318818 h三1介紹討論是否執(zhí)
5、行下列每項活動的是一種數(shù)據(jù)miningtask。把客戶的公司根據(jù)他們的性別。否。 這是一種簡單的數(shù)據(jù)庫查詢。把客戶的公司根據(jù)他們的盈利能力。第 這是一種會計計算、應用程序的門限值。 然而,預測盈利的一種新的客戶將數(shù)據(jù)挖掘。計算的總銷售公司。否。 這又是簡單的會計工作。排序的學生數(shù)據(jù)庫基于學生的身份證號碼。第 再次,這是一種簡單的數(shù)據(jù)庫查詢。預測結(jié)果丟(公平)的一對骰子。否。 既然死是公正的,這是一種概率的計算。 如果死是不公平的,我們需要估計的概率對每個結(jié)果的數(shù)據(jù),那么這更象研究的問題數(shù)據(jù)挖掘。 然而,在這種特定的情況下,要解決這一問題是由數(shù)學家很長一段時間前,因此,我們不認為它是數(shù)據(jù)挖掘。預
6、測未來股價的公司使用。historicalrecords是的。 我們將試圖創(chuàng)建的模型,可以預測未來的持續(xù)價值的股票價格。 這是一例的2第1章介紹領(lǐng)域的數(shù)據(jù)挖掘預測模型。 我們可以使用回歸分析。這一建模,盡管研究人員在許多領(lǐng)域已經(jīng)開發(fā)了多種技術(shù)來預測時間序列。監(jiān)控在患者心率異常。是的。 我們將構(gòu)建一種型號的正常行為的心率和提高報警當尋常心的行為發(fā)生。 這將涉及領(lǐng)域的數(shù)據(jù)挖掘被稱為異常檢測。 這也可以看作是一種分類的問題如果我們的例子兩個正常和不正常的心的行為。監(jiān)測地震波地震活動。是的。 在這種情況下,我們將構(gòu)建模型的不同類型的地震波的行為與地震活動和提高報警時,這些不同類型的地震活動。 這一例子
7、說明,在區(qū)域的數(shù)據(jù)挖掘已知的分級。解壓的頻率的聲音波形。否。 這是信號處理。假設您是作為一種數(shù)據(jù)挖掘咨詢顧問的互聯(lián)網(wǎng)搜索引擎公司。 介紹如何將數(shù)據(jù)挖掘可以幫助該公司的具體的例子,說明技術(shù),如群集、分類、關(guān)聯(lián)規(guī)則挖掘和異常檢測可以被應用。下面的示例將可能的答案。群集可以組的結(jié)果與類似的主題和現(xiàn)在的他們的用戶以更精簡的形式,例如,報告了10個最常見的詞集。分類可以將結(jié)果以預定義的類別如“體育”、“政治”等。連續(xù)的關(guān)聯(lián)分析可以檢測到這種特定的查詢按照某些其他的查詢使用的概率很高,從而更有效的高速緩存。異常檢測技術(shù)可以發(fā)現(xiàn)不尋常的模式的用戶流量,例如,一主題已突然變得更受歡迎。 廣告策略可以調(diào)整,以利
8、用這種事態(tài)發(fā)展。3對于下面的每個數(shù)據(jù)集說明數(shù)據(jù)是否privacyis一項重要的問題。普查數(shù)據(jù)的收集從1900年1950年。 無IP地址和訪問次數(shù)的Web用戶訪問你的網(wǎng)站。單擊“是”圖像從地球軌道運行的衛(wèi)星。 無名字和地址的人從電話通訊簿。 無姓名和電子郵件地址收集網(wǎng)。 無 2數(shù)據(jù)在最初的例子第2章、統(tǒng)計師說:“是的,字段2和3基本上是相同的。您能告訴我從三條線的樣本數(shù)據(jù)所顯示的為什么她說嗎?7對所顯示的值。 雖然它可以是危險的結(jié)論從這樣的小樣本,兩個字似乎包含基本相同的信息。分類以下屬性為Binary、離散或連續(xù)的。 還將其歸為質(zhì)量(名義或序數(shù))或數(shù)量(時間間隔或比例)。 某些情況下可能會有多
9、個解釋,簡要說明你的理由如果您認為可能有某些含糊不清之處。例如:年齡。答:獨立的、定量的、比率時間在上午或下午。 Binary、定性、序號亮度計測量光度計。持續(xù)不斷的、定量的、比率亮度測量人的判決。 離散的、定性的、序號角度以度為單位0和360。 持續(xù)不斷的、定量的、比率銅牌、銀牌和金牌頒發(fā)的獎項在奧運會上。 離散的、定性的、序號高度海平面以上。 持續(xù)不斷的、定量的、間隔/比例(取決于海一級被認為是一種任意的來源)。多的病人在醫(yī)院里。 離散的、定量的、比率ISBN號的書籍。 (查找格式在Web上的)離散的、定性的、名義上的(ISBN號碼沒有訂單信息,雖然)第2章數(shù)據(jù)可以通過指示燈的以下值:不透
10、明、半透明、透明。 離散的、定性的、序號軍銜。 離散的、定性的、序號中心的距離園區(qū)。 持續(xù)不斷的、定量的、間隔/比例(取決于)密度的物質(zhì)以克每立方厘米。 離散的、定量的、比率檢查涂層的編號。 (當你參加活動,你可以常常giveyour衣的人將為您提供的號碼,您可以使用要求您的外套當你離開。)離散的、定性的、名義您接觸的營銷總監(jiān),當?shù)匾患夜?他認為他已設計出一種簡易的方法來衡量客戶的滿意度。 他解釋了他的計劃:“它是如此的簡單,我不相信沒有人想過。 我只是保持跟蹤客戶投訴的每個產(chǎn)品。 我讀的是數(shù)據(jù)挖掘的圖書,計數(shù)率的屬性,因此,我國的產(chǎn)品滿意度必須是比特性。 但當我的產(chǎn)品都是基于我的新的客戶滿
11、意度測量和顯示出他們對我的老板,他告訴我,我忽略了很明顯的,我的措施是毫無價值的。 我認為他是瘋了,因為我們最暢銷的產(chǎn)品,最滿意的,因為它的投訴最多。 你可以幫我把他直嗎?”誰是誰的營銷總監(jiān)或老板嗎? 如果您的回答,hisboss你將如何修復措施的滿意度?老板是正確的。 一種更好的衡量標準是由投訴的產(chǎn)品滿意地注意到產(chǎn)品)=”??倲?shù)銷售的產(chǎn)品你能說什么關(guān)于屬性的類型的原始productsatisfaction屬性?沒有什么可以說的屬性類型的原始度量。 例如,兩個產(chǎn)品具有相同的客戶滿意度的級別會有不同的投訴數(shù)目和反之亦然。幾個月后,你會再次接觸相同的營銷directoras行使3。 這一次,他已經(jīng)
12、設計出一種更好的方法來衡量在多大程度上對客戶更喜歡一種產(chǎn)品在其他類似的產(chǎn)品。 他解釋說,“當我們開發(fā)新的產(chǎn)品,我們通常要創(chuàng)建幾個變量和評估這一客戶的喜歡。 我們的標準程序,以使我們的測試主體所有的產(chǎn)品變化在一段時間,然后讓他們排的變型產(chǎn)品。 然而,我們的測試科目有很優(yōu)柔寡斷的,尤其是當有兩個以上的產(chǎn)品。 結(jié)果,測試永遠需要的。 我建議,我們執(zhí)行的比較成對的然后使用這些比較獲得的排名。 因此,如果我們有三個產(chǎn)品的變化,我們的客戶比較不同1和2、2和3,和最后3和1。 我們的測試時間與我的新程序是第三,什么是舊的程序,但雇員在測試的抱怨說他們無法拿出排名的結(jié)果。 和我的老板想要的最新的產(chǎn)品的評價,
13、昨天。 我還要提到的是他的人了老產(chǎn)品的評價辦法。 您能幫助我嗎?”是營銷總監(jiān)的麻煩嗎? 將他的方法工作的生成順序排列的變型產(chǎn)品的客戶的首選項? 解釋一下。是的,營銷總監(jiān)是有麻煩了。 客戶可能會不穩(wěn)定的排名。 例如,客戶可能更喜歡1,2,2,3,但3到1。有什么方法可以修復的營銷總監(jiān)的做法? 更普遍的是,你能說什么來創(chuàng)建順序測量基于規(guī)模的成對比較的嗎?解決方案之一:三個項目,只做前兩個比較。 一種更通用的解決方案:將選擇的客戶之一,訂購產(chǎn)品,但仍然只允許配對比較的。 總的創(chuàng)建順序測量基于規(guī)模的成對比較是很困難的,因為可能的矛盾之處。對于原來的產(chǎn)品評估計劃的整體排名eachproduct變化中發(fā)現(xiàn)
14、的計算其平均在所有測試的科目。 評論你是否認為這是一種合理的辦法。 有什么其他的辦法可能您考慮嗎?第一,存在的問題是分攤比額表是不可能有時間間隔或比例分攤比額表。 但實際上,平均可能不夠好。 更重要的是,少數(shù)幾個極端的評級可能會導致在總的評級,是一種誤導。 因此,中值或修剪指(請參閱第3章)可能是更好的選擇。您能想到的情況的識別號碼將usefulfor預測嗎?例如:學生ID是一種良好的“調(diào)頭預警”功能的畢業(yè)日期。一名教育心理學家想要使用關(guān)聯(lián)分析方法來分析。testresults 測試包括100個問題有四個可能的答案。第2章數(shù)據(jù)你將如何將此類數(shù)據(jù)轉(zhuǎn)換成適合于associationanalysis
15、嗎?關(guān)聯(lián)規(guī)則分析工程使用binary屬性,因此您必須將原始數(shù)據(jù)轉(zhuǎn)化為Binary格式如下所示:Q1=AQ1=BQ1=CQ1=D.Q100=AQ100=BQ100=CQ100=D1000.10000010.0100特別是,什么類型的屬性將您和howmany,他們有嗎?400不對稱的二元屬性。以下哪一項的數(shù)量很可能會表現(xiàn)出更多的時間自動關(guān)聯(lián):雨量或每日的溫度嗎? 為什么?一種功能顯示的空間自動關(guān)聯(lián)如果位置更接近每個其他的更多的類似的值的功能比位置更遠的地方。 這是更為常見的物理關(guān)閉位置有類似的溫度比類似的降雨量降雨量以來可以非常本地化;,即降雨量可更改突然從一處向另一處。 因此,每日溫度顯示了更多
16、的空間自相關(guān)性然后每天的降雨量。討論為什么有的文檔的列表是一種數(shù)據(jù)集hasasymmetric離散或連續(xù)的非對稱性的特點。Ijth的項的文檔的列表的次數(shù),長期j出現(xiàn)在我的文檔”。 大多數(shù)文檔所包含的只是一小部分的所有可能的條件,因此,零條目并沒有很大的意義,不論是在描述或比較文檔。 因此,文檔的矩陣有不對稱的離散特性。 如果我們應用了TFIDF正?;臈l件和歸檔到二級緩存的規(guī)范1、然后這將會創(chuàng)建一個文檔矩陣與連續(xù)的功能。 然而,功能仍然是不對稱的,因為這些變化并不創(chuàng)建非零的條目中的所有條目,以前是0,因此,零條目仍沒有很大的意義。許多科學依賴于觀察而不是(或除了)設計實驗。 比較的數(shù)據(jù)質(zhì)量問題
17、的參與觀測的科學與實驗科學和數(shù)據(jù)挖掘。觀測科學的問題,不能夠完全控制數(shù)據(jù)的質(zhì)量,他們獲得的。 例如,直到地球軌道運行的衛(wèi)星,測量,海洋表面的溫度依賴的測量船。 同樣的,天氣的測量往往采取從站位于城鎮(zhèn)或城市。 因此,有必要與所提供的數(shù)據(jù),而不是數(shù)據(jù)從精心設計的實驗。 在這種意義上說,數(shù)據(jù)分析的科學觀測類似的數(shù)據(jù)挖掘。討論之間的差值的精度測量和termssingle和雙精度,因為它們是用來在計算機科學中,通常為代表的浮點數(shù)字,需要32位和64位的分別。精度的浮點數(shù)字的最大精度。 更明確地規(guī)定,精度通常表示的有效數(shù)字的位數(shù)來表示的值。 因此,單精度數(shù)只能代表值與多達32位、9位小數(shù)位數(shù)的精確。 然而
18、,往往的精度值使用32位(64 bits)是遠遠少于32位數(shù)(64位)。提供至少兩個優(yōu)點與數(shù)據(jù)存儲在文本文件中insteadof a binary格式。文本文件可以很容易的檢查鍵入的文件或查看它的文本編輯器。文本文件是更便攜的binary文件、兩個跨越多個系統(tǒng)和方案。文本文件可以更方便地進行修改,例如,使用文本編輯器或perl。區(qū)分噪音和異常值。 請務必考慮。followingquestions噪音是以往任何時候都更加令人感興趣的或需要? 異常值沒有任何的定義。 是的。 (請參閱第10章。)可以噪音對象異常值?是的。 隨機的數(shù)據(jù)失真通常負責為離群值。有噪音的對象總是異常值?第 隨機的失真會導致
19、對象或值更象是正常的。都是異常值總是發(fā)出噪音的對象嗎?第 往往離群值僅僅是類的對象,是不同于正常的對象??梢允乖肼暤湫椭挡粚こ5囊环N,或反之亦然?是的。 考慮的問題是找出K近鄰的數(shù)據(jù)對象。 程序員在設計算法2.1來執(zhí)行這項任務。算法2.1算法查找K最接近的鄰居。1:fori=1的數(shù)據(jù)對象2:查找距離的對象的所有其他對象。3:排序這些距離遞減的順序。(跟蹤對象所關(guān)聯(lián)的每個距離)。4:返回的關(guān)聯(lián)對象的第一次K的距離,經(jīng)過排序的列表。5:結(jié)束。描述了可能出現(xiàn)的問題與此算法如果有重復的對象的數(shù)據(jù)集。 假設距離函數(shù)將僅返回的距離為0的對象是相同的。有幾個問題。 第一,重復的對象在最近的鄰居列表將取決于細
20、節(jié)的算法和對象的順序數(shù)據(jù)集。 第二,如果有足夠的重復的、最近的鄰居列表中可能包含重復的記錄。 第三,對象可能不是自己的最接近的鄰居。您將如何解決此問題?有多個方法這取決于具體情況。 一種方法是只保留某個對象的每個組對象重復。 在這種情況下,每個鄰居都可以是單一的對象或一組對象重復。以下屬性用于衡量成員對一群亞洲象:重量、高度、象牙的長度、中繼線的長度,和耳區(qū)。 基于這些測量值,什么種類的相似性測量從2.4節(jié)您會使用比較或組這些大象? 證明您的答案和解釋的任何特殊情況。這些屬性中的所有數(shù)字,但可以具有完全不同的值的范圍內(nèi),取決于所使用的比額表對它們進行測量。 此外,該特性沒有不對稱和規(guī)模的屬性問
21、題。 這后者的兩個事實消除了余弦和相關(guān)措施。 歐幾里德距離、應用進行標準化后的屬性要有平均的0和標準偏差為1,將是適當?shù)摹D闶墙o定一組m對象分為K的群體,其中的組的大小美。 如果我們的目標是要獲得的樣本大小n99.9%的遺傳因子相同。)兩人共享99.9%的相同基因。 如果我們想要比較的遺傳組成的兩個人,我們應把重點放在它們之間的分歧。 因此,Hamming距離更適合這種情況。對于下面的引導程序、x和y,計算出所示的相似性或距離的措施。X=(1、1、1、1)、y=(2”、“2”、“2”、“2)余弦、關(guān)聯(lián)、歐幾里德的cos(x,y)=1、更正(x,y)=0/0(未定義)、歐幾里德(x,y)=2X=
22、(0、1、0、1)、y=(1、0、1、0)余弦、關(guān)聯(lián)、歐幾里德,雅卡爾cos(x,y)=0、更正(x,y)=-1、歐幾里德(x,y)=2、雅卡爾(x,y)=0X=(0、-1、0、1)、y=(1、0、1、0)余弦、關(guān)聯(lián)、歐幾里德的cos(x,y)=0、更正(x,y)=0、歐幾里德(x,y)=2X=(1、1、0、1、0、1)、y=(1、1、1、0、0、1)余弦、關(guān)聯(lián)、雅卡爾cos(x,y)=0.75、更正(x,y)=0.25的Jaccard(x,y)=0.6X=(2-1”、“0”、“2”、“0、3),y=(-1、1-1、0、0、-1)余弦、關(guān)聯(lián)的cos(x,y)=0、更正(x,y)=0在這里,我們
23、深入探討和余弦的相互關(guān)系的措施。什么是值的范圍,均可用于測量角度的余弦值?1、1。 許多倍的數(shù)據(jù)只有積極的條目。在這種情況下該值的范圍是0,1。如果兩個對象具有角度的余弦值的測量1、他們是相同的嗎? 解釋一下。不一定。 所有我們知道的是,屬性數(shù)值相差恒定的因素。是一種什么樣的關(guān)系的角度的余弦值為測量的相關(guān)性,如果有條提示:查看統(tǒng)計的措施,例如平均值和標準偏差的情況下,余弦和關(guān)聯(lián)是相同的和不同的。)對于兩個向量x和y的值為0、更正(x,y)=cos(x、y)。圖2.1(a)顯示了這種關(guān)系的角度的余弦值為測量的Euclideandistance 100000隨機生成點已標準化的有L 2的長度為1。
24、 何總的意見可以使之間關(guān)系的歐幾里德距離和余弦相似性當引導程序具有L 2規(guī)范1?因為所有的100000點落在曲線上,有一種功能關(guān)系歐幾里德距離和余弦相似性的標準化數(shù)據(jù)。 更具體地說,是一種逆向的關(guān)系余弦相似性和歐幾里德距離。 例如,如果兩個數(shù)據(jù)點都是相同的,它們的余弦相似性是一種和他們的歐幾里德距離為零,但如果兩個數(shù)據(jù)點都有很高的歐幾里德距離、他們的余弦值是接近于零。 注意的是,所有的樣例數(shù)據(jù)點是從積極的象限,即僅有積極的價值。 這意味著所有的余弦(和關(guān)聯(lián)值將是積極的。圖2.1(b)顯示了這種關(guān)系的關(guān)聯(lián)到歐幾里德10萬distancefor隨機生成的點都已標準化,有的意思是0,標準差為1。 何
25、總的意見可以使之間關(guān)系的歐幾里德距離和關(guān)聯(lián)當引導程序已經(jīng)標準化的意思0、標準偏差為1?同先前的答覆,但與關(guān)聯(lián)取代余弦。源之間的數(shù)學關(guān)系余弦相似性和歐幾里德距離每個數(shù)據(jù)對象都有L 2的長度為1。讓x和y是兩個向量的每個引導程序已有L 2的長度為1。 對于這種媒介的差異僅僅是n次的總和,其方形的屬性值和兩者之間的媒介是他們點的產(chǎn)品除以n。源之間的數(shù)學關(guān)系的關(guān)聯(lián)和Euclideandistance在每個數(shù)據(jù)點都已進行了標準化,減去它的意思和除以其標準偏差。讓x和y是兩個向量的每個向量的平均值為0,標準偏差為1。 對于這種媒介的差異(標準偏差的平方)是n次的總和,其方形的屬性值和兩者之間的媒介是他們點
26、的產(chǎn)品除以n。更正(x,y)顯示設置的不同度量的D(A,B)=(A-B)的大小+(B-A)符合指標定理給出第70頁上。A和B是設置和A-B的差值。00.20.40.610.8余弦相似性1.41.210.80.60.40.20歐幾里德距離00.81關(guān)聯(lián)1.41.210.80.60.40.20歐幾里德距離。(一)關(guān)系輾轉(zhuǎn)相除(b)之間的關(guān)系歐幾里德距離和角度的余弦值測量距離和關(guān)聯(lián)。圖2.1。圖為演習20日。第1條)。 這是因為一組是大于或等于0,d(x,y)0。B、A)焊接鋼管.-C)因為大小(AB)大小(B)和大小(BC)大小(B)、D A、BD B CCBB討論您可能如何映射關(guān)聯(lián)值的時間間隔1
27、對的時間間隔0、1。 注意類型的轉(zhuǎn)換,可以使用取決于應用程序的,您所想到的。 因此,考慮兩個應用程序:群集時間序列和預測行為的一次系列一。對于時間序列的群集、時間序列具有較高的正相關(guān)關(guān)系應放在一起。 為此,以下的轉(zhuǎn)變將是適當?shù)?對于預測的行為的一種時間序列從另一,有必要考慮強烈的負面影響,以及強烈的積極的、相互關(guān)聯(lián)的。 在這種情況下,下面的轉(zhuǎn)換、sim=|更正|可能是適當?shù)摹?請注意,這一假定您只想要預測的規(guī)模,而不是方向。給定的一種相似性測量值的時間間隔0、1介紹兩個waysto轉(zhuǎn)換這一相似性值的差異值在時間間隔0,。和d=-logs。近距離通常定義對之間的對象。定義了兩個方法,你可能定義的
28、接近在海灣小組的對象。兩個例子如下:(一)基于輪換的感應,即最小成對的相似性或成對的最大差異,或(ii)在歐幾里德空間計算質(zhì)心(意味著所有的點請參閱第8.2節(jié))然后計算的總和或平均值的點的距離的中點。您如何定義兩點之間的距離的點的集合在歐幾里德空間嗎?一種方法是計算距離質(zhì)心之間的兩個點集的。您如何定義接近兩個數(shù)據(jù)集對象?(作出任何假設的數(shù)據(jù)對象,但一近距離測量的定義任何一對對象。)一種方法是計算得到的平均成對近距離的對象的一組對象中的對象組。 其他的辦法都是采取最小或最大距離。請注意,凝聚力的群集相關(guān)的概念接近的一組對象之間的分離的群集相關(guān)的概念接近,兩個組的對象。 (請參閱8.4節(jié)。)此外,
29、靠近兩個群集是一種重要的概念在種種機遇的分層結(jié)構(gòu)的群集。 (請參閱第8.2節(jié))。你是給定的一組點的歐幾里德空間,以及遠距離的每個點在S點的x。 (不要緊如果xS。)如果我們的目標是要找到所有的點指定距離內(nèi)的點y、Y=X、解釋如何可以使用三角上的不平等和已計算的距離為x,可能減少距離計算的需要嗎? 提示:在三角地的不平等現(xiàn)象,d(x,z)d(x,y)+d(y,x)、可重寫為d(x,y)d(x、z)d(y,z)。不幸的是,有的打字錯誤,缺乏明確的提示。 提示應如下所示:提示:如果z是一種任意點的S,然后是三角的不平等現(xiàn)象,d(x,y)d(x,z)+d(y,z),可以寫成d(y、z)d(x,y)d(
30、x、z)。另一應用程序的三角不平等從d(x,z)d(x,y)+d(y,z)顯示,d(y,z)d(x、z)-d(x,y)。 如果下限,d(y,z)從這些不平等現(xiàn)象是大于,然后d(y、z)不需要計算。 另外,如果上面的綁定,d(y,z)獲得的不平等d(y,z)d(y,x)+d(x、z)的值小于或等于,則d(x、z)不需要計算??偟?如何將之間的距離x軸和y軸的數(shù)量產(chǎn)生影響的距離計算?如果x=y然后沒有任何計算都是必要的。 作為x變到更遠的地方,通常更多的遠距離的計算是有需要的。假設,你可以找到一小部分點S,從原始的數(shù)據(jù)集,每點的數(shù)據(jù)集指定距離內(nèi),至少有一點在S和,你也有成對的距離矩陣。 介紹了一種
31、使用此信息來計算最短的距離計算,設置的所有接入點的距離范圍內(nèi)的的指定點的數(shù)據(jù)集。讓x和y是兩個點并讓x和y的點在S中最接近的兩個點,分別。 如果我們可以有把握地斷定d(x,y)。 同樣的,如果我們可以有把握地斷定d(x,y)。 這些公式都是派生的,考慮的情況下x和y是遠的x和y作為遠或接近的。顯示1個減號Jaccard相似性是一種距離測量twodata之間的對象的x和y滿足指標定理給出第70頁上。 具體來說,d(x,y)=1-J(x,y)。第1條)。 因為J(x,y)1,d(x,y)0。1(b)。 因為J(x,x)=1,d(x,x)=02個。 因為J(x,y)=J(y,x),d(x,y)=d(
32、y,x)3。 (證明由于Jeffrey Ullman)minhash(x)是索引的第一非零項的xProb(minhash(x)=k)上的概率tha minhash(x)=k當x為隨機交換。請注意,prob(minhash(x)=minhash(y)=J(x,y)(minhash lemma)。因此,d(x,y)=1prob(minhash(x)=minhash(y)=prob(minhashminhash函數(shù)(y)我們要表明,Prob(minhash函數(shù)=minhash(z)prob(minhash函數(shù)=minhash(y)+prob(minhash函數(shù)=minhash(Z)但是請注意,每當m
33、inhash(x)=Minhash(z),那么至少一minhash(x)=Minhash(y和minhash函數(shù)=minhash(z)必須是真的。顯示距離測量定義的角度在兩個數(shù)據(jù)引導程序、x和y滿足指標定理給出第70頁上。 具體來說,d(x,y)=arccos(cos(x,y)。注意角度的范圍為0至180。第1條)。 由于0cos(x,y)1,d(x,y)0。1(b)。 因為cos(x,x)=1,d(x,x)=arccos(1)=0因為cos(x,y)=cos(y,x),d(x,y)=d(y,x)如果這三個矢量的飛機然后很明顯的是,角度之間的x和z的值必須小于或等于之間的角度x、y、y和z。
34、如果y是投影的y到定義的平面的X和Z,然后注意之間的角度x、y、y和z是更多比的x和y、y和z。解釋為什么計算接近兩個屬性通常simplerthan計算之間的相似性兩個對象??偟膶ο罂梢允怯涗浀淖侄?屬性)是不同的類型。 計算全部相似的,這兩個對象在這種情況下,我們需要決定如何計算相似性對于每個屬性,然后將這些類似之處。 這是可以做到很干脆的使用方程2.15或2.16,但仍是有點特設的,至少相比較接近的措施如歐幾里德距離或關(guān)聯(lián),這在數(shù)學上是有理的。 相比之下,中屬性的值都是相同的類型,因此,如果另一特性是同一類型,然后計算相似度的概念和計算非常簡單。 Chapter 3Exploring Da
35、ta3探索數(shù)據(jù)。獲得某個數(shù)據(jù)集在UCI機器學習的應用Repositoryand盡可能多的不同的可視化技術(shù)的章節(jié)中所述。 有的書目注釋和本書的Web站點提供了可視化的軟件。MATLAB和R具有卓越的設施來實現(xiàn)可視化。 大部分的數(shù)字在本章中的創(chuàng)建使用MATLAB。 R是可從/。至少確定兩個優(yōu)點和兩個缺點,使用顏色tovisually表示信息。優(yōu)點:顏色非常容易直觀區(qū)分可視元素。 例如,3組二維點更容易判別如果標記代表該點具有不同的顏色,而不是僅在不同的形狀。 另外,數(shù)字的顏色是更有趣的。缺點:有些人是色盲,可能無法正確地解釋了彩色圖。 灰度圖可以顯示更多的細節(jié)在某些情況下。 顏色可以是硬盤的正確使
36、用。 例如,一種顏色較差可那俗氣的或可以把注意力集中在不重要的元素。有什么安排的問題,產(chǎn)生的三個dimensionalplots嗎?它將會被更好地為國家的這一更為普遍,“有什么問題.”因為選擇、以及安排方面發(fā)揮了關(guān)鍵的問題是顯示三維圖。關(guān)鍵的問題三維繪圖是如何顯示的資料,以便盡可能少的信息變得模糊不清。 如果土地是一種二維的表面上,然后選擇新的觀點是至關(guān)重要的。 但是,如果圖形是以電子的形式,然后它有時可能是交互式地改變的觀點以獲得完整的表面上。 三維固體的情況就更加具有挑戰(zhàn)性的。 通常情況下,部分信息必須省略,以提供必要的信息。 例如,一層或跨部分的三維對象通常是如圖所示。 在某些情況下,透
37、明度也可以被使用。 再次,能力改變這項安排的可視元素的交互方式可以是有幫助的。討論的優(yōu)點和缺點,使用的采樣,減少thenumber的數(shù)據(jù)對象,需要將其顯示出來。 將簡單的隨機抽樣(無需更換)是個好辦法嗎?采樣 為什么可以或不可以嗎?簡單隨機抽樣并不是最好的辦法,因為它可以消除大部分的點在稀疏區(qū)域。 這是更好地在k-t因子區(qū)域數(shù)據(jù)對象太密集的同時保持大多數(shù)或所有數(shù)據(jù)對象的稀疏區(qū)域。說明您如何創(chuàng)建可視化效果的顯示信息thatdescribes以下類型的系統(tǒng)。一定要解決以下問題:代表性。您將如何將地圖對象、屬性和關(guān)系的可視化元素?安排的。是否有任何特別的考慮,需要考慮到如何的視覺元素的顯示嗎? 具體
38、的示例可能選擇的角度來看,使用透明度、或分隔的某些組的對象。選擇。你將會如何處理大量的屬性和數(shù)據(jù)對象?下面的解決方案供圖示。計算機網(wǎng)絡的網(wǎng)絡。 一定要包括兩個靜態(tài)方面close,諸如連接性、和動態(tài)的方面,如交通。網(wǎng)絡的連通性,最好是將表示為圖中的節(jié)點的路由器、網(wǎng)關(guān)或其他通信設備和鏈路的連接。 網(wǎng)絡連接的帶寬可以表示的寬度的鏈接。 顏色可以用來顯示使用率的鏈路和節(jié)點。分發(fā)特定的植物和動物物種的worldfor特定的時刻。最簡單的方法是將顯示每個物種在單獨的世界地圖和陰魂的世界各地區(qū)的物種出現(xiàn)。 如果有好幾個品種的一次顯示的圖標用于每個物種可以被放置在一張世界地圖。21使用計算機上的資源,例如處理
39、器時間、主內(nèi)存和磁盤的一組基準測試的數(shù)據(jù)庫程序。資源的使用情況,每個程序可顯示為一條圖的三個數(shù)量。 因為這三個的數(shù)量將會有不同的分攤比額表的適當比例的資源是必要的,這能起到很大的作用。 例如,資源的使用情況都可以顯示總數(shù)的比例。 或者,我們可以使用三個條形圖,一種類型的資源的使用情況。 在其中的每個塊有一欄的高度表示使用相應的程序。 這種方法不需要任何擴展。 另一選項將會顯示一條線圖的每個應用程序的資源使用情況。 對于每個程序,一條線將建成的(1)考慮到處理器時間、主內(nèi)存和磁盤作為不同的x位置(2)允許該比例的資源使用的特定方案的三個數(shù)量的y值與x的值,然后(3)繪制一條線來連接這三個點。 請
40、注意,訂購的三份量需要指定的,但是都是任意的。 對于這種方法,使用的資源,所有的方案都可以被顯示在相同的圖。改變職業(yè)的工人在特定國家/地區(qū)的逾thelast 30多年的歷史。 假設您有每年的信息每個人,也包括性別和教育水平。對于每個性別、職業(yè)細分可顯示為陣列中的餅圖,其中每一行的餅圖表示某一特定的教育水平和每個列指示特定的一年。 為方便起見,在時間上的差距每一列可以是5年或10年。或者,我們可以在職業(yè)和然后對每個性別、計算累積成就業(yè)的每一種職業(yè)。 如果此數(shù)量是繪制的每個性別,然后之間的兩個連續(xù)的行顯示了就業(yè)這種占領(lǐng)。 如果顏色是與每個占領(lǐng),然后之間的地區(qū),每個設置的行也可色的顏色與每個職業(yè)。
41、類似的方式來顯示相同的信息將是使用順序堆疊的條形圖。描述一種優(yōu)勢和缺點之一的干細胞和葉圖withrespect標準的直方圖。莖和葉圖顯示了你的實際值的分布。 在酬金方面的干細胞和葉的陰謀變得相當笨拙的很大數(shù)量的值。如何解決這一問題,一種直方圖取決于numberand位置的容器嗎?最好的辦法是什么的估計實際的分布函數(shù)的數(shù)據(jù)看起來就像使用內(nèi)核密度估計。 這一分支機構(gòu)的數(shù)據(jù)分析是比較發(fā)達的,更多的是合適的如果廣泛提供,但簡單的辦法,一直方圖是不足夠的。描述如何使用框圖可以給信息的值是否是anattribute對稱分布。 你能說什么關(guān)于的對稱性分布的屬性顯示在圖3.11的嗎?如果該行占入息中位數(shù)的數(shù)據(jù)
42、中間,thebox,然后數(shù)據(jù)是對稱分布,至少在75個以上的數(shù)據(jù)之間的第一和第三個四分位。 其余的數(shù)據(jù)長度、毛刺和異常數(shù)據(jù)也顯示,雖然,因為這些功能不需要更多的點,它們可能是誤導的。Sepal寬度和長度似乎較為對稱分布,花瓣長度似乎是歪斜的,花瓣寬度有點歪斜。比較sepal length、sepal width、花瓣長度和寬度的花瓣、usingFigure 3.12。對于Setosa、sepal lengthsepal width花瓣長度花瓣寬度。 對于鮮屑型、糜爛型足和Virginiica、sepal lengthsepal width和花瓣長度花瓣寬度,但sepal length花瓣長度、花
43、瓣長度sepal width。評論使用的框圖來探索數(shù)據(jù)集與四個屬性:年齡、體重、身高、和收入。大量的信息可通過查找(1)”框中每個plotsfor屬性、和(2)框圖的特定屬性的各種類別的第二個屬性。 例如,如果我們比較一下框圖的年齡的不同類別的年齡,我們就會看到,重量隨年齡增加而上升。給出一種可能的解釋,說明為什么大多數(shù)值的花瓣長度andwidth落在桶沿對角的圖3.9。我們希望這種分布的三個品種的綜合注冊資訊系統(tǒng)可以根據(jù)它們的大小,如果花瓣長度和寬度都是相關(guān)關(guān)系,廠的規(guī)模和每個其他。使用數(shù)字3.14和3.15到識別的特點,和petalwidth花瓣長度屬性。23有一種相對平坦的曲線上的經(jīng)驗性
44、的民防部隊和分位點別出心裁的兩片花瓣長度和寬度的花瓣。 這表示一組鮮花,這些屬性都有相對穩(wěn)定的值。簡單的線圖,如圖2.12的56頁的、兩個whichshows時間序列,可以用來有效地顯示高維數(shù)據(jù)。 例如,在圖56很容易判斷的頻率的兩個時間序列是不同的。 有什么特點的時間系列允許的有效可視化高維數(shù)據(jù)嗎?該屬性的值是有序的。描述的各種情況下產(chǎn)生稀疏或密集數(shù)據(jù)的多維數(shù)據(jù)集文件中說明的例子以外使用的通訊簿。任何的數(shù)據(jù)集的所有組合的價值是不大可能發(fā)生的將會產(chǎn)生稀疏的多維數(shù)據(jù)集。 這將包括集的連續(xù)屬性的一組對象的屬性并不占據(jù)整個數(shù)據(jù)空間,但只有其中的一小部分,以及離散的屬性,其中的許多組合值不發(fā)生。密集的
45、多維數(shù)據(jù)集將會出現(xiàn),當幾乎所有的測試項目組合”類別中的基本屬性會發(fā)生、或總的水平足夠高,以便所有的組合都可能有值的。 例如,考慮一種數(shù)據(jù)集包含類型的交通意外,以及它的位置和日期。 原始數(shù)據(jù)的多維數(shù)據(jù)集將會十分稀疏,但如果它是聚合的類別包括單一的或多個車禍,意外的發(fā)生,在這個月里發(fā)生,然后我們就會獲得一種密集的多維數(shù)據(jù)集。您如何延長的概念的多層面數(shù)據(jù)的分析,以便使該目標變量是一種定性的變量? 換句話說,什么類型的摘要統(tǒng)計信息或數(shù)據(jù)的可視化效果會有興趣嗎?摘要統(tǒng)計信息,將有利于將頻率值withwhich或組合的價值、目標和其他形式的出現(xiàn)。 從這我們可以從條件之間相互關(guān)系的不同的值。 反過來,這些關(guān)
46、系可以顯示使用的圖形相似,用于顯示貝葉斯算法的網(wǎng)絡。構(gòu)建多維數(shù)據(jù)集的表3.1。 這是密集或稀疏數(shù)據(jù)立方體”。如果它是稀疏的、確定的單元格均為空?!岸嗑S數(shù)據(jù)集的表3.2。 它是一種高密度的多維數(shù)據(jù)集;只有兩個單元格都是空的。表3.1。事實表的練習16。表3.2。多維數(shù)據(jù)集的練習16。產(chǎn)品標識號位置識別號。銷售數(shù)量11101362152222123總11006162522027總1522643ProductID位置識別號。17日。 討論之間的差別維度性減少基于聚合和維度性減少基于技術(shù)如PCA和SVD。的維度性PCA或SVD可以被視為一種投影的數(shù)據(jù)放到縮小的尺寸。 在聚合、團體的層面是結(jié)合在一起的。
47、 在某些情況下,如當天都匯聚到個月或六個月的銷售一種產(chǎn)品的匯總,存儲位置的聚合可以被視為一種改變分攤比額表。 相比之下,維度性減少提供的PCA和SVD沒有作出這種解釋。4分類:基本概念、決策樹、和型號。評價繪制完整的決策樹的奇偶校驗功能的四個布爾屬性,A、B、C和D。 它可以簡化的樹嗎?圖4.1。決策樹用于奇偶校驗功能的四個布爾型屬性。 前面的樹不能簡化的。考慮培訓的例子如表4.1所示的binary classificationproblem。表4.1。數(shù)據(jù)集的練習2。客戶標識性別車型襯衫尺寸類別1M家庭小C 02M體育中等C 03M體育中等C 04M體育大C 05M體育超大C 06M體育超大
48、C 07F體育小C 08F體育小C 09F體育中等C 010F豪華大C 011M家庭大C 112M家庭超大C 113M家庭中等C 114M豪華超大C 115F豪華小C 116F豪華小C 117F豪華中等C 118F豪華中等C 119F豪華中等C 120F豪華大C 1計算的基尼指數(shù)全面收集培訓的例子。答:基尼系數(shù)=1-2 0.52=0.5。計算的基尼指數(shù)為“客戶標識”屬性。答:堅尼對于每個客戶ID的值為0。 因此,總的來說基尼系數(shù)的客戶ID為0。計算的基尼指數(shù)的性別屬性。答:堅尼的男性為1-2 0.52=0.5。 堅尼女也0.5。 因此,總的來說基尼系數(shù)的性別0.5 0.5+0.5 0.5=0.
49、5。表4.2。數(shù)據(jù)集的練習3。實例123目標類1TT1.0+2TT6.0+34T FFF5.04.0-+5678FFFTTTF F7.03.08.07.0-+9FT5.0-計算的基尼指數(shù)車型屬性使用的多路分離。答:堅尼的家庭車0.375、體育汽車0、豪華車是0.2188。 總的基尼系數(shù)為0.1625。計算的基尼指數(shù)襯衫尺寸屬性使用的多路分離。答:堅尼的小襯衫的尺寸是0.48,中等尺寸的襯衫是0.4898、寬大的T恤尺寸是0.5,和超大的T恤尺寸是0.5。 總的堅尼的球衣大小屬性為0.4914。哪些屬性是更好的、性別、車型、或襯衫的尺寸?答:車型,因為它的基尼系數(shù)最低的三個屬性。解釋為什么客戶標
50、識不應被用作屬性測試條件即使它具有最低的基尼系數(shù)。答:該特性沒有預測能力,因為新客戶分配給新的客戶ID。考慮培訓的例子中所示的表4.2的binary classificationproblem。什么是熵的這一收集培訓的例子respectto積極的類?答:有四個正面的例子和五個負面的例子。 因此,第9。 熵的訓練實例29)=0.二一一二九九一一。什么是信息增益的1和2相對這些培訓的例子嗎?答:對于屬性1、相應的計數(shù)和概率是:1+-T31F14熵的1是”。因此,信息增益的1是0.二一一二九九一一-0.第12條健康權(quán)203-22153=022942557。對于屬性2、相應的計數(shù)和概率是:2+-T23
51、F22熵的2”。因此,信息增益的20。二一一二九九一一-0.9839=0.0072。3、這是一種連續(xù)的屬性、計算信息增益為每個可能的分拆。答:3類的標簽。拆分點熵。信息增益1.0+2.00.84840.14273.0-3.50.9885零點零零二六4.0+4.50.91830.07285.0-5.0-5.50.98390.00726.0+6.50.97280.01837.0+7.0-7.50.88890.1022最好的拆分為3個時拆分點等于2。什么是最好的拆分(a1、a2、a3)根據(jù)信息的獲得?答:根據(jù)信息的增益、1產(chǎn)生最佳的拆分。什么是最好的拆分之間(a1和a2)的分類錯誤率?答:對于屬性1
52、:錯誤率=2/9。 對于屬性2:錯誤率=4/9。因此,根據(jù)錯誤的發(fā)生率,1產(chǎn)生最佳的拆分。什么是最好的拆分之間(a1和a2)根據(jù)基尼指數(shù)?答:對于屬性1的基尼指數(shù)是”。對于屬性2、基尼指數(shù)是”。自在基尼指數(shù)為1是小,但它產(chǎn)生的更好地分割。4個。 顯示熵的節(jié)點永遠不會增加后拆分成更小的后繼路由器的節(jié)點。答:讓Y=y1,y2,yc表示c類和X=x1,x2,xk表示k的屬性值的屬性的X。 在節(jié)點上的拆分X,熵是:”(4.1)在那里我們用的是,從法的總的概率。拆分后的X、熵的每個子節(jié)點X=xi:)(4.2)其中P(yj|xi)是小部分的示例與X=xi,屬于類yj。 熵分割之后在X的加權(quán)平均信息量的子節(jié)
53、點:(4.3)我們在那里用已知的事實是從概率論,P(xi,yj)=)。 請注意,E(Y|X)也稱為有條件的熵。要回答這個問題,我們需要證明E(Y|X)E(Y)。 讓我們的計算之間的區(qū)別后entropies分割和分割之前,即E(Y|X)-E(Y)、使用方程4.1和4.3:(4.4)為證明這一等式4.4非積極的,我們可以使用以下屬性一種對數(shù)函數(shù):”(4.5)但條件是=1。 此屬性是一種特殊的情況下具有更普遍的定理涉及外接功能(其中包括對數(shù)函數(shù))稱為詹森的不平等。通過應用Jensen的不平等、等式4.4可以在限定范圍內(nèi),如下所示:因為E(Y|X)-E(Y)0,因此熵從來沒有增加分裂后的屬性。考慮以下
54、的一組數(shù)據(jù)的binary類的問題。AB類的標簽。TF+TT+TT+TTF T-+FFFTTFFFT F-計算信息增益當分裂的A和B。 該屬性將決策樹算法入門課程選擇的?答:應急表格拆分后的屬性上A和B是:A=TA=FB=TB=F+40+313315-總的熵分割之前是:Eorig=-0.4登錄0.40.6登錄0.6=0.9710信息獲得后分裂的是:信息增益分裂后的B是:因此,屬性將選擇要分割的節(jié)點。計算的基尼指數(shù)當分裂的A和B。 該屬性將決策樹算法入門課程選擇的?答:總體基尼系數(shù)的分割之前是:格里希=1-0.42-0.62=0.48增益在基尼系數(shù)的拆分后的是:增益在基尼系數(shù)的拆分后的B是:因此,
55、屬性B將選擇要拆分的節(jié)點。圖4.13顯示了熵的基尼指數(shù)都monotonouslyincreasing的范圍0,0.5和他們兩位都是單調(diào)減少的范圍0.5,1。 可能是信息的獲得和增益的基尼指數(shù)支持不同的屬性嗎? 解釋一下。答:是的,盡管這些措施具有相似的范圍和單調(diào)的行為、其各自的性別問題認識信息和聯(lián)網(wǎng)系統(tǒng)、,這是按比例縮小的差別的措施,不一定是相同的行為方式,如圖所示的結(jié)果在零件(a)和(b)。考慮以下的一組訓練的例子。XYZ編號類別C 1的示例。編號類別C 2示例。000540001015010105011450100105101250110520111015(一)計算兩級決策樹使用貪婪的方法
56、本章所述。 使用分類錯誤率為準則來拆分。 什么是總體錯誤率引起的樹嗎?答:屬性拆分為1級。要確定測試條件的根節(jié)點,我們需要計算的錯誤率特性的X、Y和Z。 對于屬性X、相應的計數(shù):XC 1C 20606014040因此,錯誤率使用屬性的X是(60+40)/200=0.5。對于屬性Y對應的計數(shù):YC 1C 20406016040因此,錯誤率使用特性的Y是(40+40)/200=0.4。對于屬性Z、相應的計數(shù):ZC 1C 20307017030因此,錯誤率使用特性的Y是(30+30)/200=0.3。自Z使最小的錯誤率,它的選擇被選擇為分割的屬性在1級。屬性拆分為2級。拆分后的屬性Z、隨后的測試條件
57、可能涉及屬性“X”或“Y”。 這在很大程度上取決于培訓的例子分布到Z=0及Z=1的子節(jié)點。對于Z=0,相應的計數(shù)屬性X和Y是相同的,如下表所示。XC 1C 2YC 1C 201545015451152511525錯誤的發(fā)生率在這兩個案件(X和Y)(15+15)/100=0.3。對于Z=1,相應的計數(shù)屬性X和Y都顯示在下面的表中。XC 1C 2YC 1C 204515025151251514515雖然數(shù)略有不同,他們的錯誤率仍然是相同的,(15+15)/100=0.3。對應的兩個一級的決策樹是如下圖所示。ZX或YC 2010011C 2C 1C 1X或Y總體錯誤率引起的樹(15第15天第15天第
58、15天)/200=0.3。(二)重復第(一)部分使用X作為第一次分裂的屬性然后選擇最佳的其余屬性的拆分每個后繼節(jié)點。 什么是錯誤的發(fā)生率,引起的樹嗎?答:在選擇屬性X的第一分割特性、隨后的測試條件可能涉及或特性的Y軸或Z軸的屬性。對于X=0,相應的計數(shù)特性Y和Z如下表所示。YC 1C 2ZC 1C 2055501545155514515錯誤率使用特性的Y軸和Z軸都是10/120、30/120、分別。 因為屬性Y會導致較小的錯誤率,它提供了一種更好的分離。對于X=1,相應的計數(shù)特性的Y軸和Z軸都顯示在下面的表中。YC 1C 2ZC 1C 2035501525153512515錯誤率使用特性的Y軸
59、和Z軸都是10/80、30/80、分別。 因為屬性Y會導致較小的錯誤率,它提供了一種更好的分離。對應的兩個一級的決策樹是如下圖所示。XC 2010011C 1C 1C 2YY總體錯誤率引起的樹是(10+10)/200=0.1。(c)對結(jié)果進行比較的部分(一)和(二)。 評論適用性貪婪的啟發(fā)式用于拆分屬性的選擇。答:從上述結(jié)果的錯誤率為零件(一)遠遠大于零件(b)。 此示例顯示了貪婪的啟發(fā)并不總是產(chǎn)生最佳的解決方案。第7。 下表概述了數(shù)據(jù)集的三個屬性的A、B、C和兩類標注的“+”、“-”。 構(gòu)建兩級的決策樹。ABC數(shù)量實例+-TTT50FTT020TFT200FFT05TTF00FTF250TF
60、F00FFF025(一)根據(jù)分類錯誤率,屬性將被選為第一次拆分的屬性嗎? 對于每個屬性,顯示應變表和性別問題認識信息和聯(lián)網(wǎng)系統(tǒng)的分類錯誤率。答:錯誤率的數(shù)據(jù)而不進行分區(qū)的任何屬性”。拆分后的屬性”中的增益錯誤率為:2500EA=T=1-最大值)”)=0=TA=F25 25252525050+E=F=1-最大值(25、50)=2575 7575-257525A=E電影原聲大碟-EA=T-E=F=100100拆分后的屬性B中的增益錯誤率為:3020203020502050EB=T=TB=F+EB=F=-505010B=E電影原聲大碟-EB=T-EB=F=100100拆分后的屬性C中的增益錯誤率為:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年洗車店租賃合同全新定制版3篇
- 二零二五版鋁合金門窗節(jié)能改造及運維服務合同4篇
- 二零二四年度住宅小區(qū)汽車停車位租賃及租戶管理協(xié)議書3篇
- 個人借款合同樣本2024版版B版
- 科技助力學生創(chuàng)新能力飛躍的路徑研究
- 2025年新能源成品油運輸服務合同模板4篇
- 二零二五年高科技大棚項目投資合作協(xié)議3篇
- 2024版全新零花錢合同下載
- 二零二五年度大棚農(nóng)業(yè)病蟲害防治合作協(xié)議4篇
- 二零二五年度航空運輸企業(yè)員工勞動合同規(guī)范3篇
- 2024年高考八省聯(lián)考地理適應性試卷附答案解析
- 足浴技師與店內(nèi)禁止黃賭毒協(xié)議書范文
- 中國高血壓防治指南(2024年修訂版)要點解讀
- 2024-2030年中國光電干擾一體設備行業(yè)發(fā)展現(xiàn)狀與前景預測分析研究報告
- 湖南省岳陽市岳陽樓區(qū)2023-2024學年七年級下學期期末數(shù)學試題(解析版)
- 農(nóng)村自建房安全合同協(xié)議書
- 杜仲葉藥理作用及臨床應用研究進展
- 4S店售后服務6S管理新規(guī)制度
- 高性能建筑鋼材的研發(fā)與應用
- 無線廣播行業(yè)現(xiàn)狀分析
- 漢語言溝通發(fā)展量表(長表)-詞匯及手勢(8-16月齡)
評論
0/150
提交評論