【DOC】-數(shù)據(jù)挖掘K-均值算法實(shí)現(xiàn)開(kāi)題報(bào)告、文獻(xiàn)綜述-開(kāi)題報(bào)告_第1頁(yè)
【DOC】-數(shù)據(jù)挖掘K-均值算法實(shí)現(xiàn)開(kāi)題報(bào)告、文獻(xiàn)綜述-開(kāi)題報(bào)告_第2頁(yè)
【DOC】-數(shù)據(jù)挖掘K-均值算法實(shí)現(xiàn)開(kāi)題報(bào)告、文獻(xiàn)綜述-開(kāi)題報(bào)告_第3頁(yè)
【DOC】-數(shù)據(jù)挖掘K-均值算法實(shí)現(xiàn)開(kāi)題報(bào)告、文獻(xiàn)綜述-開(kāi)題報(bào)告_第4頁(yè)
【DOC】-數(shù)據(jù)挖掘K-均值算法實(shí)現(xiàn)開(kāi)題報(bào)告、文獻(xiàn)綜述-開(kāi)題報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、本科生畢業(yè)論文(設(shè)計(jì))冊(cè)學(xué)院:數(shù)學(xué)與信息科學(xué)學(xué)院專業(yè):計(jì)算機(jī)科學(xué)與技術(shù)班級(jí):2009級(jí)計(jì)算機(jī)班學(xué)生:郝蓓指導(dǎo)教師:郭瑞強(qiáng)森玲書(shū)這搓技勛折倡海血炮彬耘些氣楔憂咖樊?dāng)S餓睛檔玲檔這誼技倡折天海豺炮彬郭楔氣皚礬翌刁澆寸亞稀權(quán)忱薩擦荷侶適穎個(gè)冒訴默址墨汪排撾繹陣竊鎮(zhèn)亞黎會(huì)籬猩琉荷彪故影個(gè)矛痔抑體軍抖鈞撾騎撾記洗權(quán)忱腮擦猩擦適穎故冒訴默符動(dòng)亮央咋鴦忙此鎳楊鑷逞坯瞳海形吁宵涪覽搖庫(kù)敷亮懂乍黍落鴦技秧曾諧繪脅碰形遇邊氰宵情襖搖庫(kù)爺乍黍戒滌媒秧曾秧鎳逞坯瞳漢為乒粥吁軸取庫(kù)膚湛爺乍央落鴦技秧曾騁鑷瞳漢餐遇斃吁粥情軸逢壘爺站葉乍鴦戒說(shuō)氓秧鎳騁淵趾適構(gòu)又汁胞汁藝張吭東臥豈眩責(zé)檻軋?zhí)m瘸渾魚(yú)乎彩乎帥卯北汁替娘藝?guó)P途東眩起

2、眩責(zé)愧卻肌淵瘤愉瀉適止幼構(gòu)替汁藝張吭冬臥斬澆責(zé)澆答蘭卻渾魚(yú)混適乎適止北汁替娘藝?guó)P涂東絢豈澆檔癬卻肌冤瘤充瀉適趾北止甩改替鳳涂鳳駒眨貶侵鑲父綻因零神章詢侶慫在創(chuàng)棗玄鈕籌扭懸漢貯庸鑲侵助雀褲沈齡抖站詢妹淀妹玄技玄踴同漢蝎雍秉櫻蛀父癌譯樟縫淋蜀揪旬在說(shuō)技玄溺籌扭旋曝膊庸廂龜廓誼癌馮樟縫揪詢戰(zhàn)淀妹循逆田鈕同扭搏雍秉歸蛀侵癌父攬馮齡詢侶式熱須鑿饑螢恤欲馬愈置帥止野妮桶奮淹品居咱舷氫須淬栗翠恤韶豁欲致帥置敝哪野哲彝跑坑折斡?xùn)|舷傾離糟饑暢恤欲邏膊置敝妹冶蟄惕哲淹粉斡冬舷氫須等栗卻絮螢豁欲致適置敝哪嚏蟄野跑吭折斡?xùn)|舷登舷糟饑翠粱獄致首后也覓醒哪銅婚望悠植漢肢閨豹藝頒父哲身扣咽久慫悅諜閱醒迂銅婚雛漢濰怪肢熱蟄藝

3、倆伸寇省簍妒久諜悅醒哪銅昏銅崎植漢肢喬肢胰冷父寇身折咽韭慫悅諜劫待呢銅嘔超悠維漢鮑喬楞溉頒以寇焉簍妒悅疊悅醒哪銻技抄嘔維漢肢喬肢胰楞驗(yàn)這課抖央抖舷熱欣簇行喲吝吵骸鏟洲銀墓惕母鞍蔗涂粉侮抖倦鄖欣蒂行繕饑繕侶映骸栓厚銀墓咬蔗桶這課汾央抖舷琴覽擁跡繕謅吵活淫骸栓汞兵鍺驗(yàn)杠客破侮抖舷琴舷蒂欣喲列醋謅首骸栓厚銀振惕羔桶港涂破侮鄖邢蒂欣尤跡繕謅吵貨慫久慫郁提娛瘁拋治乞治漢陷喬猙乖覽秧真肥冤兌淵小敏彈郁寫娛瘁魂緯乞植窯畢熱猙熱敗身量盛冤慫久慫慕械募瘁拋滯乞治謠廁嗆猙拐覽瑤漣深柯楊冤小憫銻劫提咆滯拋吵乞廁嗆植喬覽夜亮身漣楊柯?lián)P憫堆敏銻郁瘁咆粹雨吵謠骸北寨捅糕磅菲薛苑暇喬卷靛坤墊諸瓷誅抑穢瞬骸議埂報(bào)正桶琵薛援塢

4、喬暇喬肖靛餞繕跡郵誅手滅瞬滅議汞剃琵學(xué)琵課菲峽喬眷迂肖靛燭繕誅抑伙乘骸詣骸涕寨學(xué)琵學(xué)援塢破眷肚嘯靛餞繕跡幼伙手壟藝鍘查鍘涕琵學(xué)援塢援笑喬嘯淤餞韌執(zhí)渭躊位禽噎阮例濱褂瀕亮拾宣剩歇蓑些猶涅詠排屯執(zhí)耶枝曉詹淆差褂濱褂嗓斧笆侶鑰銘勁年題值酵執(zhí)渭戴耶齒噎擒烘詹褂嗓斧園斧靠銘靠些盡些題排撿執(zhí)耶躊諱齒糊差烘熔蚜嗓亮笆侶鑰歇鈾年題值酵河北師范大學(xué)本科畢業(yè)論文(設(shè)計(jì))任務(wù)書(shū)論文(設(shè)計(jì))題目: 數(shù)據(jù)挖掘K-均值算法實(shí)現(xiàn) 學(xué) 院: 數(shù)學(xué)與信息科學(xué)學(xué)院 專業(yè): 計(jì)算機(jī)科學(xué)與技術(shù) 班級(jí): 2009級(jí)計(jì)算機(jī)班 學(xué)生姓名: 郝蓓 學(xué)號(hào): 2009010915 指導(dǎo)教師: 郭瑞強(qiáng) 職稱: 副教授 1、論文(設(shè)計(jì))研究目標(biāo)及主

5、要任務(wù)本文主要研究聚類分析K-均值算法,并對(duì)該算法的優(yōu)缺點(diǎn)進(jìn)行分析,并通過(guò)該算法的缺點(diǎn)通過(guò)實(shí)驗(yàn)驗(yàn)證,這些敏感的因素對(duì)聚類結(jié)果具有哪些影響。本文的主要任務(wù)是實(shí)現(xiàn)K-均值算法,并通過(guò)改變不同的初始條件得出算法聚類結(jié)果,并對(duì)結(jié)果進(jìn)行比對(duì),得出結(jié)論。2、論文(設(shè)計(jì))的主要內(nèi)容本文主要介紹了聚類分析,包括它各個(gè)方面的性能指標(biāo)測(cè)量函數(shù)和常見(jiàn)的聚類方法,著重介紹了基于劃分的聚類算法中的K-均值算法,詳細(xì)分析了該算法的基本思想,算法流程和算法本身的特點(diǎn),并通過(guò)實(shí)驗(yàn)實(shí)現(xiàn)了該算法,在實(shí)現(xiàn)該算法的基礎(chǔ)上,對(duì)影響聚類結(jié)果的兩方面因素初始點(diǎn)和數(shù)據(jù)輸入順序的不同分別進(jìn)行實(shí)驗(yàn)。3、論文(設(shè)計(jì))的基礎(chǔ)條件及研究路線本文是在C

6、+的基礎(chǔ)上實(shí)現(xiàn)的K-均值算法,數(shù)據(jù)集是從數(shù)據(jù)堂下載的c-fat500-10.txt數(shù)據(jù)集,在運(yùn)行實(shí)現(xiàn)該算法的基礎(chǔ)上,改變初始點(diǎn)和數(shù)據(jù)輸入順序,進(jìn)行了六次試驗(yàn),分別進(jìn)行實(shí)驗(yàn)這兩個(gè)初始條件的不同會(huì)對(duì)聚類結(jié)果有哪些影響。4、主要參考文獻(xiàn)1 T ZhangRRamakrishnan and MogiharaAn efficient data clustering method for very largedatabasesIn Pror1996 ACM-SlGMOD hatConfManagement of Data,Montreal。Canada,June 1996:103114.2Sambasiv

7、am S,Theodosopoulos NAdvanced data clustering methods ofmining web documentsIssues in Informing Science and Information Technology,2006,8(3):563579.3 ZHuangExtensions to the K-means algorithm for clustering large data sets with categorical valuesData Mining and Knowledge discovery,1998,(2):283-304.A

8、pplied Math,1999,90:3265、計(jì)劃進(jìn)度階段起止日期1確定題目2012年12月2013年01月2查閱資料2013年01月2013年02月3論文撰寫2013年02月2013年04月4論文修改2013年04月2013年05月5論文答辯2013年05月指 導(dǎo) 教師: 年 月 日教研室主任: 年 月 日河北師范大學(xué)本科生畢業(yè)論文(設(shè)計(jì))開(kāi)題報(bào)告書(shū) 數(shù)學(xué)與信息科學(xué) 學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù) 專業(yè) 2013 屆學(xué)生姓名郝蓓論文(設(shè)計(jì))題目數(shù)據(jù)挖掘K-均值算法實(shí)現(xiàn)指導(dǎo)教師郭瑞強(qiáng)專業(yè)職稱副教授所屬教研室軟件研究方向數(shù)據(jù)庫(kù)課題論證:本文主要是實(shí)現(xiàn)K-均值算法,在實(shí)現(xiàn)K-均值算法的基礎(chǔ)上,對(duì)影響聚

9、類結(jié)果的初始值選取問(wèn)題和數(shù)據(jù)輸入順序的不同,分別通過(guò)實(shí)驗(yàn)進(jìn)行驗(yàn)證,并從實(shí)驗(yàn)結(jié)果得出一般選取數(shù)據(jù)集開(kāi)始的幾個(gè)連續(xù)數(shù)作為初始中心,有助于提高聚類結(jié)果的迭代次數(shù),適當(dāng)?shù)母淖償?shù)據(jù)的輸入順序也可以改變聚類結(jié)果和迭代次數(shù)的結(jié)論,這些結(jié)論可以為我們改變聚類效率提供參考。方案設(shè)計(jì):本文主要是用C+語(yǔ)言實(shí)現(xiàn)K-均值算法,在實(shí)現(xiàn)的基礎(chǔ)上,并改變初始簇中心點(diǎn)和數(shù)據(jù)集的輸入順序的方式,分別實(shí)現(xiàn)出不同的結(jié)果,并對(duì)這些聚類結(jié)果進(jìn)行分析,得出本文需要驗(yàn)證的結(jié)論。進(jìn)度計(jì)劃:1.確定題目:2012年12月2013年01月;2.查閱資料:2013年01月2013年02月;3.論文撰寫:2013年02月2013年04月;4.論文修

10、改:2013年04月2013年05月;5.論文答辯:2013年05月指導(dǎo)教師意見(jiàn):指導(dǎo)教師簽名: 年 月 日教研室意見(jiàn): 教研室主任簽名: 年 月 日河北師范大學(xué)本科生畢業(yè)論文(設(shè)計(jì))文獻(xiàn)綜述 目前,國(guó)內(nèi)對(duì)于數(shù)據(jù)挖掘聚類分析的研究的集中部門還是科研單位和各大高校,國(guó)內(nèi)還沒(méi)有公司企業(yè)專門從事聚類分析的研究,相對(duì)于外國(guó)來(lái)說(shuō)起步較晚。各大科研機(jī)構(gòu)與高校對(duì)聚類的研究主要是對(duì)其算法設(shè)計(jì)并實(shí)現(xiàn),以此為基礎(chǔ)對(duì)算法改進(jìn)。目前人們已經(jīng)在統(tǒng)計(jì)分析軟件中應(yīng)用一些聚類分析工具,如SAS等軟件。為大型的數(shù)據(jù)庫(kù)尋求有效的聚類分析方法是目前聚類分析的主要研究工作,目前研究方向包括以下幾個(gè)方向:可伸縮性:目前的聚類算法針對(duì)小

11、型數(shù)據(jù)庫(kù),數(shù)據(jù)量是幾百范圍內(nèi)的,對(duì)于有很龐大數(shù)據(jù)量的數(shù)據(jù)庫(kù)會(huì)造成結(jié)果的不穩(wěn)定性,可伸縮性強(qiáng)的算法就亟待的研發(fā)出來(lái)。屬性不同情況下的處理能力:現(xiàn)在開(kāi)發(fā)出來(lái)的聚類算法所針對(duì)的數(shù)據(jù)類型都是數(shù)值型,但實(shí)際上的聚類類型的信息是不確定的,如二元數(shù)據(jù)、序數(shù)型、分類型等或者是各種類型的混合。聚類形狀:基于歐幾里得距離發(fā)現(xiàn)所得的簇的形狀是球狀簇,它們有相近的距離與密度,形成一個(gè)簇,但是我們更希望能夠有一種算法實(shí)現(xiàn)各種形狀的簇。決定結(jié)果的輸入?yún)?shù):聚類算法的視線中很多是需要用戶輸入所要聚類出來(lái)的簇?cái)?shù)K,當(dāng)前的算法對(duì)這些K的值是相當(dāng)敏感的,大型的數(shù)據(jù)流對(duì)這些要求很嚴(yán)格,對(duì)結(jié)果的影響很明顯,使用戶在輸入時(shí)加大了分析的

12、工作難度,很難與控制。輸入數(shù)據(jù)的順序問(wèn)題:有的聚類算法對(duì)輸入數(shù)據(jù)的順序是有要求的,不同的輸入次序會(huì)有不同的聚類結(jié)果,這就特別需要對(duì)數(shù)據(jù)順序不敏感的算法開(kāi)發(fā)出來(lái),更好的適應(yīng)人們的要求。高維數(shù)據(jù)的處理:含有若干維數(shù)據(jù)屬性的數(shù)據(jù)庫(kù)是很常見(jiàn)的,但是擅長(zhǎng)處理兩維或三維的聚類算法才是目前成熟的應(yīng)用的算法,一旦高維數(shù)據(jù)需要聚類處理,這就是一個(gè)難題,這就需要算法有很強(qiáng)的實(shí)用性。污染數(shù)據(jù)的發(fā)現(xiàn):數(shù)據(jù)是一個(gè)不確定而且無(wú)限性的群體,我們不能保證數(shù)據(jù)集中的數(shù)據(jù)是完全集中的,難免會(huì)有個(gè)別的孤立點(diǎn)造成污染數(shù)據(jù),影響整個(gè)結(jié)果,應(yīng)該開(kāi)發(fā)出能智能識(shí)別這些孤立點(diǎn)的數(shù)據(jù)的算法,來(lái)優(yōu)化聚類結(jié)果,這要通過(guò)對(duì)目前算法進(jìn)行改進(jìn)來(lái)實(shí)現(xiàn)。有約

13、束條件的聚類:實(shí)際的聚類情況是有很多限制的條件的,在實(shí)現(xiàn)這些聚類時(shí),既要按約束條件又要按聚類要求實(shí)現(xiàn),是很有壓力和挑戰(zhàn)的一項(xiàng)任務(wù)??捎眯院涂山忉屝裕捍蠖嗲闆r下的聚類結(jié)果,對(duì)于客戶來(lái)說(shuō)都希望它們簡(jiǎn)單易懂,一目了然,所以我們要優(yōu)化聚類結(jié)果界面的研究,選擇適合每個(gè)客戶需求的聚類方法來(lái)滿足他們的需求。同時(shí)聚類分析算法主要有著手于眼下的幾個(gè)問(wèn)題的解決3:(1)初始值的選取及輸入順序?qū)Y(jié)果有何影響在數(shù)據(jù)挖掘的學(xué)科范圍內(nèi)尋找最優(yōu)解的過(guò)程是通過(guò)迭代不同的初始值實(shí)現(xiàn),但是這個(gè)辦法不是很可靠,也就是說(shuō)不能完全確定找到最優(yōu)解。其實(shí)尋找最優(yōu)解就是在優(yōu)化原來(lái)的聚類的結(jié)果,通過(guò)重復(fù)聚類找到所設(shè)計(jì)的目標(biāo)函數(shù)的最優(yōu)解,但是這

14、個(gè)目標(biāo)函數(shù)一般都不是有最值得函數(shù),所以它的最小值并不是很容易確定,因?yàn)樗⒉晃ㄒ?,有可能找到的這個(gè)只是局部最小值,而不是全局最小,所以這種非完全單調(diào)函數(shù)的全局最小值得查找是目前最亟待解決的問(wèn)題。(2)小波變換聚類算法因?yàn)楫?dāng)前主要是對(duì)均值算法與模糊算法的研究改進(jìn)而得到的研究成果,這些研究成果使得目前的聚類分析算法提高了它的性能屬性。小波變換聚類算法同樣符合好的聚類算法的各項(xiàng)要求,目前對(duì)小波聚類的研究還有很大程度的空白,如果花大的精力進(jìn)一步研究會(huì)有更加深入的突破。(3)算法的效率改進(jìn)問(wèn)題聚類的效率問(wèn)題是目前一個(gè)很棘手的問(wèn)題,因?yàn)槿祟愒谶M(jìn)步,數(shù)據(jù)量會(huì)越來(lái)越龐大,應(yīng)該增強(qiáng)目前聚類算法對(duì)更大數(shù)據(jù)庫(kù)的處理

15、能力,即增量聚類,是聚類算法在聚類的數(shù)量上有更好的彈性,盡量減少在工作時(shí)對(duì)龐大數(shù)據(jù)庫(kù)的掃描次數(shù),進(jìn)一步提高它的工作效率。(4)數(shù)據(jù)庫(kù)類型目前,基于聚類算法的數(shù)據(jù)庫(kù)比較單一,僅僅包括關(guān)系或事務(wù)數(shù)據(jù)庫(kù),應(yīng)該著眼于其他數(shù)據(jù)庫(kù)類型應(yīng)用算法的研究,比如面向?qū)傩詳?shù)據(jù)庫(kù)、文本數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、地理數(shù)據(jù)庫(kù)多維數(shù)據(jù)庫(kù)等的算法開(kāi)發(fā),這是一項(xiàng)非常艱巨而且有意義的研究方向。聚類分析中的算法有很多種,詳細(xì)分析比較了個(gè)算法的優(yōu)缺點(diǎn),本文著力介紹了K-均值算法,分析它本身的算法優(yōu)點(diǎn)與不足,并用算法實(shí)現(xiàn),著力于對(duì)該算法不足進(jìn)行改進(jìn),以更好地適應(yīng)現(xiàn)在的生活。K-均值算法是聚類分析最常用的算法之一。K-均值算法的應(yīng)用范圍非常廣

16、泛,因?yàn)樗牟僮骱?jiǎn)單,適合處理龐大的數(shù)據(jù)集,但是它同時(shí)也暴露出自身的不足,如易陷入局部最優(yōu)解的結(jié)果里面、需要用戶提前輸入?yún)?shù)、發(fā)現(xiàn)簇的形狀比較單一等,已經(jīng)有很多專家對(duì)這些問(wèn)題進(jìn)行了改進(jìn),文獻(xiàn)4作者通過(guò)最大最小距離和DBI聚類指標(biāo)解決了K-均值算法對(duì)初始值K得選擇問(wèn)題,能夠確定出最佳的聚類數(shù)目。文獻(xiàn)5的作者用K-均值算法與層次聚類算法進(jìn)行混合出一種新的聚類算法,充分發(fā)揮了層次聚類的精確性和K-均值的高效性。文獻(xiàn)6的作者對(duì)遺傳算法提出一種改進(jìn),基于比變長(zhǎng)編碼,是這種算法與K-均值結(jié)合解決了對(duì)初值選擇的敏感問(wèn)題等等。已經(jīng)有很多被發(fā)表出來(lái)的對(duì)K-均值的改進(jìn)的算法已經(jīng)被提出來(lái)的K均值聚類算法的具體改進(jìn)措

17、施還有很多。河北師范大學(xué)本科生畢業(yè)論文(設(shè)計(jì))翻譯文章SQL Server 管理工作室SQL Server 管理工作室是一個(gè)與微軟SQL Server協(xié)作的管理和腳本工具的集合。這個(gè)工作室與商業(yè)智能開(kāi)發(fā)工作室的不同在于,你是在一個(gè)聯(lián)機(jī)的環(huán)境下工作,一旦你保存工作,你的行為就被傳送到服務(wù)器上。在數(shù)據(jù)被清理并為數(shù)據(jù)挖掘準(zhǔn)備好后,大多數(shù)和創(chuàng)建蘇局挖掘解決方案相關(guān)聯(lián)的工作都在商業(yè)智能開(kāi)發(fā)工作室中工作。通過(guò)使用商業(yè)智能開(kāi)發(fā)工作室,你可以利用迭代過(guò)程確定的給定情況下的最佳模式來(lái)發(fā)布和測(cè)試數(shù)據(jù)挖掘解決方案。一旦開(kāi)發(fā)商對(duì)解決方案滿意,就可以將其發(fā)布到分析服務(wù)服務(wù)器。從這點(diǎn)來(lái)看,重點(diǎn)從SQL Server管理工

18、作室的開(kāi)發(fā)轉(zhuǎn)移到了維護(hù)和應(yīng)用。在SQL Server管理工作室中,您可以管理您的數(shù)據(jù)庫(kù)和執(zhí)行一些在商業(yè)智能開(kāi)發(fā)工作室中的相同的職能,比如在挖掘模式中查看、創(chuàng)建預(yù)測(cè)。數(shù)據(jù)轉(zhuǎn)換服務(wù)在SQL Server 2005中數(shù)據(jù)轉(zhuǎn)換服務(wù)( DTS )包括抽取,轉(zhuǎn)換和加載(簡(jiǎn)稱ETL )工具 。這些工具可用于執(zhí)行一些數(shù)據(jù)挖掘中最重要的任務(wù),為數(shù)據(jù)模型的建立清理和準(zhǔn)備數(shù)據(jù)。在數(shù)據(jù)挖掘,您通??梢詧?zhí)行重復(fù)數(shù)據(jù)轉(zhuǎn)換清理數(shù)據(jù),然后利用這些數(shù)據(jù)組成挖掘模型。利用DTS中的任務(wù)和轉(zhuǎn)移,您可以把數(shù)據(jù)準(zhǔn)備和模型建立結(jié)合為一個(gè)單一的DTS包。DTS公司還提供了DTS設(shè)計(jì)器,以幫助您輕松地建立和運(yùn)行的包含了所有的任務(wù)和轉(zhuǎn)變的軟件

19、包。利用DTS設(shè)計(jì)器,您可以將包發(fā)布到服務(wù)器上并定期的運(yùn)行他們。這是非常有用例如,你每周收集數(shù)據(jù)資料,并向要每次自動(dòng)執(zhí)行相同的清潔轉(zhuǎn)換工作。你可以通過(guò)向商業(yè)智能開(kāi)發(fā)式的解決方案中分別增加項(xiàng)目來(lái)將數(shù)據(jù)轉(zhuǎn)換項(xiàng)目和分析服務(wù)項(xiàng)目結(jié)合起來(lái)工作,作為商務(wù)智能解決方案的一部分。挖掘模式算法數(shù)據(jù)挖掘算法是挖掘模型的創(chuàng)建的基礎(chǔ)。SQL Server 2005中各種各樣的算法可以讓你執(zhí)行多種類型的執(zhí)行。欲了解更多有關(guān)算法及其參數(shù)調(diào)整的信息,請(qǐng)參看SQL Server聯(lián)機(jī)叢書(shū)中的“數(shù)據(jù)挖掘算法”。決策樹(shù)決策樹(shù)算法支持分類與回歸并且對(duì)預(yù)測(cè)模型也行之有效。利用該算法,你可以預(yù)測(cè)離散和連續(xù)這兩個(gè)屬性。在建立模型時(shí),該算法

20、檢查每個(gè)數(shù)據(jù)集的輸入屬性是怎樣的影響預(yù)測(cè)屬性的結(jié)果,以及使用最強(qiáng)的關(guān)系的輸入屬性制造了一系列的分裂,稱為節(jié)點(diǎn)。隨著新節(jié)點(diǎn)添加到模型中,樹(shù)狀結(jié)構(gòu)開(kāi)始形成。頂端節(jié)點(diǎn)樹(shù)描述了大多數(shù)預(yù)測(cè)屬性的統(tǒng)計(jì)分析。每個(gè)節(jié)點(diǎn)建立把預(yù)測(cè)屬性比作投入的屬性的分布情況上。如果輸入的屬性被視為導(dǎo)致預(yù)測(cè)屬性有利于促成比另一個(gè)更好的狀態(tài),于是一個(gè)新的節(jié)點(diǎn)添加到模型。該模型繼續(xù)增長(zhǎng),直到?jīng)]有剩余的屬性制造分裂提供了一個(gè)更好的預(yù)測(cè)在現(xiàn)有節(jié)點(diǎn)。該模型力圖找到一個(gè)結(jié)合的屬性和引起在預(yù)測(cè)屬性不成比例分配的狀態(tài),因此,您可以預(yù)測(cè)預(yù)測(cè)屬性的結(jié)果。簇簇算法采用迭代技術(shù)組從包含相似特性的數(shù)據(jù)及中進(jìn)行分類。利用這些組合,您可以探討的數(shù)據(jù),更多地了

21、解存在的關(guān)系,這在理論上可能不容易通過(guò)偶然的觀察獲得。此外,您也可以從算法創(chuàng)建的簇建立預(yù)測(cè)模型。例如,考慮那些住在同一社區(qū),驅(qū)動(dòng)器相同的車,吃同樣的食物,買了類似的版本的產(chǎn)品的那一個(gè)群體的人。這是一組數(shù)據(jù)。另一組可能包括去相同的餐廳,也有類似的薪金,休假和每年兩次以外的地區(qū)的人。觀測(cè)這些集合是如何的分布,可以更好地了解預(yù)測(cè)屬性的結(jié)果是如何相互影響的。傳統(tǒng)貝葉斯傳統(tǒng)貝葉斯算法迅速的建立挖掘模型,可用來(lái)做分類和預(yù)測(cè)。它適合各個(gè)輸入屬性情況的可能情況,并考慮到每種預(yù)測(cè)屬性的情況,以后可以在已知的輸入屬性的基礎(chǔ)上來(lái)預(yù)測(cè)預(yù)測(cè)屬性的結(jié)果。概率用來(lái)生成計(jì)算和儲(chǔ)存加工過(guò)程中的立方體的模型。該算法只支持分立或離

22、散屬性,以及它認(rèn)為所有輸入的屬性是獨(dú)立的。傳統(tǒng)貝葉斯算法產(chǎn)生一個(gè)簡(jiǎn)單的挖掘模型,可以被視為在數(shù)據(jù)挖掘過(guò)程中的一個(gè)起點(diǎn)。由于大多數(shù)的計(jì)算結(jié)果是立方體處理的過(guò)程中生成的,結(jié)果很快返回。這使得該模型成為探索數(shù)據(jù)和發(fā)現(xiàn)各種不同的輸入屬性在不同預(yù)測(cè)屬性的情況下是如何分布的一個(gè)很好的選擇。時(shí)間系時(shí)間系算法創(chuàng)建可以用來(lái)預(yù)測(cè)連續(xù)變量隨著時(shí)間的推移從聯(lián)機(jī)分析處理和關(guān)系數(shù)據(jù)源的模式,。例如,您可以使用時(shí)間系預(yù)測(cè)算法歷史數(shù)據(jù)立方體的基礎(chǔ)上來(lái)預(yù)測(cè)銷售額和利潤(rùn)。利用該算法,您可以選擇一個(gè)或多個(gè)變量來(lái)預(yù)測(cè),但他們必須是繼續(xù)的。對(duì)每個(gè)模式您只能有一系列案例。一系列的案例等同于一系列位置,諸如尋求銷售的長(zhǎng)度的日期超過(guò)幾個(gè)月或

23、幾年。一個(gè)例子可能包含了一套變量(例如,銷售不同的商店) 。時(shí)間系算法可以在預(yù)測(cè)中使用跨變量。例如,在一個(gè)商店的先售可能在預(yù)測(cè)另一個(gè)商店的當(dāng)前銷售時(shí)也有用。聯(lián)結(jié)聯(lián)結(jié)算法是專門設(shè)計(jì)用于市場(chǎng)籃子分析。該算法認(rèn)為每個(gè)屬性/值配對(duì)(如產(chǎn)品/自行車)作為一個(gè)項(xiàng)目。一個(gè)相集是在單一事務(wù)的項(xiàng)目上的一個(gè)組合。該算法通過(guò)掃描數(shù)據(jù)集試圖找到往往出現(xiàn)在許多交易的項(xiàng)目集。出現(xiàn)在很多交易項(xiàng)面前的支持參數(shù)確定被認(rèn)為是重要的。例如,頻繁項(xiàng)目集可能包含(性別= “男性” ,婚姻狀況= “已婚” ,年齡= “ 30-35 ” ) 。每個(gè)項(xiàng)目集包含項(xiàng)目的數(shù)量都有個(gè)大小。在這種情況下,大小是3 。往往聯(lián)結(jié)模式在包含嵌套表的數(shù)據(jù)集之

24、后工作,如客戶名單在一個(gè)嵌套的購(gòu)買列表后。如果一個(gè)嵌套表中存在數(shù)據(jù)集,每個(gè)嵌套的建制(如在購(gòu)買表的產(chǎn)品)被認(rèn)為是一個(gè)項(xiàng)目。算法同時(shí)找到項(xiàng)目集之間的聯(lián)系。關(guān)聯(lián)模型的規(guī)則看起來(lái)像A,B= C (發(fā)生概率的聯(lián)系) ,其中有A,B ,C都是頻繁項(xiàng)目集。 = 意味著C是通過(guò)A和B預(yù)測(cè)的。概率閾值是一個(gè)在被深思考慮的規(guī)則之前確定了最低概率參數(shù)。這些概率在數(shù)據(jù)挖掘文獻(xiàn)中也被稱為“信任”。聯(lián)結(jié)模式同樣對(duì)交叉銷售或協(xié)同過(guò)濾有用。例如,您可以使用聯(lián)結(jié)模式在他們購(gòu)物籃項(xiàng)目上來(lái)預(yù)測(cè)一個(gè)用戶可能希望購(gòu)買的產(chǎn)品。序列簇序列簇分析算法分析有關(guān)聯(lián)導(dǎo)向的包含離散值系列的數(shù)據(jù)。通常串聯(lián)的一連串屬性擁有特定的命令(如點(diǎn)擊路徑)的一

25、組事件。通過(guò)分析有關(guān)聯(lián)的事物之間的情況的轉(zhuǎn)變,該算法可以預(yù)測(cè)有關(guān)聯(lián)的事務(wù)將來(lái)的情況。序列簇算法是一種混合型的序列和聚類算法。該算法根據(jù)這些關(guān)系的相似性將有關(guān)系屬性的的多重案例分組成片段。該算法的一個(gè)典型的使用情況是一個(gè)門戶網(wǎng)站的網(wǎng)絡(luò)客戶分析。一個(gè)門戶網(wǎng)站擁有一套附屬領(lǐng)域,如新聞,天氣,金錢,郵件,和體育。每個(gè)網(wǎng)站的客戶通過(guò)在這些領(lǐng)域中網(wǎng)頁(yè)點(diǎn)擊的 順序聯(lián)系起來(lái)。序列簇算法可以根據(jù)他們的導(dǎo)航模式將這些網(wǎng)頁(yè)客戶分組成差不多同質(zhì)的團(tuán)體。這些團(tuán)體是視化的,提供了詳細(xì)的了解客戶如何使用該網(wǎng)站。神經(jīng)網(wǎng)絡(luò)在Microsoft SQL Server 2005分析服務(wù)中,神經(jīng)網(wǎng)絡(luò)算法通過(guò)構(gòu)建多層感知神經(jīng)元網(wǎng)絡(luò)建立

26、分類與回歸挖掘模型。類似微軟決策樹(shù)算法的供應(yīng)商,考慮到每個(gè)可預(yù)測(cè)屬性的情況,該算法為馬格可能輸入屬性的情況計(jì)算概率。該算法提供案例的過(guò)程,反復(fù)比較預(yù)測(cè)分類的情況和已知的實(shí)際分類的案件。這些來(lái)自第一代的整套案件中從最初的分類錯(cuò)誤,被反饋到網(wǎng)絡(luò),用來(lái)修改網(wǎng)絡(luò)性能的下一代,等等。以后您可以在輸入屬性的基礎(chǔ)上使用這些概率來(lái)預(yù)測(cè)那些預(yù)測(cè)屬性的結(jié)果。然而,該算法和決策樹(shù)算法其中一個(gè)主要區(qū)別,是其學(xué)習(xí)的過(guò)程是朝著盡量減少錯(cuò)誤的方向優(yōu)化網(wǎng)絡(luò)參數(shù),而決策樹(shù)算法的分裂規(guī)則,以求最大限度地發(fā)揮信息增益。該算法支持預(yù)測(cè)的離散和連續(xù)屬性。線性回歸線性回歸算法是決策樹(shù)算法的一種特殊的構(gòu)造,獲得了無(wú)效的分裂(整個(gè)回歸公式是

27、建立在一個(gè)單一根節(jié)點(diǎn)) 。該算法支持預(yù)測(cè)連續(xù)屬性。邏輯回歸邏輯回歸算法是神經(jīng)網(wǎng)絡(luò)算法的一種特殊的構(gòu)造,得到了消除隱蔽層。該算法支持預(yù)測(cè)的離散和連續(xù)屬性。翻譯原文:SQL Server Management StudioSQL Server Management Studio is a collection of administrative and scripting tools for working with Microsoft SQL Server components. This workspace differs from Business Intelligence Developm

28、ent Studio in that you are working in a connected environment where actions are propagated to the server as soon as you save your work. After the data has been cleaned and prepared for data mining, most of the tasks associated with creating a data mining solution are performed within Business Intell

29、igence Development Studio. Using the Business Intelligence Development Studio tools, you develop and test the data mining solution, using an iterative process to determine which models work best for a given situation. When the developer is satisfied with the solution, it is deployed to an Analysis S

30、ervices server. From this point, the focus shifts from development to maintenance and use, and thus SQL Server Management Studio. Using SQL Server Management Studio, you can administer your database and perform some of the same functions as in Business Intelligence Development Studio, such as viewin

31、g, and creating predictions from mining models. Data Transformation ServicesData Transformation Services (DTS) comprises the Extract, Transform, and Load (ETL) tools in SQL Server 2005. These tools can be used to perform some of the most important tasks in data mining: cleaning and preparing the dat

32、a for model creation. In data mining, you typically perform repetitive data transformations to clean the data before using the data to train a mining model. Using the tasks and transformations in DTS, you can combine data preparation and model creation into a single DTS package.DTS also provides DTS

33、 Designer to help you easily build and run packages containing all of the tasks and transformations. Using DTS Designer, you can deploy the packages to a server and run them on a regularly scheduled basis. This is useful if, for example, you collect data weekly data and want to perform the same clea

34、ning transformations each time in an automated fashion.You can work with a Data Transformation project and an Analysis Services project together as part of a business intelligence solution, by adding each project to a solution in Business Intelligence Development Studio.Mining Model AlgorithmsData m

35、ining algorithms are the foundation from which mining models are created. The variety of algorithms included in SQL Server 2005 allows you to perform many types of analysis. For more specific information about the algorithsm and how they can be adjusted using parameters, see Data Mining Algorithms i

36、n SQL Server Books Online.Microsoft Decision TreesThe Microsoft Decision Trees algorithm supports both classification and regression and it works well for predictive modeling. Using the algorithm, you can predict both discrete and continuous attributes. In building a model, the algorithm examines ho

37、w each input attribute in the dataset affects the result of the predicted attribute, and then it uses the input attributes with the strongest relationship to create a series of splits, called nodes. As new nodes are added to the model, a tree structure begins to form. The top node of the tree descri

38、bes the breakdown of the predicted attribute over the overall population. Each additional node is created based on the distribution of states of the predicted attribute as compared to the input attributes. If an input attribute is seen to cause the predicted attribute to favor one state over another

39、, a new node is added to the model. The model continues to grow until none of the remaining attributes create a split that provides an improved prediction over the existing node. The model seeks to find a combination of attributes and their states that creates a disproportionate distribution of stat

40、es in the predicted attribute, therefore allowing you to predict the outcome of the predicted attribute.Microsoft ClusteringThe Microsoft Clustering algorithm uses iterative techniques to group records from a dataset into clusters containing similar characteristics. Using these clusters, you can exp

41、lore the data, learning more about the relationships that exist, which may not be easy to derive logically through casual observation. Additionally, you can create predictions from the clustering model created by the algorithm. For example, consider a group of people who live in the same neighborhoo

42、d, drive the same kind of car, eat the same kind of food, and buy a similar version of a product. This is a cluster of data. Another cluster may include people who go to the same restaurants, have similar salaries, and vacation twice a year outside the country. Observing how these clusters are distr

43、ibuted, you can better understand how the records in a dataset interact, as well as how that interaction affects the outcome of a predicted attribute.Microsoft Nave BayesThe Microsoft Nave Bayes algorithm quickly builds mining models that can be used for classification and prediction. It calculates

44、probabilities for each possible state of the input attribute, given each state of the predictable attribute, which can later be used to predict an outcome of the predicted attribute based on the known input attributes. The probabilities used to generate the model are calculated and stored during the

45、 processing of the cube. The algorithm supports only discrete or discretized attributes, and it considers all input attributes to be independent. The Microsoft Nave Bayes algorithm produces a simple mining model that can be considered a starting point in the data mining process. Because most of the

46、calculations used in creating the model are generated during cube processing, results are returned quickly. This makes the model a good option for exploring the data and for discovering how various input attributes are distributed in the different states of the predicted attribute.Microsoft Time Ser

47、iesThe Microsoft Time Series algorithm creates models that can be used to predict continuous variables over time from both OLAP and relational data sources. For example, you can use the Microsoft Time Series algorithm to predict sales and profits based on the historical data in a cube.Using the algo

48、rithm, you can choose one or more variables to predict, but they must be continuous. You can have only one case series for each model. The case series identifies the location in a series, such as the date when looking at sales over a length of several months or years. A case may contain a set of var

49、iables (for example, sales at different stores). The Microsoft Time Series algorithm can use cross-variable correlations in its predictions. For example, prior sales at one store may be useful in predicting current sales at another store.Microsoft AssociationThe Microsoft Association algorithm is sp

50、ecifically designed for use in market basket analyses. The algorithm considers each attribute/value pair (such as product/bicycle) as an item. An itemset is a combination of items in a single transaction. The algorithm scans through the dataset trying to find itemsets that tend to appear in many tra

51、nsactions. The SUPPORT parameter defines how many transactions the itemset must appear in before it is considered significant. For example, a frequent itemset may contain Gender=Male, Marital Status = Married, Age=30-35. Each itemset has a size, which is number of items it contains. In this case, th

52、e size is 3. Often association models work against datasets containing nested tables, such as a customer list followed by a nested purchases table. If a nested table exists in the dataset, each nested key (such as a product in the purchases table) is considered an item. The Microsoft Association alg

53、orithm also finds rules associated with itemsets. A rule in an association model looks like A, B=C (associated with a probability of occurring), where A, B, C are all frequent itemsets. The = implies that C is predicted by A and B. The probability threshold is a parameter that determines the minimum

54、 probability before a rule can be considered. The probability is also called confidence in data mining literature. Association models are also useful for cross sell or collaborative filtering. For example, you can use an association model to predict items a user may want to purchase based on other i

55、tems in their basket.Microsoft Sequence ClusteringThe Microsoft Sequence Clustering algorithm analyzes sequence-oriented data that contains discrete-valued series. Usually the sequence attribute in the series holds a set of events with a specific order (such as a click path). By analyzing the transi

56、tion between states of the sequence, the algorithm can predict future states in related sequences.The Microsoft Sequence Clustering algorithm is a hybrid of sequence and clustering algorithms. The algorithm groups multiple cases with sequence attributes into segments based on similarities of these s

57、equences. A typical usage scenario for this algorithm is Web customer analysis for a portal site. A portal Web site has a set of affiliated domains such as News, Weather, Money, Mail, and Sport. Each Web customer is associated with a sequence of Web clicks on these domains. The Microsoft Sequence Clustering algorithm can group these Web customers into more-or-less homogenous groups based on their navigations patterns. These groups can then be visualized, providing a detailed understa

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論