已閱讀5頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
景德鎮(zhèn)陶瓷學(xué)院理學(xué)學(xué)士論文 目錄 理學(xué)學(xué)士學(xué)位論文(設(shè)計(jì))電信客戶數(shù)據(jù)分類方法研究學(xué) 號(hào): 200710520101 姓 名: 于一發(fā) 院 系: 信息工程學(xué)院 專 業(yè): 信息與計(jì)算科學(xué) 指導(dǎo)老師: 邱望仁老師 完成日期: 2011年6月 分類號(hào) 學(xué)校代碼 UDC 密級(jí) 學(xué) 號(hào) 200710520102 景德鎮(zhèn)陶瓷學(xué)院信息工程學(xué)院畢業(yè)論文電信客戶數(shù)據(jù)分類方法研究于一發(fā)指導(dǎo)老師 邱望仁 博士 景德鎮(zhèn)陶瓷學(xué)院 信息工程學(xué)院 申請(qǐng)學(xué)位級(jí)別 理學(xué)學(xué)士 專業(yè)名稱 信息與計(jì)算科學(xué) 提交論文日期 2011-6-1 論文答辯日期 2010-6-7 學(xué)位授予單位和日期 景德鎮(zhèn)陶瓷學(xué)院 答辯委員會(huì)主席 柳炳祥 論文評(píng)閱人 2011年6景德鎮(zhèn)陶瓷學(xué)院理學(xué)學(xué)士論文 目錄目錄摘 要IAbstractII第一章 研究概況11.1研究背景11.2研究目的和意義11.3國內(nèi)外研究狀況1第二章 數(shù)據(jù)挖掘綜述32.1什么是數(shù)據(jù)挖掘32.2數(shù)據(jù)挖掘的主要步驟32.3數(shù)據(jù)挖掘的主要任務(wù)42.4數(shù)據(jù)挖掘的主要應(yīng)用52.5數(shù)據(jù)挖掘的主要工具62.6數(shù)據(jù)挖掘的發(fā)展6第三章 分類挖掘的介紹83.1什么是分類83.2分類分析的步驟83.3主要分類方法8第四章 電信客戶價(jià)值104.1客戶價(jià)值含義104.2電信行業(yè)特點(diǎn)104.3電信客戶價(jià)值的特點(diǎn)104.4電信客戶當(dāng)前價(jià)值和潛在價(jià)值11第五章 指標(biāo)體系權(quán)重的設(shè)定125.1層次分析法介紹125.2層次分析法的步驟125.3成對(duì)比較矩陣的建立135.4一致性檢驗(yàn)145.5 評(píng)價(jià)體系指標(biāo)權(quán)重的確定15第六章 KNN分類算法176.1 KNN算法簡介176.2 KNN算法的弊端176.3 屬性加權(quán)對(duì)KNN算法的改進(jìn)18第七章 結(jié)果和展望19第八章 結(jié)束語20第九章 參考文獻(xiàn)21致謝22附錄1231.求權(quán)值時(shí)對(duì)特征向量矩陣的單位化:232.加權(quán)KNN算法的實(shí)現(xiàn)23附錄224基于歐氏距離的最近鄰改進(jìn)算法24引言:241改進(jìn)的最近鄰算法252改進(jìn)算法的實(shí)例驗(yàn)證273結(jié)束語28Improved KNN Algorithm Based on Euclidean Distance29Preface:291.Improved nearest neighbor algorithm302. The improved algorithm of typical examples333.closing34摘 要客戶是企業(yè)的一項(xiàng)重要戰(zhàn)略資產(chǎn),在電信產(chǎn)業(yè)結(jié)構(gòu)和競爭環(huán)境發(fā)生重大變革的今天,對(duì)于電信企業(yè)而言,如何有效的管理好這個(gè)重要資源已經(jīng)保持和獲取新的競爭優(yōu)勢的重要要求。在學(xué)術(shù)研究上,深刻認(rèn)識(shí)客戶的價(jià)值特征,有效的評(píng)價(jià)客戶的價(jià)值也成為一個(gè)熱點(diǎn)問題。很多學(xué)者都在不同的領(lǐng)域?qū)λM(jìn)行了研究。因此,研究客戶價(jià)值,找到有效的評(píng)價(jià)方法,合理的應(yīng)用到營銷之中,指導(dǎo)企業(yè)的資源分配,這一系列問題吧僅有學(xué)術(shù)意義,也有很大的現(xiàn)實(shí)意義,圍繞著對(duì)這些問題的思考,本論文在客戶價(jià)值的評(píng)價(jià)和運(yùn)用客戶價(jià)值進(jìn)行分類方面進(jìn)行了研究。論文探討了價(jià)值評(píng)價(jià)的技術(shù)方法,且在研究客戶價(jià)值的影響因素的基礎(chǔ)上,建立價(jià)值評(píng)價(jià)的模型,并以江西電信所提供的數(shù)據(jù)為研究對(duì)象,進(jìn)行實(shí)證分析,同時(shí)利用獲得的結(jié)果和數(shù)據(jù)聚類分析的方法,運(yùn)用MATLAB編程技術(shù),對(duì)新客戶的價(jià)值進(jìn)行模糊評(píng)價(jià)。 關(guān)鍵字:電信客戶關(guān)系;客戶價(jià)值 ;客戶分類- 35 -AbstractCustomers are one of the strategic assets of telecom company. The structure of telecom industry and competitive environment has changed a lot. It is significant for telecom company to have their customers managed effectively to achieve competitive advantage in such situation. In academic field, to recognize the character of customer value and to evaluation the customer value effectively have been an issue discussed. Lots of scholars has investigated it in their ways. So investigating customer value and finding out the method to measure it are academic and useful to operation. We need to take advantage of it to guide the distribution of enterprise resource and activities of marketing. With considering these questions, the paper has made a research in evaluation of customer value and method of segment based on value evaluation. This paper discusses the value evaluation techniques, and establish value evaluation model based on the influence factors of customer value , and use the data provided jiang xi telecom as the research object to do some empirical analysis. Meanwhile we can use the results obtained and data clustering analysis methods, using MATLAB programming techniques to evaluate the value of new customers fuzzily.KEY WORDS:Telecom customer relationship; Customer value;Customer classification景德鎮(zhèn)陶瓷學(xué)院理學(xué)學(xué)士論文 研究概況第一章 研究概況1.1研究背景如果問一個(gè)企業(yè)的核心資產(chǎn)是什么,回答可能會(huì)有很多,設(shè)備、技術(shù)、資本等等,不一而同。這個(gè)問題也是好多學(xué)者和企業(yè)一直探索的問題,隨著競爭的加劇和市場營銷科學(xué)的不斷發(fā)展,有一點(diǎn)得到越來越多的學(xué)者和企業(yè)實(shí)踐人員的認(rèn)同和重視,就是客戶是企業(yè)一項(xiàng)重要的戰(zhàn)略資產(chǎn)??蛻舻牧魇е苯訉?dǎo)致的是收入的下降和利潤的流失,而保持和維系客戶將成為企業(yè)為了利潤增長和企業(yè)發(fā)展成長的基本點(diǎn)。而電信企業(yè)客戶的一個(gè)戰(zhàn)略性群體就是大客戶,根據(jù)2/8法則,他們自身的特點(diǎn),收入和利潤對(duì)電信企業(yè)都具有戰(zhàn)略性的意義,對(duì)業(yè)務(wù)和發(fā)展和會(huì)群體都有重大的影響。深刻了解客戶,明確他們的細(xì)分特征,以之為基礎(chǔ)針對(duì)性營銷,對(duì)于保持與激勵(lì)這個(gè)群體是有效的。而管理好他們,才能更好保障企業(yè)的發(fā)展,提高運(yùn)營效益。因此,將他們作為研究電信客戶的細(xì)分管理的著眼點(diǎn)。綜合上面所述,研究電信客戶的特征和細(xì)分,對(duì)電信企業(yè)有效的進(jìn)行客戶識(shí)別,進(jìn)行精確化營銷,從而提高和完善客戶管理的能力,在新的競爭環(huán)境中獲取優(yōu)勢是極具研究和現(xiàn)實(shí)意義的。1.2研究目的和意義由于電信行業(yè)中客戶因素越來越重要,客戶資產(chǎn)中電信客戶又對(duì)電信企業(yè)有重大的意義,有效對(duì)電信客戶實(shí)施管理成為電信企業(yè)客戶關(guān)系管理中的戰(zhàn)略性因素。如何對(duì)電信企業(yè)大客戶進(jìn)行清晰的認(rèn)知,進(jìn)而實(shí)施精確化的營銷管理呢?這是電信客戶管理需要首先解決的問題,也是精確化管理的基礎(chǔ)。它可以調(diào)節(jié)分配讓企業(yè)將他的資源配置到最合理的地方去,讓真正的價(jià)值客戶獲得足夠的營銷資源。所以,本文選擇將基于價(jià)值的電信客戶的分類作為研究對(duì)象,目的是為了清晰以價(jià)值作為客戶評(píng)價(jià)維度的客戶特征,在新構(gòu)建的客戶評(píng)價(jià)體系中,利用分類的方法,讓企業(yè)能從更好的了解客戶的價(jià)值,充分提升營業(yè)額。1.3國內(nèi)外研究狀況客戶是企業(yè)一項(xiàng)戰(zhàn)略性的重要資產(chǎn),這一共識(shí)在管理領(lǐng)域已經(jīng)沒有什么可爭辯的了。然而如何評(píng)價(jià)和管理它們,并令其保值、增值則是如今還頗具爭論,仍然具有研究意義和價(jià)值的領(lǐng)域。大部分現(xiàn)有的研究都是從貨幣價(jià)值的方面為著手點(diǎn),從財(cái)務(wù)數(shù)據(jù)中測度客戶的利潤情況。然而作為客戶的綜合價(jià)值考慮,他不僅僅包含從可提供的財(cái)務(wù)數(shù)據(jù)中提取的結(jié)果,還應(yīng)該包含一些以非貨幣價(jià)值形式體現(xiàn)出的客戶價(jià)值,例如客戶的忠誠度,口碑效應(yīng)等等,但是從現(xiàn)有的一些研究來看,還沒有有效的而且適用于電信行業(yè)的測度方法。同時(shí),如何把營銷觀念和財(cái)務(wù)數(shù)據(jù)的應(yīng)用結(jié)合起來以給切合實(shí)際和綜合的反映客戶價(jià)值也是各個(gè)行業(yè)包括電信業(yè)有待解決的問題。景德鎮(zhèn)陶瓷學(xué)院理學(xué)學(xué)士論文 數(shù)據(jù)挖掘綜述第二章 數(shù)據(jù)挖掘綜述2.1什么是數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的歷史較短,但從20世紀(jì)90年代以來,它的發(fā)展速度很快,加之它是多學(xué)科綜合的產(chǎn)物,所以目前還沒有一個(gè)完整的定義,人們提出了多種數(shù)據(jù)挖掘的定義,例如:SAS研究所(1997):“在大量相關(guān)數(shù)據(jù)基礎(chǔ)之上進(jìn)行數(shù)據(jù)探索和建立相關(guān)模型的先進(jìn)方法?!盉havani(1999):“適用模式識(shí)別技術(shù)、統(tǒng)計(jì)技術(shù)和數(shù)學(xué)技術(shù),在大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的新關(guān)系、模式和趨勢的過程?!盚and(2000):“數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫中尋找有意義、有價(jià)值信息的過程?!睆募夹g(shù)上定義,數(shù)據(jù)挖掘是從大量的、有噪聲的、模糊的、不完全的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道但潛在有用的信息和知識(shí)的過程。很多詞匯與數(shù)據(jù)挖掘相近似,其中包括數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。這個(gè)定義包括好幾層意思:首先,數(shù)據(jù)源必須是真是的、大量的、有噪聲的;發(fā)現(xiàn)的知識(shí)是用戶感興趣的;發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)的知識(shí)能夠四海皆準(zhǔn),只要求能夠解決待定的問題。簡言之,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。2.2數(shù)據(jù)挖掘的主要步驟 數(shù)據(jù)挖掘一般有以下幾個(gè)主要步驟:1、數(shù)據(jù)收集大量全面豐富的數(shù)據(jù)是數(shù)據(jù)挖掘的前提,沒有數(shù)據(jù),數(shù)據(jù)挖掘也就無從作起。因此,數(shù)據(jù)收集是數(shù)據(jù)挖掘的首要步驟。數(shù)據(jù)可以來自于現(xiàn)有事務(wù)處理系統(tǒng),也可以從數(shù)據(jù)倉庫中得到。2、數(shù)據(jù)整理數(shù)據(jù)整理是數(shù)據(jù)挖掘的必要環(huán)節(jié)。由數(shù)據(jù)收集階段得到的數(shù)據(jù)可能有一定的“污染”,表現(xiàn)在數(shù)據(jù)可能存在自身的不一致性,或者有缺失數(shù)據(jù)的存在等,因此數(shù)據(jù)的整理是必須的。同時(shí),通過數(shù)據(jù)整理,可以對(duì)數(shù)據(jù)做簡單的泛化處理,從而在原始數(shù)據(jù)的基礎(chǔ)之上得到更為豐富的數(shù)據(jù)信息,進(jìn)而便于下一步數(shù)據(jù)挖掘的順利進(jìn)行。3、數(shù)據(jù)挖掘利用各種數(shù)據(jù)挖掘方法對(duì)數(shù)據(jù)進(jìn)行分析。4、數(shù)據(jù)挖掘結(jié)果的評(píng)估數(shù)據(jù)挖掘的結(jié)果有些是有實(shí)際意義的,而有些是沒有實(shí)際意義的,或是與實(shí)際情況相違背的,這就需要進(jìn)行評(píng)估。評(píng)估可以根據(jù)用戶多年的經(jīng)驗(yàn),也可以直接用實(shí)際數(shù)據(jù)來驗(yàn)證模型的正確性,進(jìn)而調(diào)整挖掘模型,不斷重復(fù)進(jìn)行數(shù)據(jù)挖掘。5、分析決策數(shù)據(jù)挖掘的最終目的是輔助決策。決策者可以根據(jù)數(shù)據(jù)挖掘的結(jié)果,結(jié)合實(shí)際情況,調(diào)整競爭策略等??傊瑪?shù)據(jù)挖掘過程需要多次的循環(huán)反復(fù),才有可能達(dá)到預(yù)期的效果2.3數(shù)據(jù)挖掘的主要任務(wù) 數(shù)據(jù)開采技術(shù)的目標(biāo)是從大量數(shù)據(jù)中,發(fā)現(xiàn)隱藏于其后的規(guī)律或數(shù)據(jù)間的關(guān)系,從而服務(wù)于決策。數(shù)據(jù)挖掘一般有以下四類主要任務(wù):1、數(shù)據(jù)總結(jié)數(shù)據(jù)總結(jié)目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的總體綜合描述。通過對(duì)數(shù)據(jù)的總結(jié),數(shù)據(jù)挖掘能夠?qū)?shù)據(jù)庫中的有關(guān)數(shù)據(jù)從較低的個(gè)體層次抽象總結(jié)到較高的總體層次上,從而實(shí)現(xiàn)對(duì)原始基本數(shù)據(jù)的總體把握。傳統(tǒng)的也是最簡單的數(shù)據(jù)總結(jié)方法利用統(tǒng)計(jì)學(xué)中的方法計(jì)算出數(shù)據(jù)庫的各個(gè)數(shù)據(jù)項(xiàng)的總和、平均、方差、最大值、最小值等基本描述統(tǒng)計(jì)量?;蛘咄ㄟ^利用統(tǒng)計(jì)圖形工具,對(duì)數(shù)據(jù)制作直方圖、餅狀圖等。利用OLAP技術(shù)實(shí)現(xiàn)數(shù)據(jù)的多維查詢也是一種廣泛使用的數(shù)據(jù)總結(jié)的方法。2、分類分類的主要功能是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能夠根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分派到不同的組中。即:分析數(shù)據(jù)的各種屬性,并找出數(shù)據(jù)的屬性模型,確定哪些數(shù)據(jù)屬于哪些組。這樣我們就可以利用該模型來分析已有數(shù)據(jù),并預(yù)測新數(shù)據(jù)將屬于哪一個(gè)組。分類應(yīng)用的實(shí)例很多。例如,我們可以將銀行網(wǎng)點(diǎn)分為好、一般和較差三種類型,并以此分析這三種類型銀行網(wǎng)點(diǎn)的各種屬性,特別是位置、盈利情況等屬性,并決定它們分類的關(guān)鍵屬性及相互間關(guān)系。此后就可以根據(jù)這些關(guān)鍵屬性對(duì)每一個(gè)預(yù)期的銀行網(wǎng)點(diǎn)進(jìn)行分析,以便決定預(yù)期銀行網(wǎng)點(diǎn)屬于哪一種類型。3、關(guān)聯(lián)分析數(shù)據(jù)庫中的數(shù)據(jù)一般都存在著關(guān)聯(lián)關(guān)系,也就是說,兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性。這種關(guān)聯(lián)關(guān)系有簡單關(guān)聯(lián)和時(shí)序關(guān)聯(lián)兩種。簡單關(guān)聯(lián),例如:購買面包的顧客中有90%的人同時(shí)購買牛奶。時(shí)序關(guān)聯(lián),例如:若AT&T股票連續(xù)上漲兩天且DEC股票不下跌,則第三天IBM股票上漲的可能性為75%。它在簡單關(guān)聯(lián)中增加了時(shí)間屬性。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng),描述一組數(shù)據(jù)項(xiàng)目的密切度或關(guān)系。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)是否存在精確的關(guān)聯(lián)函數(shù),,即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有置信度,置信度級(jí)別度量了關(guān)聯(lián)規(guī)則的強(qiáng)度。4、聚類當(dāng)要分析的數(shù)據(jù)缺乏描述信息,或者是無法組織成任何分類模式時(shí),可以采用聚類分析。聚類分析是按照某種相近程度度量方法,將用戶數(shù)據(jù)分成一系列有意義的子集合。每一個(gè)集合中的數(shù)據(jù)性質(zhì)相近,不同集合之間的數(shù)據(jù)性質(zhì)相差較大。統(tǒng)計(jì)方法中的聚類分析是實(shí)現(xiàn)聚類的一種手段,它主要研究基于幾何距離的聚類。人工智能中的聚類是基于概念描述的。概念描述就是對(duì)某類對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類對(duì)象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對(duì)象的共同特征,后者描述不同類對(duì)象之間的區(qū)別。2.4數(shù)據(jù)挖掘的主要應(yīng)用目前,數(shù)據(jù)挖掘的研究和應(yīng)用非常熱門,應(yīng)用主要集中在以下幾個(gè)領(lǐng)域:1、金融數(shù)據(jù)挖掘在金融領(lǐng)域應(yīng)用廣泛,包括:金融市場分析和預(yù)測、帳戶分類、銀行擔(dān)保和信用評(píng)估等。這些金融業(yè)務(wù)都需要收集和處理大量數(shù)據(jù),很難通過人工或使用一兩個(gè)小型軟件進(jìn)行分析預(yù)測。而數(shù)據(jù)挖掘可以通過對(duì)已有數(shù)據(jù)的處理,找到數(shù)據(jù)對(duì)象的特征和對(duì)象之間的關(guān)系,并可觀察到金融市場的變化趨勢。然后利用學(xué)習(xí)到的模式進(jìn)行合理的分析預(yù)測,進(jìn)而發(fā)現(xiàn)某個(gè)客戶、消費(fèi)群體或組織的金融和商業(yè)興趣等。2、市場業(yè)市場業(yè)應(yīng)用是利用數(shù)據(jù)挖掘技術(shù)進(jìn)行市場定位和消費(fèi)者分析,輔助制定市場策略。由于管理信息信息系統(tǒng)和POS系統(tǒng)在市場業(yè)的廣泛普及,人們很容易得到顧客購買情況的數(shù)據(jù)。利用數(shù)據(jù)挖掘技術(shù),如:相關(guān)規(guī)則、模糊推理及統(tǒng)計(jì)方法等,通過對(duì)顧客歷史數(shù)據(jù)的分析,可以得到關(guān)于顧客購買取向和興趣的信息,無疑為商業(yè)決策提供了可靠的依據(jù)。3、工程與科學(xué)研究數(shù)據(jù)挖掘技術(shù)可應(yīng)用于各種工程與科學(xué)數(shù)據(jù)分析。隨著先進(jìn)的科學(xué)數(shù)據(jù)收集工具的使用,如觀測衛(wèi)星、遙感器、DNA分子技術(shù)等,面對(duì)龐大的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)分析工具無能為力。數(shù)據(jù)挖掘技術(shù)以其強(qiáng)大的智能性和自動(dòng)性,在工程和科學(xué)研究中得到廣泛應(yīng)用。數(shù)據(jù)挖掘在天文學(xué)和生物學(xué)中都有極為成功的案例。例如:在天文學(xué)應(yīng)用中,Jet Propulsion實(shí)驗(yàn)室利用決策樹方法對(duì)上百萬天體進(jìn)行分類,效果比人工更快、更準(zhǔn)確。這個(gè)系統(tǒng)還幫助發(fā)現(xiàn)了10個(gè)新的類星體。4、產(chǎn)品制造業(yè)制造業(yè)應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行零部件故障診斷、資源優(yōu)化、生產(chǎn)過程分析等。例如:HP 公司的工程師使用Angoss Software的Knowledge Seeker來進(jìn)行HPc彩色掃描儀的生產(chǎn)過程分析。他們基于大約200個(gè)參數(shù)建立了一個(gè)自動(dòng)數(shù)據(jù)收集系統(tǒng),產(chǎn)生了難以手工處理的大量數(shù)據(jù)。5、司法數(shù)據(jù)挖掘技術(shù)可應(yīng)用于案件調(diào)查、詐騙監(jiān)測、洗錢認(rèn)證、犯罪組織分析等,可以給司法工作帶來巨大收益。例如:美國財(cái)政部使用NetMap開發(fā)了一個(gè)叫FAIS的系統(tǒng)。這個(gè)系統(tǒng)對(duì)各類金融事務(wù)進(jìn)行監(jiān)測,分類洗錢、詐騙等。該系統(tǒng)從1993年3月開始運(yùn)行,每周處理約20萬個(gè)事務(wù),針對(duì)超過1億美元并可能是洗錢的事務(wù)產(chǎn)生了400多個(gè)調(diào)查報(bào)告。2.5數(shù)據(jù)挖掘的主要工具 在數(shù)據(jù)挖掘技術(shù)發(fā)展的同時(shí),許多數(shù)據(jù)挖掘的軟件工具也逐漸問世。數(shù)據(jù)挖掘工具主要有兩大類:一類是應(yīng)用于特定領(lǐng)域的專用數(shù)據(jù)挖掘工具,另一類是應(yīng)用面較廣的通用數(shù)據(jù)挖掘工具。專用數(shù)據(jù)挖掘工具針對(duì)某個(gè)特定領(lǐng)域的問題提供解決方案。在算法設(shè)計(jì)方面,充分考慮到數(shù)據(jù)、需求的特殊性,并進(jìn)行優(yōu)化。例如:IBM公司的Advanced Scout系統(tǒng),針對(duì)NBA數(shù)據(jù),幫助教練優(yōu)化戰(zhàn)術(shù)組合、上文提到的各種應(yīng)用工具等。通用數(shù)據(jù)挖掘工具處理常見的數(shù)據(jù)類型,采用通用的數(shù)據(jù)挖掘算法,提供較為通用的處理模式,如:分類模式、回歸模式、時(shí)間序列模式、聚類模式、關(guān)聯(lián)模式等。例如:IBM公司的QUEST系統(tǒng)、SGI公司的MineSet系統(tǒng)、加拿大Simon Fraser大學(xué)的DBMiner、美國Business Objects公司的Business Miner系統(tǒng)、SAS公司的SAS EM(Enterprise Miner)系統(tǒng)等。2.6數(shù)據(jù)挖掘的發(fā)展 數(shù)據(jù)挖掘的研究前景廣闊,其發(fā)展前景已經(jīng)在國際上普遍公認(rèn)。目前,國內(nèi)外很多大學(xué)、研究機(jī)構(gòu)和公司都開始拓展數(shù)據(jù)挖掘陣地。今后研究的焦點(diǎn)可能有:研究專門用于知識(shí)開發(fā)的數(shù)據(jù)挖掘語言;研究Intenet上的數(shù)據(jù)挖掘方法;對(duì)其他非結(jié)構(gòu)化數(shù)據(jù)諸如多媒體數(shù)據(jù)、文本數(shù)據(jù)、圖像圖型數(shù)據(jù)的挖掘;研究數(shù)據(jù)挖掘與數(shù)據(jù)倉庫相結(jié)合的方式,數(shù)據(jù)挖掘與數(shù)據(jù)倉庫一體化的研究等。2.61 Web數(shù)據(jù)挖掘Web挖掘的目標(biāo)是從Web的超鏈接結(jié)構(gòu)、網(wǎng)頁內(nèi)容和使用日志中探尋有用的信息。Web挖掘使用很多種數(shù)據(jù)挖掘技術(shù),根據(jù)Web數(shù)據(jù)挖掘的數(shù)據(jù)類型,Web挖掘任務(wù)可以被劃分為三類:Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘和Web使用挖掘。Web結(jié)構(gòu)挖掘:Web結(jié)構(gòu)挖掘是從表征的Web超鏈接中尋找有用的知識(shí)。例如:從鏈接中可以找出那些網(wǎng)頁,這是一項(xiàng)搜索引擎主要采用的技術(shù)。Web內(nèi)容挖掘:Wcb內(nèi)容挖掘可以從網(wǎng)頁內(nèi)容中抽取有用的信息和知識(shí)。例如:根據(jù)網(wǎng)頁的主題,我們可以進(jìn)行自動(dòng)的分類和聚類。Web使用挖掘:Web使用挖掘從一記錄每位用戶的點(diǎn)擊情況的使用日志中挖掘用戶的訪問模式。這項(xiàng)任務(wù)也使用了許多數(shù)據(jù)挖掘的算法。其中一項(xiàng)就是點(diǎn)擊流數(shù)據(jù)的預(yù)處理,以便生成可以用來挖掘的合適的數(shù)據(jù)。2.62 生物信息或基因芯片的數(shù)據(jù)挖掘生物信息或基因數(shù)據(jù)挖掘完全屬于另外一個(gè)領(lǐng)域,難以估計(jì)其商業(yè)價(jià)值,卻可令全人類受益匪淺。比如,基因的組合千差萬別,如何識(shí)別某類病人的基因與正常人基因的差別,進(jìn)而對(duì)其差別加以修復(fù)?針對(duì)這些問題的研究已經(jīng)形成了一門學(xué)科,叫做基因芯片?;蛐酒且环N新型的高通量檢測技術(shù)與方法,它可以同時(shí)測量成千上萬個(gè)基因的表達(dá)水平。數(shù)據(jù)挖掘理論,將用于對(duì)基因芯片生成的海量數(shù)據(jù)進(jìn)行準(zhǔn)確而有效地分析,從而發(fā)掘出不同基因在表達(dá)上和其功能上的某種聯(lián)系。2.63 文本數(shù)據(jù)挖掘文本數(shù)據(jù)挖掘(Text Mining)是指從文本數(shù)據(jù)中抽取有價(jià)值的信息和知識(shí)的計(jì)算機(jī)處理技術(shù)。顧名思義,文本數(shù)據(jù)挖掘是從文本中進(jìn)行數(shù)據(jù)挖掘。從這個(gè)意義上講,文本數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的一個(gè)分支。文本數(shù)據(jù)挖掘是一個(gè)邊緣學(xué)科,由機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)、自然語言處理等多種學(xué)科交叉形成。文本數(shù)據(jù)挖掘在智能商務(wù)、信息檢索、生物信息處理等方面都有廣泛的應(yīng)用,例如,客戶關(guān)系管理,互聯(lián)網(wǎng)搜索等等。景德鎮(zhèn)陶瓷學(xué)院理學(xué)學(xué)士論文 分類挖掘介紹第三章 分類挖掘的介紹3.1什么是分類分類是數(shù)據(jù)挖掘里面的一種重要的數(shù)據(jù)分析方法,可以用于提取描述重要數(shù)據(jù)類的模型或者對(duì)數(shù)據(jù)的特征進(jìn)行鑒定。它是在已有數(shù)據(jù)的基礎(chǔ)上學(xué)會(huì)一個(gè)分類函數(shù)或構(gòu)造一個(gè)分類模型(即通常所說的分類器),而且該函數(shù)或模型能夠把數(shù)據(jù)庫中的數(shù)據(jù)記錄映射到給定類別中的某一個(gè),從而可以應(yīng)用于數(shù)據(jù)預(yù)測。3.2分類分析的步驟分類分析是一個(gè)兩步過程:構(gòu)建模型和模型應(yīng)用。第1步:建立描述預(yù)先定義的數(shù)據(jù)類或概念集的分類器。這是學(xué)習(xí)步(或訓(xùn)練階段),其中分類算法通過分析或從訓(xùn)練集“學(xué)習(xí)“來構(gòu)造分類器。先假設(shè)一個(gè)樣本集合中的每個(gè)元組屬于預(yù)定義的某一類別,由類標(biāo)號(hào)屬性確定。用于建立模型的元組集稱為訓(xùn)練數(shù)據(jù)集,其中每個(gè)元組稱為訓(xùn)練樣本。由于給出了類標(biāo)號(hào)屬性,因此該步驟又稱為有指導(dǎo)的學(xué)習(xí)。如果訓(xùn)練樣本的類標(biāo)號(hào)是未知的,則稱為無指導(dǎo)的學(xué)習(xí)(聚類)。學(xué)習(xí)模型可用分類規(guī)則、決策樹和數(shù)學(xué)公式的形式給出。第2步:使用模型對(duì)數(shù)據(jù)進(jìn)行分類。包括評(píng)估模型的分類準(zhǔn)確性以及對(duì)類標(biāo)號(hào)未知的元組按模型進(jìn)行分類。3.3主要分類方法目前,國外有許多研究機(jī)構(gòu)、公司和學(xué)術(shù)組織在從事數(shù)據(jù)挖掘工具的研究和開發(fā)。這些數(shù)據(jù)挖掘工具采用的主要方法包括決策樹、相關(guān)規(guī)則、神經(jīng)元網(wǎng)絡(luò)、遺傳算法,以及可視化、OLAP聯(lián)機(jī)分析處理等。另外也采用了傳統(tǒng)的統(tǒng)計(jì)方法。1、決策樹(Decision Tree)決策樹是建立在信息論基礎(chǔ)之上,對(duì)數(shù)據(jù)進(jìn)行分類的一種方法。首先,通過一批已知的訓(xùn)練數(shù)據(jù)建立一棵決策樹。然后,利用建好的決策樹,對(duì)數(shù)據(jù)進(jìn)行預(yù)測。決策樹的建立過程可以看成是數(shù)據(jù)規(guī)則的生成過程,因此可以認(rèn)為,決策樹實(shí)現(xiàn)了數(shù)據(jù)規(guī)則的可視化,其輸出結(jié)果也容易理解。例如:在金融領(lǐng)域中將貸款對(duì)象分為低貸款風(fēng)險(xiǎn)與高貸款風(fēng)險(xiǎn)兩類。通過決策樹,我們可以很容易地確定貸款申請(qǐng)者是屬于高風(fēng)險(xiǎn)的還是低風(fēng)險(xiǎn)的。決策樹方法精確度比較高,結(jié)果容易理解,效率也比較高,因而比較常用。2、K-nearest鄰居鄰居就是彼此距離很近的數(shù)據(jù)。依據(jù)”Do as your neighbors do”的原則,K-nearest鄰居方法認(rèn)為:鄰居數(shù)據(jù)必然有相同的屬性或行為。K表示某個(gè)特定數(shù)據(jù)的K個(gè)鄰居,可以通過K個(gè)鄰居的平均數(shù)據(jù)來預(yù)測該特定數(shù)據(jù)的某個(gè)屬性或行為。3、貝葉斯分類貝葉斯分類是統(tǒng)計(jì)學(xué)分類方法,它是一類利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類的算法。在許多場合,樸素貝葉斯分類算法可以與決策樹和神經(jīng)網(wǎng)絡(luò)分類算法相媲美,該算法能運(yùn)用到大型數(shù)據(jù)庫中,且方法簡單、分類準(zhǔn)確率高、速度快。由于貝葉斯定理假設(shè)一個(gè)屬性值對(duì)給定類的影響?yīng)毩⒂谄渌鼘傩缘闹?,而此假設(shè)在實(shí)際情況中經(jīng)常是不成立的,因此其分類準(zhǔn)確率可能會(huì)下降。為此,就出現(xiàn)了許多降低獨(dú)立性假設(shè)的貝葉斯分類算法,如TAN算法景德鎮(zhèn)陶瓷學(xué)院理學(xué)學(xué)士論文 電信客戶價(jià)值第四章 電信客戶價(jià)值4.1客戶價(jià)值含義1、從客戶的角度感知企業(yè)所提供的產(chǎn)品或服務(wù)的價(jià)值,也就是客戶感知的能夠從企業(yè)處所獲得的利益。它以客戶為價(jià)值感受的主體,企業(yè)為價(jià)值的感受客體。這是傳統(tǒng)意義上的客戶價(jià)值,目前在此方面的研究成果比較豐富和深入。目前研究的比較多的也比較成熟的是顧客讓渡價(jià)值理論。這一領(lǐng)域主要研究如何解和迎合客戶的需求。2、從企業(yè)的角度感知客戶所能提供給企業(yè)的收益或聲譽(yù)等的價(jià)值,也就是企業(yè)感知的能夠從客戶處所獲得的利益。它以企業(yè)為價(jià)值的感受主體,客戶為價(jià)值的感受客體。這是近幾年剛剛興起的研究方向,也是近幾年的研究熱點(diǎn)。它衡量了客戶對(duì)企業(yè)的重要程度,有助于企業(yè)保持長期利益的最大化。4.2電信行業(yè)特點(diǎn)與一般行業(yè)相比,電信行業(yè)有其自身的特點(diǎn),主要表現(xiàn)為:電信企業(yè)與客戶之間是一種持續(xù)的契約式的關(guān)系,這種關(guān)系可以持續(xù)相當(dāng)長的一段時(shí)間,甚至是直至客戶終老(例如固定電話普通客戶)。即,可以把客戶當(dāng)作電信企業(yè)的一種持續(xù)的資源。而一般企業(yè)與客戶之間是一種短暫的銷售與購買關(guān)系,客戶購買行為結(jié)束,企業(yè)與客戶之間的貨幣關(guān)系自動(dòng)終止,雖然之后客戶會(huì)對(duì)企業(yè)有口碑、聲譽(yù)等的貢獻(xiàn),但其貨幣貢獻(xiàn)己經(jīng)結(jié)束。而電信企業(yè)與客戶之間契約式的關(guān)系中包括了后來可能的持續(xù)的貨幣關(guān)系。依據(jù)此特點(diǎn)本文把電信客戶價(jià)值定義為:電信企業(yè)把客戶看作是企業(yè)的一項(xiàng)資源(稱為客戶資源),這種客戶資源能夠給企業(yè)帶來的當(dāng)前的利益貢獻(xiàn)以及未來可能的利益貢獻(xiàn)(包括貨幣的和非貨幣的),稱為電信企業(yè)的客戶價(jià)值。4.3電信客戶價(jià)值的特點(diǎn)由以上概念可以看出,電信客戶價(jià)值具有以下特點(diǎn):1、電信客戶價(jià)值具有長期持續(xù)性,是可以持續(xù)衡量和計(jì)算的,從時(shí)間上來看,電信客戶價(jià)值既要考慮當(dāng)前價(jià)值,又要考慮未來的潛在價(jià)值,更要考慮電信客戶的終生價(jià)值。2、電信客戶價(jià)值受以下因素的影響:(l)電信客戶價(jià)值的評(píng)價(jià)受時(shí)間因素影響電信客戶在不同時(shí)間的貨幣貢獻(xiàn)和非貨幣貢獻(xiàn)并不一定相同,因此客戶價(jià)值評(píng)價(jià)的考查時(shí)間點(diǎn)不同,而最終獲得電信客戶價(jià)值的高低也不相同。(2)電信客戶價(jià)值的評(píng)價(jià)受人為因素的影響。電信客戶價(jià)值是由運(yùn)營商所感知的,運(yùn)營商內(nèi)部決策者的不同影響到對(duì)客戶當(dāng)前利益貢獻(xiàn)以及未來可能的利益貢獻(xiàn)相對(duì)重要性的估計(jì),從而最終影響到對(duì)于客戶價(jià)值的評(píng)價(jià)。(3)電信客戶價(jià)值的評(píng)價(jià)受情景因素的影響。運(yùn)營商自身的因素以及其所處的外部環(huán)境同樣通過影響決策者對(duì)當(dāng)前利益貢獻(xiàn)和未來利益貢獻(xiàn)的相對(duì)重要性認(rèn)識(shí)而對(duì)客戶價(jià)值感知產(chǎn)生影響。如在起步階段的企業(yè)與穩(wěn)定發(fā)展階段的企業(yè)對(duì)于客戶價(jià)值的感知效果是不一樣的。同樣,經(jīng)濟(jì)繁榮和經(jīng)濟(jì)蕭條環(huán)境下的生存狀況會(huì)明顯影響到企業(yè)的關(guān)鍵決策者對(duì)客戶價(jià)值的感知。4.4電信客戶當(dāng)前價(jià)值和潛在價(jià)值從形式上,電信客戶價(jià)值可以分為現(xiàn)實(shí)價(jià)值和潛在價(jià)值。現(xiàn)實(shí)價(jià)值是電信客戶已經(jīng)和正在對(duì)運(yùn)營商的利益貢獻(xiàn)?,F(xiàn)實(shí)價(jià)值又可分為兩個(gè)部分,一部分是歷史價(jià)值,就是運(yùn)營商已經(jīng)獲得的利益貢獻(xiàn);另一部分為當(dāng)前價(jià)值,即為運(yùn)營商正在獲得的利益貢獻(xiàn)。潛在價(jià)值就是客戶在今后對(duì)運(yùn)營商的利益貢獻(xiàn)。本文主要研究當(dāng)前價(jià)值和潛在價(jià)值。4.41電信客戶的當(dāng)前價(jià)值電信客戶的當(dāng)前價(jià)值,即為電信企業(yè)在當(dāng)前能夠從電信客戶處所獲得的利益貢獻(xiàn)。這種利益貢獻(xiàn)不僅表現(xiàn)為貨幣貢獻(xiàn),還表現(xiàn)為對(duì)企業(yè)形象的塑造、品牌聲譽(yù)提高的非貨幣貢獻(xiàn)上。本文主要從彩鈴業(yè)務(wù)、來電顯示業(yè)務(wù)、當(dāng)前通訊費(fèi)、當(dāng)前服務(wù)狀態(tài)、套餐類型這些層面來分析電信客戶的當(dāng)前價(jià)值。4.42電信客戶的潛在價(jià)值對(duì)于運(yùn)營商來說,電信客戶的潛在價(jià)值關(guān)系到企業(yè)的長遠(yuǎn)利潤,如果電信客戶在未來持續(xù)使用某運(yùn)營商的某一業(yè)務(wù)或服務(wù),那么該客戶就要為此項(xiàng)業(yè)務(wù)或服務(wù)向該運(yùn)營商持續(xù)交費(fèi),這也是電信客戶價(jià)值與一般企業(yè)客戶價(jià)值的不同之處.景德鎮(zhèn)陶瓷學(xué)院理學(xué)學(xué)士論文 指標(biāo)體系權(quán)重設(shè)定第五章 指標(biāo)體系權(quán)重的設(shè)定 5.1層次分析法介紹 層次分析法(Analytical Hierarchy process,簡稱 AHP 法)是美國運(yùn)籌學(xué)專家匹茲堡大學(xué)教授 T.L.saaty 于 20 世紀(jì) 70 年代提出來的。它是一種定性與定量分析相結(jié)合的多目標(biāo)決策分析方法,適用于結(jié)構(gòu)較復(fù)雜、決策準(zhǔn)則多且不易量化的決策問題。層次分析法解決問題時(shí),首先根據(jù)問題的性質(zhì)和要達(dá)到的目的,將系統(tǒng)分解為不同的組成要素,然按要素間的相互關(guān)聯(lián)影響和隸屬關(guān)系,由高到低排成若干層次;在每一層次按某一規(guī)定規(guī)則,對(duì)該層次各要素逐對(duì)進(jìn)行比較,寫成矩陣形式,利用一定數(shù)學(xué)方法,計(jì)算該層各要素對(duì)于該準(zhǔn)則的相對(duì)重要性次序的權(quán)重以及對(duì)于總體目標(biāo)的組合權(quán)重,并進(jìn)行排序,利用排序結(jié)果,對(duì)問題進(jìn)行分析和決策。層次分析法的出現(xiàn)給決策者解決那些難以定量描述的決策問題帶來了極大的方便,從而使它的應(yīng)用涉及廣泛的科學(xué)和實(shí)際領(lǐng)域。層次分析法可以應(yīng)用于綜合國力的評(píng)估,市場和產(chǎn)品的定位描述,員工績效的考評(píng)以及農(nóng)業(yè),林業(yè)生產(chǎn)活動(dòng)等等。 目前層次分析法已經(jīng)較多地用于評(píng)標(biāo)的過程當(dāng)中。這是因?yàn)?,面?duì)大量的投標(biāo)文件,對(duì)其進(jìn)行評(píng)議和比較、選擇或推薦中標(biāo)人,并不完全是憑借投標(biāo)報(bào)價(jià)這唯一的經(jīng)濟(jì)指標(biāo),而要同時(shí)考慮質(zhì)量、工期、企業(yè)信譽(yù)和實(shí)力等因素。對(duì)這些問題的評(píng)價(jià)往往難以定量化、規(guī)范化和條理化,最后決策只能是定性地、綜合地加以判斷。為了避免評(píng)標(biāo)定標(biāo)過程主觀隨意性,盡可能地對(duì)評(píng)標(biāo)定標(biāo)加以半結(jié)構(gòu)化,以提高其科學(xué)性和準(zhǔn)確性,采用層次分析法就成為了較好的一種選擇。由于客戶的多樣性,客戶感知和行為各指標(biāo)屬性的復(fù)雜多變性,客戶價(jià)值評(píng)估很難做到定量衡量,因此這里我們采用層次分析法,定性與定量結(jié)合,把層次分析法應(yīng)用到核心客戶的識(shí)別工作中。5.2層次分析法的步驟 1、建立多層次的指標(biāo)體系 根據(jù)對(duì)問題的分析,在弄清問題范圍,明確問題所含因素及其相關(guān)關(guān)系的基礎(chǔ)上,將問題所包含的因素,按照是否具有某些共性進(jìn)行分組,并把它們之間的共性看成是系統(tǒng)中新層次的一個(gè)因素,而這類因素本身可按另一組特性組合起來。形成更高層次的因素,直到最后形成單一的最高層次的因素。這樣就構(gòu)成了由最高層、若干中間層和最低層組成的層次結(jié)構(gòu)模型。 2、通過相互比較確定各準(zhǔn)則對(duì)于目標(biāo)的權(quán)重,及各方案對(duì)于每一準(zhǔn)則的權(quán)重,這些權(quán)重在人的思維 過程中通常是定性的,而在層次分析法中則要給出得到權(quán)重的定量方法。3、將方案層對(duì)準(zhǔn)則層的權(quán)重及準(zhǔn)則層對(duì)于目標(biāo)層的權(quán)重進(jìn)行綜合,最終確定方案層對(duì)目標(biāo)層的權(quán)重。在層次分析法中要給出綜合的計(jì)算方法。層次分析法將定性分析與定量計(jì)算結(jié)合起來完成上述步驟,給出決策結(jié)果。下面我們來說明如何比較同一層各因素對(duì)上層因素的影響,從而確定它們在上層因素中占的權(quán)重。 Figure 1:model analysis客戶價(jià)值V客戶當(dāng)前價(jià)值X客戶潛在價(jià)值Y彩鈴業(yè)務(wù)X1來電顯示業(yè)務(wù)X2當(dāng)前通訊費(fèi)X3當(dāng)前服務(wù)狀態(tài)X4套餐類型X5客戶類型Y1已開通時(shí)間Y2欠費(fèi)狀況Y35.3成對(duì)比較矩陣的建立5.31 比較尺度 當(dāng)比較兩個(gè)可能具有不同性質(zhì)的因素與對(duì)于客戶當(dāng)前價(jià)值的影響時(shí),Saaty等人提出1-9尺度,即的取值范圍是1,2,9以及相反數(shù)1,1/2,1/9.(具體見下表1)尺度含義135792,4,6,81,1/2,1/9與的影響相同比的影響稍強(qiáng)比的影響強(qiáng)比的影響明顯的強(qiáng)比的影響絕對(duì)的強(qiáng)與的影響之比在上述兩個(gè)相鄰等級(jí)之間與的影響之比為上面的互反數(shù)5.32 對(duì)比較矩陣對(duì)比較矩陣可用 A=,, 表示,由于的特點(diǎn),A稱為正互反矩陣,顯然有=1,用X1,X2,X3,X4,X5依次表示彩鈴業(yè)務(wù)、來電顯示業(yè)務(wù)、當(dāng)前通訊費(fèi)、當(dāng)前服務(wù)狀態(tài)、套餐類型5個(gè)準(zhǔn)則,用Y1,Y2,Y3依次代表客戶類型、已開通時(shí)間、欠費(fèi)狀況3個(gè)準(zhǔn)則,采用成對(duì)比較發(fā)(即次對(duì)比)得到X的判斷矩陣和Y的判斷矩陣。 5.4一致性檢驗(yàn) 5.41 一致性檢驗(yàn)的概念由于建立判斷矩陣是兩兩相比較得出的,因此,就有前后給定的優(yōu)先數(shù)是否一致的問題。在理想情況下,判斷矩陣的特征根是,n 是矩陣的行數(shù)。當(dāng)時(shí)A是一致陣。稱為一致性指標(biāo)。 。(5.1)=0時(shí),A為一致陣。越大A的不一致性越嚴(yán)重。在考慮誤差的前提下,為確定A的不一致程度的容許范圍, 找出衡量A的不一致性指標(biāo)的標(biāo)準(zhǔn)。Satty引入隨機(jī)一致性指標(biāo)(參考數(shù)值見下表2)n1 2 3 4 5 6 7 8 9 10 11RI0 0 0.58 0.90 1.12 1.24 1.32 1.41 1.45 1.49 1.51注:表中n=1,2時(shí),=0,因?yàn)?,2階的正互反陣總是一致陣。對(duì)于n=3的成對(duì)比較陣A,將它的一致性指標(biāo)與同階的隨機(jī)一致性指標(biāo)之比稱為一致性比率,當(dāng) 。(5.2)時(shí)認(rèn)為A的不一致程度在容許范圍之內(nèi),可用其特征值向量作為權(quán)向量。(5.2)式中0.1的選取帶有一定主觀信度的。對(duì)于A 利用(1)(2)和表2進(jìn)行檢驗(yàn)稱為一致性檢驗(yàn)。當(dāng)檢驗(yàn)不通過時(shí),要重新進(jìn)行成對(duì)比較,或?qū)σ延械腁 進(jìn)行修正。3.42模型計(jì)算矩陣X的最大特征值,采用(1)式即可驗(yàn)證一致性檢驗(yàn)通過。矩陣Y 的最大特征值,同樣可采用(1)式驗(yàn)得一致性檢驗(yàn)通過。5.5 評(píng)價(jià)體系指標(biāo)權(quán)重的確定 以上我們講述了層次分析法的標(biāo)準(zhǔn)以及定義和步驟。層次分析法是一種量化的方法,有效的處理那些難以解析為數(shù)學(xué)模型的問題或難以完全用定量分析方法來分析的復(fù)雜問題。其基本原理:根據(jù)系統(tǒng)的具體性質(zhì)和目標(biāo)要求,首先建立一個(gè)關(guān)于系統(tǒng)屬性的各因素多級(jí)遞階結(jié)構(gòu);按照專業(yè)評(píng)比準(zhǔn)則(這些專業(yè)主要由市場經(jīng)理、業(yè)務(wù)主管),對(duì)每一層次上的因素進(jìn)行逐對(duì)比較,得到其關(guān)于上一層次因素重要性比較的標(biāo)度,建立一個(gè)相關(guān)的判斷矩陣;而通過計(jì)算判斷矩陣的特征值和特征向量,得到各個(gè)層次因素關(guān)于上一層次因素的相對(duì)權(quán)重(層次上的單排序權(quán)值),并可自上而下地利用上一層次各個(gè)因素的相對(duì)權(quán)重加權(quán)求和,求出各層次因素關(guān)于系統(tǒng)整體屬性(總體目標(biāo))的綜合重要度(層次總排序權(quán)值);最后通過排序結(jié)果分析,解決實(shí)際問題。我們運(yùn)用MATLAB對(duì)客戶價(jià)值評(píng)價(jià)模型中的指標(biāo)進(jìn)行量化處理,確定評(píng)價(jià)體系指標(biāo)的權(quán)重。其中判斷矩陣的使用標(biāo)度為 e0.5e8/5。輸出結(jié)果如下圖所示所求對(duì)應(yīng)的特征值矩陣與特征向量矩陣,與, 通過MATLAB程序?qū)11與Y11單位化,可得下列綜上所得客戶價(jià)值權(quán)重當(dāng)前價(jià)值0.3333潛在價(jià)值0.6667X1,X2,X3,X4,X5對(duì)當(dāng)前價(jià)值的權(quán)重項(xiàng)目權(quán)重X10.0833X20.0833X30,5000X40.1667X50.1667Y1,Y2,Y3對(duì)于潛在價(jià)值的權(quán)重項(xiàng)目權(quán)重Y10.2222Y20.1111Y30.6667綜合比較各項(xiàng)對(duì)總價(jià)值的權(quán)重項(xiàng)目總價(jià)值權(quán)重X10.0278X20.0278X30.0328X40.0328X50.0328Y10.1481Y20.0741Y30.4445景德鎮(zhèn)陶瓷學(xué)院理學(xué)學(xué)士論文 KNN分類算法第六章 KNN分類算法6.1 KNN算法簡介 KNN算法是數(shù)據(jù)挖掘分類算法中比較常見的一種方法。KNN是基于統(tǒng)計(jì)的分類方法,是根據(jù)測試樣本在特征空間中的K個(gè)近鄰樣本的類別來進(jìn)行分類。其基本方法如下: 所有的例子都市N維空間,一般每個(gè)例子都被表示為特征向量,這里表示例子的第個(gè)屬性值。那么兩個(gè)例子和之間的相似度量一般采用歐式距離:(6.1)判斷近鄰就是使用歐式距離測試兩個(gè)例子之間的距離,距離值越小表明相似性越大,反之表明相似性越小。6.2 KNN算法的弊端但是實(shí)際應(yīng)用KNN方法時(shí)有兩個(gè)困難。首先,雖然從訓(xùn)練數(shù)據(jù)中估計(jì)參數(shù)不需要時(shí)間,但在大訓(xùn)練及中尋找最近鄰的時(shí)間可能非常長,已經(jīng)實(shí)現(xiàn)許多想法去克服這個(gè)困難。主要包括降維技術(shù)(如主成分分析)來減少維數(shù),從而減少計(jì)算距離所用的時(shí)間;l利用復(fù)雜的數(shù)據(jù)結(jié)構(gòu)(如搜索樹)來加快最近鄰的確定速度;這個(gè)方法經(jīng)常通過設(shè)定幾乎最近鄰的目標(biāo)來提高搜索速度;編輯訓(xùn)練數(shù)據(jù),刪除訓(xùn)練集中的冗余和“幾乎冗余”的點(diǎn),從而加快最近鄰的搜索速度。其次,訓(xùn)練數(shù)據(jù)集所需的觀測數(shù)目隨著維數(shù)p的增長以指數(shù)方式增長。這是因?yàn)槌怯?xùn)練數(shù)據(jù)集得大小隨著p的增長以指數(shù)方式增長,否則到最近鄰的距離隨著p急劇上升。這種現(xiàn)象被稱為維災(zāi)害,如果在訓(xùn)練數(shù)據(jù)中的自變量均勻地分布在p維單位超立方體中,那么一個(gè)點(diǎn)落在中心0.5單位的概率為:對(duì)于所有分類、預(yù)測和聚類方法而言,維災(zāi)難都是一個(gè)主要問題。這就是為什么我們經(jīng)常通過注入為模型選擇預(yù)測變量的子集或采用主成分分析、奇異值分解和因子分析等方法來組合它們,努力尋找減少預(yù)測變量空間維數(shù)的方法的原因。在數(shù)據(jù)挖掘的文獻(xiàn)中,降維通常指因子的選擇。6.3 屬性加權(quán)對(duì)KNN算法的改進(jìn)傳統(tǒng)的KNN算法選擇相似性度量會(huì)引起誤導(dǎo),這種由于屬性不相關(guān)導(dǎo)致的分類偏差稱為維數(shù)陷阱。KNN算法對(duì)維數(shù)陷阱是非常敏感的,所以KNN是一種弱分類器。例如,一個(gè)待分類的樣本有20個(gè)屬性,但其中只有兩個(gè)屬性對(duì)分類最相關(guān),這兩個(gè)屬性具有相債以值的樣本在20維屬性空間中卻很可能距離最遠(yuǎn),此時(shí)由20維屬性等同作用的相似度就干擾了分類結(jié)果。為解決此問題,我們?yōu)槊總€(gè)屬性加一個(gè)特征權(quán)值,讓不同的屬性在分類中的影響力不同。從歐式空間上來說就是拉長相關(guān)屬性對(duì)應(yīng)的軸,縮短無關(guān)屬性對(duì)應(yīng)的軸。 學(xué)習(xí)權(quán)值的方法,改進(jìn)了距離計(jì)算公式:(6.2)W代表特征值向量。景德鎮(zhèn)陶瓷學(xué)院理學(xué)學(xué)士論文 結(jié)果和展望第七章 結(jié)果和展望1.結(jié)果假設(shè)聚類中心為編號(hào)為290、28、246、242、282五個(gè)中心。添加變量為queryMatrix=118.44 33.31 15210當(dāng)k=1時(shí)neighborIds =1,neighborDistances = 0.0278,劃分在第一類;當(dāng)k=2時(shí)neighborIds =1 ,159,neighborDistances = 0.0278,0.0819,且1和159都在第一類中,劃分在第一類。當(dāng)k=3時(shí)neighborIds = 1,159,48,neighborDistances =0.0278 ,0.0819 ,0.1401,三個(gè)數(shù)據(jù)都在第一類中,劃分在第一類。當(dāng)k=4時(shí),neighborIds = 1 ,159 ,48 ,122,neighborDistances = 0.0278,0.0819, 0.1401 ,0.1462;劃分在第一類當(dāng)k=5時(shí),neighborIds = 1 ,159,48,122 ,96 neighborDistances = 0.0278,0.0819, 0.1401,0.1462,0.1485.劃分在第一類2、展望首先在聚類的過程中有一定的認(rèn)為因素,可能會(huì)影響試驗(yàn)結(jié)果,這是不可避免的,但可以通過不斷的試驗(yàn)來減小誤差。其次整個(gè)過程計(jì)算量較大,人為因素較多。在今后的學(xué)習(xí)中,應(yīng)加以修改。分類算法的研究是一個(gè)十分活躍的研究領(lǐng)域。本文所研究和實(shí)現(xiàn)的KNN算法是目前分類算法中比較常用的算法。盡管我本人的所做的工作取得了一些有意義的成果,但因?yàn)閭€(gè)人知識(shí)所限制,未能對(duì)算法作出較大的改進(jìn),也因?yàn)橥ㄟ^本次的對(duì)該算法的實(shí)現(xiàn)和研究,讓我知道這種算法在目前這個(gè)研究領(lǐng)域中還不是最優(yōu)的分類方法。我想,要想完善本文中的方法,本人還要付出更多地努力,力求通過改進(jìn)各種對(duì)算法有影響的因子來達(dá)到更好的分類效果。景德鎮(zhèn)陶瓷學(xué)院理學(xué)學(xué)士論文 結(jié)束語第八章 結(jié)束語通過對(duì)本次論文的設(shè)計(jì),我獲益非淺。首先使我增強(qiáng)了數(shù)據(jù)挖掘中分類挖掘的理論知識(shí)以及Matlab語言編程,并且做到了活學(xué)活用。其次使我對(duì)論文的整體制作過程有了較清晰的認(rèn)識(shí),從自己開始選題、搜集資料、初期制作實(shí)踐編程到編學(xué)論文,每一步都是由最初的模糊概念到具體的加深了解,在此過程中容不得任何馬虎、敷衍了事。 但是,本論文設(shè)計(jì)還存在著許多問題和不足,設(shè)計(jì)上還不夠嚴(yán)密。系統(tǒng)有部分功能仍存在需改進(jìn)的地方,所以在論文的內(nèi)容和展示的形式上還需要進(jìn)一步的修改、補(bǔ)充和完善。由于時(shí)間的緣故我們不能將更多的內(nèi)容做精心的設(shè)計(jì),論文在以后的學(xué)習(xí)階段還需豐富。景德鎮(zhèn)陶瓷學(xué)院理學(xué)學(xué)士論文 參考文獻(xiàn)第九章 參考文獻(xiàn)1Jiawei Han Micheline Kamber著 范明 孟小峰 譯 數(shù)據(jù)挖掘概念與技術(shù)2張?jiān)茲?龔鈴 著 數(shù)據(jù)挖掘原理與技術(shù)機(jī)械工嶪出版社3劉星毅 韋小玲 基于歐氏距離的最近鄰改進(jìn)算法 廣西科學(xué)院學(xué)報(bào)4張威編 MATLAB基礎(chǔ)與編程技術(shù) 西安電子科技大學(xué)出版社,20045
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025湖南建筑安全員-C證考試(專職安全員)題庫附答案
- 貴州大學(xué)《鋼琴合奏》2023-2024學(xué)年第一學(xué)期期末試卷
- 貴州財(cái)經(jīng)大學(xué)《社會(huì)經(jīng)濟(jì)調(diào)查與寫作》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025吉林建筑安全員-C證考試(專職安全員)題庫附答案
- 貴陽信息科技學(xué)院《韓國語聽力》2023-2024學(xué)年第一學(xué)期期末試卷
- 硅湖職業(yè)技術(shù)學(xué)院《房屋建筑學(xué)A》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025山東省建筑安全員《C證》考試題庫及答案
- 廣州幼兒師范高等??茖W(xué)?!都?jí)管理與主任工作實(shí)務(wù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025江西建筑安全員《C證》考試題庫及答案
- 廣州衛(wèi)生職業(yè)技術(shù)學(xué)院《生態(tài)環(huán)境與人類發(fā)展》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年國務(wù)院發(fā)展研究中心信息中心招聘應(yīng)屆畢業(yè)生1人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2024年公安機(jī)關(guān)理論考試題庫500道及參考答案
- 特殊情況施工的技術(shù)措施
- 大學(xué)物理(二)知到智慧樹章節(jié)測試課后答案2024年秋湖南大學(xué)
- 銀行運(yùn)營集中規(guī)劃
- 2024年托管裝修責(zé)任協(xié)議
- 國家自然科學(xué)基金申請(qǐng)書模板三篇
- (醫(yī)學(xué)課件)護(hù)理人文關(guān)懷
- 數(shù)據(jù)采集服務(wù)委托合同
- DB11T 1833-2021 建筑工程施工安全操作規(guī)程
- 信息檢索課件 第2章 文獻(xiàn)檢索方法(1)-2
評(píng)論
0/150
提交評(píng)論