版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
R語言課程學(xué)習(xí)報(bào)告--基于R語言的辨別分析摘要R是用于統(tǒng)計(jì)分析、繪圖的語言和操作環(huán)境。R是屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開放的軟件,它是一個(gè)用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀工具。R語言的核心是解釋計(jì)算機(jī)語言,其允許分支和循環(huán)以及使用函數(shù)的模塊化編程。R語言允許與以C,C++,.Net,Python或FORTRAN語言編寫的過程集成以提高效率。辨別分析(discriminatanalysis)要解決的問題是在一些已知研究對象已經(jīng)用某種方法分成若干類的情況下,確定新的樣品屬于已知類別中的哪一類。在模式識(shí)別領(lǐng)域中有非常廣泛的應(yīng)用。辨別分析在處理問題時(shí),通常要給出一個(gè)衡量新樣品與各已知類別接近程度的描述統(tǒng)計(jì)模型,即辨別函數(shù),同時(shí)也需要指定一種辨別規(guī)則,以判斷新樣品的歸屬。辨別規(guī)則可以是確定性的也可以是統(tǒng)計(jì)性的分別對應(yīng)Fisher辨別和Bayes辨別。關(guān)鍵詞:R語言數(shù)據(jù)辨別分析
目錄TOC\o"1-3"\h\u24962引言 713564一、數(shù)據(jù)來源 726161(一)線性辨別 728501(二)距離辨別 824206二、分析目的 83620三、數(shù)據(jù)分析 928690(一)線性辨別數(shù)據(jù)分析 918806(二)距離辨別數(shù)據(jù)分析 126280結(jié)論 1631141展望 162495參考文獻(xiàn) 17
引言R是一個(gè)完整的軟件處理,計(jì)算和繪圖軟件系統(tǒng)。其功能包括:數(shù)據(jù)存儲(chǔ)和處理系統(tǒng);數(shù)組計(jì)算工具(在向量和矩陣運(yùn)算方面尤其強(qiáng)大);完整一致的統(tǒng)計(jì)分析工具;出色的統(tǒng)計(jì)繪圖功能;簡單而強(qiáng)大的編程語言:可操縱的數(shù)據(jù)輸入和輸出,可以實(shí)現(xiàn)分支,循環(huán),用戶自定義的功能。R的另一個(gè)優(yōu)點(diǎn)是繪圖功能。圖紙具有印刷質(zhì)量,還可以添加數(shù)學(xué)符號(hào)。判別分析又稱“解決方法”,是一種多元統(tǒng)計(jì)分析方法,在分類和確定的條件下,根據(jù)某個(gè)研究對象的各種特征值來區(qū)分其類型屬性問題。區(qū)分分析的常用方法包括距離判別,貝葉斯判別和Fisher判別。本文從線性判別Fisher線性判別函數(shù)和距離相關(guān)Mahalanobis距離研究了研究對象。一、數(shù)據(jù)來源(一)線性辨別最早由fisher(1936)提出,用于花卉分類上,將花卉的各種特征(如花瓣長與寬,花萼長與寬等)利用線性組合方法變成單變量值,再以單值比較方法來辨別事物間的差別?;舅枷胧恰蓖队啊?,即高緯度空間的點(diǎn)向低緯度空間投影,從而簡化問題的處理。以兩種類型的識(shí)別為例。今天和昨天的溫差x1和x2是預(yù)測明天下雨還是下雨的兩個(gè)重要因素,實(shí)驗(yàn)記錄如下表格,試問,今天測得x1=8.1,x2=2.0,明天應(yīng)該預(yù)報(bào)下雨還是晴天?觀察值如下所示。圖1.1(二)距離辨別馬氏距離的計(jì)算是建立在總體樣本的基礎(chǔ)上的,這一點(diǎn)可以從上述協(xié)方差矩陣的解釋中可以得出,也就是說,如果拿同樣的兩個(gè)樣本,放入兩個(gè)不同的總體中,最后計(jì)算得出的兩個(gè)樣本間的馬氏距離通常是不相同的,除非這兩個(gè)總體的協(xié)方差矩陣碰巧相同。常用的距離有歐式距離、馬氏距離、曼哈頓距離等。距離辨別的基本思想是,根據(jù)已知分類的數(shù)據(jù),分別計(jì)算各類的重心,即各組的均值。距離辨別的準(zhǔn)則是:對任給的一次觀測,若它與第i類的重心距離最近,就認(rèn)為它來自第i類。通常采用馬氏距離進(jìn)行辨別。下面就對馬氏距離進(jìn)行分析。從市場上隨機(jī)抽取了20中牌子的電視機(jī)進(jìn)行調(diào)查。按照電視機(jī)的質(zhì)量評分、功能評分、銷售價(jià)格以及銷售情況(共兩種,暢銷和滯銷)進(jìn)行如下統(tǒng)計(jì)?,F(xiàn)有一新廠商來推銷其產(chǎn)品,質(zhì)量評分8.0,功能評分7.5,售價(jià)65百元。該廠商的場景如何,下圖對此作出總結(jié)評分。圖1.2電視機(jī)質(zhì)量、功能、銷售評分二、分析目的Fisher線性判別函數(shù)是研究這類判別函數(shù)中最有影響的方法之一。對線性判別函數(shù)的研究就是從R.A.Fisher在1936年發(fā)表的論文開始的。在R語言中利用WeDiBaDis包可以實(shí)現(xiàn)加權(quán)馬氏距離辨別分析。馬氏距離它是計(jì)算兩個(gè)未知樣本集的相似性的有效方法。它不受尺寸的影響,兩點(diǎn)之間的馬哈拉諾比斯距離與原始數(shù)據(jù)的測量單位無關(guān);在歸一化數(shù)據(jù)和集中數(shù)據(jù)計(jì)算的兩個(gè)點(diǎn)之間計(jì)算馬爾可夫(即,原始數(shù)據(jù)和平均值之間的差異)來自相同馬哈拉諾比斯距離的距離也可以排除變量之間的干擾。通過上述情況,可以預(yù)測電視的天氣和未來前景。三、數(shù)據(jù)分析(一)線性辨別數(shù)據(jù)分析R語言中進(jìn)行線性判別得函數(shù)為lda(),形式如下:lda(formula,data,……)formula和上次明明同學(xué)介紹的回歸分析中的形式一樣。data為數(shù)據(jù)框。1.首先把數(shù)據(jù)加載到R語言中,然后畫出數(shù)據(jù)散點(diǎn)圖,初步觀察數(shù)據(jù)分布圖3.1.12.建立判別函數(shù)圖3.2.13.用訓(xùn)練的判別函數(shù)對源數(shù)據(jù)進(jìn)行檢測圖3.3.1由結(jié)果可知,兩類中分別有一個(gè)判別錯(cuò)誤,判對的共有18對。判對率為18/20=90%。構(gòu)造混淆矩陣,求出判對率圖3.4.1由這個(gè)結(jié)果也可以看出,判對率為90%。求出的判別函數(shù)為y=-0.1035x1+0.2248x2。從圖中可以看出,1,2兩類中各有一個(gè)錯(cuò)誤點(diǎn)。圖3.4.2對新數(shù)據(jù)進(jìn)行預(yù)測圖3.5.1由結(jié)果可以看出,當(dāng)x1=8.1,x2=2.0時(shí),明天天氣分類為1,即明天天氣為下雨。把新點(diǎn)添加到圖層,查看可視化效果,圖中箭頭指向的黑色點(diǎn)就是新點(diǎn)。也可以看出,該點(diǎn)落在有雨的類別中。圖3.5.2(二)距離辨別數(shù)據(jù)分析1.載入數(shù)據(jù)分析數(shù)據(jù)呈現(xiàn)方式圖3.2.1圖3.2.2圖3.2.3圖3.2.42.導(dǎo)入WeDiBaDis包,建立馬氏距離模型使用WDBdisc()函數(shù)建立模型。WDBdisc函數(shù)結(jié)構(gòu)為:WDBdisc(data,datatype,classcol,new.ind,distance,type,method)Data:一個(gè)訓(xùn)練數(shù)據(jù)矩陣或者訓(xùn)練數(shù)據(jù)距離矩陣。Datatype:如果數(shù)據(jù)是數(shù)據(jù)矩陣,則datatype=“m”,如果數(shù)據(jù)是距離矩陣,則datatype=“d”。Classcol:分類變量所在的列,默認(rèn)為第一列。new.ind:為測試數(shù)據(jù),可選參數(shù),如果需要測試新數(shù)據(jù)的話需要加上。distance:辨別分析采用的距離方法。默認(rèn)為歐式距離??蛇x“correlation”,“Bhattacharyya”,“Gower”,“Mahalanobis”,“BrayCurtis”,“Orloci”,“Hellinger”or“Prevosti”。type:如果距離為“Gower“距離,則需要該參數(shù)。該參數(shù)是一個(gè)列表。Method:辨別分析采用的方法,為"DB"或者"WDB",默認(rèn)為"WDB"。圖3.2.1由此可見訓(xùn)練結(jié)果可知,類別1有兩個(gè)判錯(cuò)的,類別2有一個(gè)判錯(cuò)的,判對率為85%。3.新數(shù)據(jù)代入模型,判斷新類別的分類結(jié)論綜上數(shù)據(jù)分析預(yù)測結(jié)果可知,明天天氣85%幾率會(huì)下雨;在手機(jī)廠商中新類別所屬分類為1,即新廠商推廣的產(chǎn)品為暢銷,新廠商前景比較樂觀。展望R語言的發(fā)展在國際和國內(nèi)發(fā)展上有很大差異。世界上的R語言已經(jīng)成為專業(yè)數(shù)據(jù)分析領(lǐng)域的標(biāo)準(zhǔn),但在中國還有很長的路要走。這就是數(shù)據(jù)狀態(tài)不高,版權(quán)概念薄弱的原因。而學(xué)術(shù)領(lǐng)域相對封閉的原因也不容忽視。從R語言的發(fā)展歷史來看,R主要是由統(tǒng)計(jì)學(xué)家開發(fā)的一種語言來解決數(shù)據(jù)分析領(lǐng)域的問題,因此R具有一些獨(dú)特的優(yōu)勢。雖然R語言有許多優(yōu)點(diǎn),但它并不是靈丹妙藥,畢竟它是一種統(tǒng)計(jì)編程語言。由于其算法架構(gòu)的多功能性及其速度性能,其初始設(shè)計(jì)完全基于單線程和純內(nèi)存計(jì)算。盡管R的使用通常是不相關(guān)的,但在當(dāng)今的大數(shù)據(jù)條件下,這兩種設(shè)計(jì)思想的缺點(diǎn)正變得越來越耀眼。
參考文獻(xiàn)[1]史原,劉瑞杰.基于馬氏距離辨別法的腦電圖數(shù)據(jù)分析的研究[J].價(jià)值工程,2015(12):240-242.[2]丁濤,丁浩,朱世根.加權(quán)距離辨別分析及其在模式識(shí)別中的應(yīng)用[J].組合機(jī)床與自動(dòng)化加工技術(shù),2013(8):51-54.[3]王鳴,易武,鄧永煌,etal.基于多總體辨別分析的滑坡穩(wěn)定性辨別模型及其應(yīng)用[J].水電能源科學(xué),2015(5):138-140.[4]姜喜春.數(shù)據(jù)挖掘中的距離辨別分析法[J].科技資訊,2015(27):155-156.[5]黃利文.改進(jìn)的距離辨別分析法[J].服裝學(xué)報(bào),2011,10(6):745-748.[6]張凱軍a,AKJ,ALX.馬氏距離多核支持向量機(jī)學(xué)習(xí)模型[J].計(jì)算機(jī)工程,2014,40(6):219-225.[7]吳香華,牛生杰,吳誠鷗,etal.馬氏距離聚類分析中協(xié)方差矩陣估算的改
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版木材采購合同與木材質(zhì)量保證協(xié)議4篇
- 2025八年級上學(xué)期期末歷史試卷
- 2025年度二零二五年度智能交通管理系統(tǒng)設(shè)計(jì)與實(shí)施合同4篇
- 二零二五年度木制品表面處理合同樣本4篇
- 2025版學(xué)校教室租賃合同示范文本2篇
- 2025年度個(gè)人毛坯房租賃與租金支付方式合同4篇
- 公共基礎(chǔ)-2020年試驗(yàn)檢驗(yàn)師助理《公共基礎(chǔ)》真題
- 寶石礦物學(xué)在寶石加工中的應(yīng)用研究考核試卷
- 2025版土地居間業(yè)務(wù)規(guī)范合同樣本(2025版)6篇
- 2025版圖書銷售代理居間服務(wù)合同模板
- 加強(qiáng)教師隊(duì)伍建設(shè)教師領(lǐng)域?qū)W習(xí)二十屆三中全會(huì)精神專題課
- 2024-2025學(xué)年人教版數(shù)學(xué)七年級上冊期末復(fù)習(xí)卷(含答案)
- 2024年決戰(zhàn)行測5000題言語理解與表達(dá)(培優(yōu)b卷)
- 四年級數(shù)學(xué)上冊人教版24秋《小學(xué)學(xué)霸單元期末標(biāo)準(zhǔn)卷》考前專項(xiàng)沖刺訓(xùn)練
- 2025年慢性阻塞性肺疾病全球創(chuàng)議GOLD指南修訂解讀課件
- (完整版)減數(shù)分裂課件
- 銀行辦公大樓物業(yè)服務(wù)投標(biāo)方案投標(biāo)文件(技術(shù)方案)
- 第01講 直線的方程(九大題型)(練習(xí))
- 飯店管理基礎(chǔ)知識(shí)(第三版)中職PPT完整全套教學(xué)課件
- 2023年重慶市中考物理A卷試卷【含答案】
- 【打印版】意大利斜體英文字帖(2022年-2023年)
評論
0/150
提交評論