![R語(yǔ)言在數(shù)據(jù)挖掘中的應(yīng)用及其算法分析_第1頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/29/62dcab49-ff68-4572-8e5b-a5d0c7c5bbed/62dcab49-ff68-4572-8e5b-a5d0c7c5bbed1.gif)
![R語(yǔ)言在數(shù)據(jù)挖掘中的應(yīng)用及其算法分析_第2頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/29/62dcab49-ff68-4572-8e5b-a5d0c7c5bbed/62dcab49-ff68-4572-8e5b-a5d0c7c5bbed2.gif)
![R語(yǔ)言在數(shù)據(jù)挖掘中的應(yīng)用及其算法分析_第3頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/29/62dcab49-ff68-4572-8e5b-a5d0c7c5bbed/62dcab49-ff68-4572-8e5b-a5d0c7c5bbed3.gif)
![R語(yǔ)言在數(shù)據(jù)挖掘中的應(yīng)用及其算法分析_第4頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/29/62dcab49-ff68-4572-8e5b-a5d0c7c5bbed/62dcab49-ff68-4572-8e5b-a5d0c7c5bbed4.gif)
![R語(yǔ)言在數(shù)據(jù)挖掘中的應(yīng)用及其算法分析_第5頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/29/62dcab49-ff68-4572-8e5b-a5d0c7c5bbed/62dcab49-ff68-4572-8e5b-a5d0c7c5bbed5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 r語(yǔ)言在數(shù)據(jù)挖掘中的應(yīng)用及其算法分析 王星摘要;開(kāi)源中的r語(yǔ)言具有很好的擴(kuò)展性,它具有可視算法及多種數(shù)據(jù)分析。該文將通過(guò)對(duì)于r語(yǔ)言中的相關(guān)算法和技術(shù)進(jìn)行分析,分析一些實(shí)際應(yīng)用案例,探討一下r語(yǔ)言中在數(shù)據(jù)挖掘中的優(yōu)勢(shì)。關(guān)鍵詞:r語(yǔ)言;數(shù)據(jù)挖掘;算法:tp311 :a :1009-3044(2017)07-0209-02現(xiàn)今很多企業(yè)都采用“用數(shù)據(jù)決策”,以及“用數(shù)據(jù)說(shuō)話”等方式對(duì)自身的企業(yè)進(jìn)行改革以及轉(zhuǎn)變發(fā)展方向。但是利用傳統(tǒng)的數(shù)據(jù)隨機(jī)抽取、或是全樣抽取等數(shù)據(jù)收集方式,具有嚴(yán)重的實(shí)效差,已經(jīng)滿足不了人們對(duì)于信息需求的實(shí)時(shí)性,而且嚴(yán)重地影響了數(shù)據(jù)
2、的準(zhǔn)確度。如何在大量的數(shù)據(jù)中收集到準(zhǔn)確度度較高的信息,是一個(gè)企業(yè)提高競(jìng)爭(zhēng)力的重要內(nèi)容。1在數(shù)據(jù)挖掘中的r語(yǔ)言技術(shù)1.1kmeans技術(shù)kmeans自定義算法編寫(xiě)流程可以看圖1,先是進(jìn)行繪制p.kmeans相關(guān)的函數(shù),之后就是對(duì)每個(gè)數(shù)據(jù)中的樣本設(shè)置相應(yīng)的id號(hào),其中mid是中心數(shù)據(jù),c.core主要就是對(duì)數(shù)據(jù)進(jìn)行集中分類。對(duì)于每個(gè)聚類的中心坐標(biāo)是用mid.core函數(shù)進(jìn)行位置計(jì)算的,通過(guò)對(duì)多個(gè)中心進(jìn)行計(jì)算,如果每次的計(jì)算結(jié)果都是相同的,那么就停止進(jìn)行函數(shù)循環(huán)計(jì)算。否則就要繼續(xù)進(jìn)行計(jì)算,指導(dǎo)每個(gè)中線點(diǎn)值都是相同的。1.2igraph技術(shù)igraph常用于電商平臺(tái)和社交網(wǎng)站等平臺(tái),它主要是將每個(gè)站點(diǎn)
3、的圖片等相關(guān)信息進(jìn)行分析,然后獲得具有價(jià)值的數(shù)據(jù)決策。它是經(jīng)過(guò)對(duì)結(jié)點(diǎn)和線段進(jìn)行圖片構(gòu)建,然后給予兩者進(jìn)行賦值:比如對(duì)于線段的無(wú)方向權(quán)重,或是有向權(quán)重是多少。而且igraph自身就具備多種圖片建設(shè)策略。比如圖1中的“隨機(jī)算法”可以將隨意兩點(diǎn)進(jìn)行連線,構(gòu)成圖片,對(duì)于圖片的生成也可以利用數(shù)據(jù)中“最小生成樹(shù)算法”,這樣可以構(gòu)成最小連線權(quán)重。其中將兩個(gè)結(jié)點(diǎn)的連線穿透到第三個(gè)結(jié)點(diǎn)可以使用“穿插算法”,對(duì)于那種帶方向的圖片,想要對(duì)兩個(gè)結(jié)點(diǎn)進(jìn)行連通就需要m指向n的必要條件作為支持,對(duì)于無(wú)方向的圖片,只有m與n是相互指向的才能稱為是連通的。在對(duì)圖片進(jìn)行創(chuàng)建是經(jīng)常使用的就是“最短路徑算法”,如果圖片中出現(xiàn)負(fù)數(shù)的權(quán)
4、重值,那么就要使用bellman-ford這種算法,如果圖片中出現(xiàn)相同的權(quán)重值,或是值都是正數(shù)的話,就要用到dijkstra這個(gè)算法。對(duì)大量的圖片進(jìn)行連線和結(jié)點(diǎn)處理,然后通過(guò)處理就可以得到所有圖片包含的信息。比如,一些圖片相關(guān)的連線與結(jié)點(diǎn)數(shù)量、圖片中結(jié)點(diǎn)之間的距離、圖片對(duì)稱程度、圖片的每個(gè)結(jié)點(diǎn)是否是孤立的、每個(gè)圖片相關(guān)結(jié)點(diǎn)分布等信息,都可以成為根據(jù)圖片特征進(jìn)行分類統(tǒng)計(jì)的依據(jù),比如對(duì)圖片中的結(jié)點(diǎn)密集度,以及方向分布特征進(jìn)行分析,找出圖片之間的關(guān)聯(lián)性等。1.3holt-winters技術(shù)holt-winters是一種基于時(shí)間序列指數(shù),屬于數(shù)據(jù)挖掘中的平常算法,它是指在某個(gè)時(shí)間段形成的趨勢(shì)數(shù)據(jù),比如
5、是數(shù)據(jù)的上升、保持以及下降等趨勢(shì),通過(guò)這些數(shù)據(jù)我們可以分析一下未來(lái)數(shù)據(jù)的發(fā)展形勢(shì)。它的主要算法是通過(guò)一次和二次指數(shù)進(jìn)行平滑算法,然后與預(yù)測(cè)未來(lái)數(shù)據(jù)的走向。有關(guān)一次指數(shù)的平滑計(jì)算遞推關(guān)系為:mx=cbi+(1-c)mx-1,公式中的c表示的是平滑參數(shù),而mx是表示x個(gè)數(shù)據(jù)中的平滑值,如果c的值接近1的話,那么計(jì)算出的數(shù)據(jù)結(jié)果就會(huì)越接近當(dāng)前值,通過(guò)兩次的指數(shù)確定,既可以對(duì)坐標(biāo)位置進(jìn)行記錄了,最后可以通過(guò)三次的指數(shù)累計(jì)對(duì)季節(jié)性數(shù)據(jù)的發(fā)展趨勢(shì)進(jìn)行保存,如果將三次數(shù)據(jù)進(jìn)行相乘,這樣所得到的數(shù)據(jù)信息就更加準(zhǔn)確了。1.4weka技術(shù)在1992年的新西蘭關(guān)于一個(gè)機(jī)器人的項(xiàng)目中發(fā)展了weka技術(shù),其中涉及很多機(jī)
6、器學(xué)習(xí)算法,還要很多圖片可視化環(huán)境編程,這為以后的編程人員學(xué)習(xí)提供了大量資源。首先,他可以通過(guò)知識(shí)流功能對(duì)相關(guān)多個(gè)數(shù)據(jù)進(jìn)行整合,其中有數(shù)據(jù)的初始化和處理、數(shù)據(jù)的關(guān)聯(lián)設(shè)置、數(shù)據(jù)的輸出和輸入、數(shù)據(jù)的回歸和分類、數(shù)據(jù)的可視化、以及數(shù)據(jù)的聚類和評(píng)估等操作,然后,就是實(shí)現(xiàn)用命令去執(zhí)行其他命令的功能。其中的數(shù)據(jù)初始化是對(duì)數(shù)據(jù)特征進(jìn)行分析的,賦予數(shù)據(jù)統(tǒng)一化的格式。其中將會(huì)用到的數(shù)據(jù)有discretize(),normalize(),他們分別是對(duì)離散型和標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行管理的。classifer是進(jìn)行數(shù)據(jù)分類的,它可以通過(guò)測(cè)試數(shù)據(jù)集、交叉校驗(yàn)、訓(xùn)練數(shù)據(jù)集等方式對(duì)數(shù)據(jù)模型進(jìn)行建設(shè),之后可以利用result lis
7、t所提供的可視化圖片檢查歷史的數(shù)據(jù)分類,然后就可以利用classifer輸出所要的分類結(jié)果,最后對(duì)結(jié)果進(jìn)行檢驗(yàn),這樣就可以看到錯(cuò)誤和正確的分類數(shù)據(jù)信息,該過(guò)程有運(yùn)用到幾個(gè)算法:決策樹(shù)算法j48()、提取源數(shù)據(jù)樣本bagging()、向量分類smoo、相鄰分類ibk()。對(duì)數(shù)據(jù)進(jìn)行聚類中相關(guān)的算法有:(1)cobweb();是構(gòu)建聚類的,它通過(guò)查找與這個(gè)聚類相適應(yīng)的數(shù)據(jù),對(duì)大型的數(shù)據(jù)庫(kù)是不適用的。(2)xmeans():屬于k均值優(yōu)化法,它主要是完成自定義類別數(shù)。(3)simplekmeans、farthesteirst():屬于均值算法。(4)dbscan():主要是對(duì)數(shù)據(jù)庫(kù)中具有噪音的每種形
8、狀進(jìn)行聚類。在數(shù)據(jù)聯(lián)系中最主要的算法是aprioh(),它是對(duì)少量數(shù)據(jù)進(jìn)行處理。predict算法在評(píng)估和預(yù)測(cè)中是通過(guò)聚類和分類結(jié)果進(jìn)行新數(shù)據(jù)預(yù)測(cè)。table()主要是對(duì)每?jī)蓚€(gè)對(duì)象實(shí)行比較,其中執(zhí)行評(píng)估和預(yù)估模型的算法是evaluate_weka_dassifler()。2r語(yǔ)言在數(shù)據(jù)挖掘中的應(yīng)用分析不管是在門(mén)戶網(wǎng)站、在線游戲網(wǎng)站、商務(wù)網(wǎng)站,還是社交網(wǎng)站,關(guān)于訪問(wèn)網(wǎng)站的人群、訪問(wèn)目的和時(shí)間、以及網(wǎng)站流量、跳出網(wǎng)站比例、網(wǎng)站投入產(chǎn)出比等都可以通過(guò)后期匯總進(jìn)行了解。這樣一來(lái)網(wǎng)站就可以為客戶進(jìn)行針對(duì)性的服務(wù),同樣也可以幫助網(wǎng)站維護(hù)人員及時(shí)發(fā)現(xiàn)問(wèn)題。將搜集到的信息進(jìn)行再一次的詳細(xì)分類。這時(shí)就可以利用a
9、nalylics進(jìn)行專門(mén)的數(shù)據(jù)分析,他可以對(duì)流量的類型(免費(fèi)或付費(fèi))和來(lái)源、推薦鏈接或是自主搜尋的流量等進(jìn)行詳細(xì)的報(bào)告,它還可以根據(jù)關(guān)鍵詞對(duì)數(shù)據(jù)進(jìn)行詳細(xì)分類報(bào)告,而且對(duì)搜索的關(guān)鍵詞頻率有著非常清晰的認(rèn)識(shí)。對(duì)不同訪問(wèn)網(wǎng)站的用戶進(jìn)行詳細(xì)分類。其中包含新用戶的增加率,以及老用戶的回訪率。同時(shí)還可以進(jìn)行自動(dòng)創(chuàng)建用戶類別,不用通過(guò)用戶的學(xué)歷、行業(yè)、年齡性別等進(jìn)行分類。類別不同的比率對(duì)于開(kāi)拓新市場(chǎng)有著很大的影響。評(píng)估網(wǎng)站的有效流量。如果在不同的時(shí)間區(qū)間里訪問(wèn)量是相同的,就需要分析流量的有效性了。有效信息就是老用戶的回訪量,以及多個(gè)用戶的新訪問(wèn)量。通過(guò)這樣的分析將會(huì)對(duì)網(wǎng)站的宣傳決策具有很大的幫助。在r語(yǔ)言中
10、有一種對(duì)質(zhì)量圖進(jìn)行控制的方法,它被稱為p控制圖,該方法主要用于具有分類的數(shù)據(jù)分析,通過(guò)“yes/no”的方式進(jìn)行判斷,比如詢問(wèn)在某時(shí)間區(qū)問(wèn)是否有老用戶、流量是否是老用戶的回訪造成當(dāng)控制圖完成后,將其表現(xiàn)的狀態(tài)對(duì)以上這些類型進(jìn)行比率判斷是否正常,如果有異常出現(xiàn)就需要找出關(guān)鍵問(wèn)題。利用該方法時(shí)要有足夠多的數(shù)據(jù)作為支撐,關(guān)鍵問(wèn)題是對(duì)于每組提供的數(shù)據(jù)記性上、下限設(shè)置。其中p圖的控制公式為:分析用戶訪問(wèn)目的。對(duì)于單一的網(wǎng)站訪問(wèn)量來(lái)說(shuō),沒(méi)有較大的參考價(jià)值,比如放量為1萬(wàn)次,既可以說(shuō)是咨詢量,也可以說(shuō)是購(gòu)買量,兩者的分析結(jié)果迥然不同。所以,也要對(duì)客戶的訪問(wèn)目的進(jìn)行分析,首先要對(duì)主要的訪問(wèn)信息進(jìn)行分析,然后就是對(duì)搜索的關(guān)鍵詞進(jìn)行分析,通過(guò)對(duì)兩者進(jìn)行結(jié)合,最后進(jìn)行網(wǎng)站開(kāi)設(shè)新服務(wù)或是改版等情況進(jìn)行合理決策。對(duì)網(wǎng)站產(chǎn)出比實(shí)施分析。產(chǎn)出比就是流量成本和產(chǎn)生價(jià)值之間的比值,通過(guò)成本的控制,提高流量使用產(chǎn)生的最大價(jià)值。3結(jié)束語(yǔ)高效的數(shù)據(jù)采
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司與文員合同范例
- 2025年度工業(yè)品市場(chǎng)調(diào)研與咨詢合同規(guī)范
- 2025年度環(huán)保設(shè)備研發(fā)與銷售合同-@-2
- 熱水器申請(qǐng)書(shū)
- 2025年度苗木育種與推廣合作合同
- 2025年中國(guó)汽車五金沖壓件市場(chǎng)調(diào)查研究及行業(yè)投資潛力預(yù)測(cè)報(bào)告
- 中國(guó)碳化硅電力設(shè)備市場(chǎng)競(jìng)爭(zhēng)格局及投資戰(zhàn)略規(guī)劃報(bào)告
- 中國(guó)線棒工作臺(tái)項(xiàng)目投資可行性研究報(bào)告
- 入部申請(qǐng)書(shū)紀(jì)檢部
- 2025年度國(guó)際貿(mào)易信用擔(dān)保書(shū)范本
- 無(wú)效宣告請(qǐng)求書(shū)與意見(jiàn)陳述書(shū)代理實(shí)務(wù)全天版-案例一
- 電子線檢驗(yàn)標(biāo)準(zhǔn)
- 建筑施工安全員理論考核試題與答案
- 人教版七年級(jí)歷史下冊(cè)教學(xué)計(jì)劃(及進(jìn)度表)
- 建筑工程節(jié)后復(fù)工自查表
- 華萊士標(biāo)準(zhǔn)化體系
- 快捷smt全自動(dòng)物料倉(cāng)儲(chǔ)方案
- keysight眼圖和抖動(dòng)噪聲基礎(chǔ)知識(shí)與測(cè)量方法
- TPU材料項(xiàng)目可行性研究報(bào)告寫(xiě)作參考范文
- 試用期考核合格證明表
- 鍋爐補(bǔ)給水陰陽(yáng)混床操作步序表
評(píng)論
0/150
提交評(píng)論