R與SAS的集成在統(tǒng)計學(xué)教學(xué)中的應(yīng)用研究_第1頁
R與SAS的集成在統(tǒng)計學(xué)教學(xué)中的應(yīng)用研究_第2頁
R與SAS的集成在統(tǒng)計學(xué)教學(xué)中的應(yīng)用研究_第3頁
R與SAS的集成在統(tǒng)計學(xué)教學(xué)中的應(yīng)用研究_第4頁
R與SAS的集成在統(tǒng)計學(xué)教學(xué)中的應(yīng)用研究_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、.R 與SAS 的集成在統(tǒng)計學(xué)教學(xué)中的應(yīng)用研究 引言隨著電子計算機技術(shù)的發(fā)展,統(tǒng)計分析理論與實踐已離不開計算機,使統(tǒng)計分析在精度和效率上得到了驚人的提高。因此專門用來進行數(shù)據(jù)統(tǒng)計分析分析的統(tǒng)計分析軟件也越來越多,比如SAS,R,SPSS,EXCEL等,而SAS與R是其中最為主流的兩種。大學(xué)校園里普遍使用的統(tǒng)計分析軟件便是SAS與R,這兩種軟件給學(xué)生、老師和學(xué)校帶來極大方便的同時,也暴露了各自的不足。針對于SAS軟件,學(xué)校認為,購買正版SAS軟件的價格太高了,給學(xué)校經(jīng)費造成巨大壓力,再者軟件更新很快,意味著這種巨大的經(jīng)費投入是長期的。因此,很多學(xué)校迫于經(jīng)費的壓力,根本沒有使用正版軟件,而是使用所

2、謂破解版等盜版軟件。同時學(xué)生和老師認為,因為盜版軟件會缺失正版軟件中一些重要的應(yīng)用模塊,這就會影響學(xué)生以及老師們的學(xué)習(xí)和研究,同時盜版軟件大多數(shù)含有病毒,這也將給學(xué)校硬件和軟件設(shè)備均帶來很大的威脅,導(dǎo)致學(xué)校中的設(shè)備總是會出現(xiàn)不能正常使用的情況,這也間接地影響著老師和學(xué)生的研究學(xué)習(xí)。針對R軟件,它并非專門的統(tǒng)計分析軟件,因此在運用于統(tǒng)計分析時,并沒有SAS那么詳細的結(jié)果,以及準(zhǔn)確的驗證工具。面對學(xué)生、老師和學(xué)校反饋的這些問題的影響愈來愈深,不得不讓我們?nèi)ニ伎歼@些問題產(chǎn)生的原因及采取的對策。本文從使用者的角度出發(fā),結(jié)合大學(xué)中這兩種軟件的使用情況,分別從學(xué)生、老師和學(xué)校三個方面對這兩種軟件使用問題的

3、一些反饋進行了分析,并提出了解決這些問題的對策集成。根據(jù)SAS與R兩者各自的優(yōu)缺點,對兩者軟件進行集成,便可很大程度解決這兩種統(tǒng)計分析軟件使用中的問題。本文列舉了4種可行的集成方案,并說明了優(yōu)缺點,為以后的統(tǒng)計分析軟件的集成研究提供了一些理論依據(jù)。1 軟件特點分析SAS與R都是應(yīng)用很廣泛的統(tǒng)計分析軟件,因此這兩種軟件的種種弊端很早就已經(jīng)暴露出來了,但是為什么仍遲遲得不到解決呢?因為它們的那些問題均是源自軟件本身的特點,只要軟件本身不改變,那些問題也就無法消除。本文從學(xué)生、教師、學(xué)校等三個方面對這兩種統(tǒng)計分析軟件使用問題的反饋出發(fā)對這兩種統(tǒng)計分析軟件的特點進行研究與分析。1.1 SAS軟件的特點

4、(1)需要購買正版軟件,成本高。SAS是非開源軟件,是商業(yè)軟件,所以是需要付費的,并且價格十分昂貴。同時作為一種軟件,它的更新速度是很快的,因此版本換的很快,每一次版本的更換又需要支付費用,這就造成使用正版SAS的成本是很高的。(2)靈活方便、功能齊全。SAS的宗旨是為所有需要進行數(shù)據(jù)處理、數(shù)據(jù)分析的非計算機人員提供一種易學(xué)易用,完整可靠的軟件系統(tǒng)。操用方便:用戶把要解決的問題用SAS語言表達出來,組成SAS程序,提交SAS系統(tǒng)即可。執(zhí)行的情況和輸出結(jié)果都在屏幕上顯示出來。靈活:SAS系統(tǒng)提供很多語句及選項供用戶靈活地使用某種統(tǒng)計方法。功能齊全:SAS系統(tǒng)提供的二十多個模塊可供用戶根據(jù)實際需要

5、靈活地選擇使用。(3)編程能力強、簡潔易學(xué)。SAS語言是SAS系統(tǒng)的基礎(chǔ),是用戶與系統(tǒng)對話的工具。該語言的特點是用戶不必告訴SAS“怎樣做”,只需告訴它你要“做什么”就行了。(4)處理與分析任意組合。SAS程序的結(jié)構(gòu)由兩個基本步驟任意組合而成。DATA步用于對數(shù)據(jù)的加工處理;PROC步用于分析數(shù)據(jù)和編寫報告。(5)適用性強、應(yīng)用面廣。SAS系統(tǒng)適用于初學(xué)者或有經(jīng)驗的用戶;能滿足從事行政、管理、分析、編輯等部門人員對信息需求的用戶。SAS系統(tǒng)可用來解決自然科學(xué)和社會科學(xué)各個領(lǐng)域的各種問題。1.2 R軟件的特點(1)R 是自由軟件。也就是說,它不會向你收取任何費用,但是它的能力不會比任何同類型投入

6、成千上萬美元價值不菲的商業(yè)軟件差。從功能相似的角度來說,R 和MATLAB 最像的。(2)R是一個全面的統(tǒng)計研究平臺,提供了各式各樣的數(shù)據(jù)分析技術(shù)。幾乎任何類型的數(shù)據(jù)分析工作皆可在R中完成。并且通過R 你可以和全球一流的統(tǒng)計計算方面的專家合作討論,它是全世界統(tǒng)計學(xué)家思維的最大集中。當(dāng)你加入了R 的郵件列表,每天都會收到五六十份關(guān)于R 的資訊郵件。(3)R是一個可進行交互數(shù)據(jù)分析和探索的強大平臺。因為R是可進行交互數(shù)據(jù)的強大平臺,因此在R軟件中任意的一個分析步驟的結(jié)果均可以被輕松保存、操作,并作為進一步分析的輸入,這使得R語言的操作性極強。(4)R 和其他編程語言/數(shù)據(jù)庫之間有很好的接口。R可以

7、輕松地從各種類型的數(shù)據(jù)源導(dǎo)入數(shù)據(jù),包括本文文件、數(shù)據(jù)庫管理系統(tǒng)、統(tǒng)計軟件,乃至專門的數(shù)據(jù)倉庫。它同時可以輸出并寫入到這些系統(tǒng)中。代碼整合的時候感覺R 為你提供了一系列對象,你用其他語言只要調(diào)用這些對象就可以了。這對數(shù)據(jù)整合工作非常有用。(5)R擁有頂尖水準(zhǔn)的制圖功能。無論多么復(fù)雜的數(shù)據(jù),R都可以將它們可視化,R擁有最全面且最強大的可視化這一系列可用功能。(6)R可運行與多種平臺上,包括Windows、Unix、Linux等。因為自由開源軟件具有零成本或低廉的成本的特點,十分有利于優(yōu)質(zhì)資源的開發(fā)與共享,因此自由開源軟件在各個領(lǐng)域的應(yīng)用已成為主流趨勢。因此在操作系統(tǒng)上也將會是百花齊放,像Linux

8、這種開源操作系統(tǒng)普及率將會越來越高,這時候具備多平臺運行能力的R將具備極大的優(yōu)勢。1.3 為什么R與SAS要集成很多人在比較 R、SAS、SPSS 等統(tǒng)計軟件時,總是偏向某一種軟件而對其他軟件一味地指責(zé)。筆者認為,競爭可以帶來技術(shù)的創(chuàng)新與進步,但是任何一款軟件都不可能集所有優(yōu)點于一身,能夠包治百病,滿足所有用戶各種各樣的需求,所以軟件之間的合作對使用者而言更有意義,也是勢在必行。對于R與SAS這兩種統(tǒng)計分析軟件來說,它們有各自的優(yōu)勢,也有各自的問題,競爭促進創(chuàng)新,合作才能帶來雙贏,因此兩者的集成能融合各自的優(yōu)勢解決各自的問題,從而更能滿足使用者的各種需求。1.4 可行的R與SAS集成方案及其優(yōu)

9、缺點(1)通過 SAS/IML 在SAS里面提交R代碼。SAS/IML 9.22 推出了一個新功能:用戶可以在 IML 里面執(zhí)行 R 代碼,R 和 SAS 的數(shù)據(jù)也可以相互交換。該種集成方案的優(yōu)點有:因為R代碼本質(zhì)上是在R里運行,所以全面支持R的各種模型和函數(shù);這種集成方案支持32位或64位的Windows、Linux操作系統(tǒng);這種集成方案在數(shù)據(jù)交換、錯誤捕獲等方面表現(xiàn)不錯,并且支持SAS Format。同時該種集成方案的缺點有:需要購買 SAS/IML(9.22版本或更高版本),成本高。(2)通過 SAS Model Manager 將R模型導(dǎo)出生成的PMML文件翻譯成SAS代碼。Predi

10、ctive Model Markup Language(PMML)是由數(shù)據(jù)挖掘小組(Data Mining Group,DMG)牽頭,眾軟件廠商共同研究制定的一套用于表示模型的標(biāo)記語言,目的是為了在不同軟件產(chǎn)品之間實現(xiàn)模型的共享。這種集成方案的優(yōu)點有:可以將生成的SAS代碼快速集成到各種基于SAS開發(fā)的應(yīng)用系統(tǒng)中;可以將R模型和SAS模型進行預(yù)測性能方面的比較;可以對R模型和SAS模型進行性能監(jiān)測。同時這種集成方案的缺點有:需要購買 SAS Model Manager(12.1版本),成本高;SAS Model Manager目前也僅支持幾種常用的PMML模型。(3)通過宏 Proc_R 實現(xiàn)

11、在SAS里面提交R代碼。PROC_R 于2012年發(fā)表在 Journal of Statistical Software 上,是一位華人 WEi Xin 在美國羅氏制藥公司工作期間發(fā)表的,是使用了管道技術(shù)以批處理的方式執(zhí)行R代碼。這種集成方案的優(yōu)點有:因為R代碼本質(zhì)上是在R里運行,所以全面支持R的各種模型和函數(shù);不需要購買 SAS/IML,成本低。這種集成方案的缺點有:只支持 Windows 系統(tǒng),但是使用者如果有一定編程功底,可以將源代碼改造成Linux可用的版本;數(shù)據(jù)交換通過 csv 文件實現(xiàn),可能不支持 SAS FORMAT;這種集成方案在錯誤捕獲等方面略弱。(4)將R生成的神經(jīng)網(wǎng)絡(luò)和決策樹模型翻譯成SAS代碼。用 R 建神經(jīng)網(wǎng)絡(luò)模型,然后將模型翻譯成 SAS 語言格式的評分代碼,并在SAS 里對新數(shù)據(jù)進行預(yù)測。這種集成方案的優(yōu)點有:可以將生成的SAS代碼快速集成到各種基于SAS開發(fā)的應(yīng)用系統(tǒng)中;這種集成方案在Windows和Linux操作系統(tǒng)上都是可行的;不需要購買SAS/IML或者SAS/EM,成本低。這種集成方案的缺點有:這種集成方案目前只支持神經(jīng)網(wǎng)絡(luò)和決策樹模型,應(yīng)用范圍相對較窄;這種集成方案是無法處理自變量取值缺失的情況。2 結(jié)論本文從學(xué)生、老師和學(xué)校三個方面對SAS與R兩種統(tǒng)計分析軟件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論