旅游大數(shù)據(jù)平臺(tái)方案_第1頁(yè)
旅游大數(shù)據(jù)平臺(tái)方案_第2頁(yè)
旅游大數(shù)據(jù)平臺(tái)方案_第3頁(yè)
旅游大數(shù)據(jù)平臺(tái)方案_第4頁(yè)
旅游大數(shù)據(jù)平臺(tái)方案_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、旅游研究院大數(shù)據(jù)挖掘與分析科研平臺(tái)建設(shè)方案背景數(shù)據(jù)挖掘和大數(shù)據(jù)分析行業(yè)背景和發(fā)展趨勢(shì)移動(dòng)互聯(lián)網(wǎng)、電子商務(wù)以及社交媒體的快速發(fā)展使得企業(yè)需要面臨的數(shù)據(jù)量成指數(shù)增長(zhǎng)。根據(jù)IDC 數(shù)字宇宙(Digital Universe) 研究報(bào)告顯示, 2020 年全球新建和復(fù)制的信息量已經(jīng)超過(guò)40ZB, 是 2015 年的 12倍 ;而中國(guó)的數(shù)據(jù)量則會(huì)在2020 年超過(guò)8ZB, 比 2015 年增長(zhǎng) 22 倍。 數(shù)據(jù)量的飛速增長(zhǎng)帶來(lái)了大數(shù)據(jù)技術(shù)和服務(wù)市場(chǎng)的繁榮發(fā)展。IDC亞太區(qū)(不含日本)最新關(guān)于大數(shù)據(jù)和分析(BDA)領(lǐng)域的市場(chǎng)研究表明,大數(shù)據(jù)技術(shù)和服務(wù)市場(chǎng)規(guī)模將會(huì)從2012年的 5.48 億美元增加到201

2、7年的 23.8 億美元,未來(lái)5 年的復(fù)合增長(zhǎng)率達(dá)到34.1%。該市場(chǎng)涵蓋了存儲(chǔ)、服務(wù)器、網(wǎng)絡(luò)、軟件以及服務(wù)市場(chǎng)。數(shù)據(jù)量的增長(zhǎng)是一種非線(xiàn)性的增長(zhǎng)速度。據(jù)IDC分析報(bào)道,最近一年來(lái),亞太區(qū)出現(xiàn)了越來(lái)越廣泛的大數(shù)據(jù)和分析領(lǐng)域的應(yīng)用案例。在中國(guó),從互聯(lián)網(wǎng)企業(yè),到電信、金融、政府這樣的傳統(tǒng)行業(yè),都開(kāi)始采用各種大數(shù)據(jù)和分析技術(shù),開(kāi)始了自己的大數(shù)據(jù)實(shí)踐之旅 ; 應(yīng)用場(chǎng)景也在逐漸拓展,從結(jié)構(gòu)化數(shù)據(jù)的分析,發(fā)展到半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的分析,尤其是社交媒體信息分析受到用戶(hù)的更多關(guān)注。用戶(hù)們開(kāi)始評(píng)估以Hadoop、 數(shù)據(jù)庫(kù)一體機(jī)以及內(nèi)存計(jì)算技術(shù)為代表的大數(shù)據(jù)相關(guān)新型技術(shù)。最新調(diào)研結(jié)果顯示,提高競(jìng)爭(zhēng)優(yōu)勢(shì),降低成本

3、以及吸引新的客戶(hù)是中國(guó)用 戶(hù)對(duì)大數(shù)據(jù)項(xiàng)目最期望的三大回報(bào)。目前現(xiàn)有的大數(shù)據(jù)項(xiàng)目主要集中在業(yè)務(wù)流程優(yōu)化以及提高客戶(hù)滿(mǎn)意度方面的應(yīng)用。IDC發(fā)現(xiàn)很多用戶(hù)希望大數(shù)據(jù)能夠?yàn)槠髽I(yè)帶來(lái)業(yè)務(wù)創(chuàng)新,并且開(kāi)始使用高級(jí)分析的解決方案以管理復(fù)雜的數(shù)據(jù)環(huán)境。過(guò)去一年中用戶(hù)對(duì)社交數(shù)據(jù)的收集和分析應(yīng)用的關(guān)注度增加明顯。未來(lái),地理位置信息分析將會(huì)增長(zhǎng)迅速,這也會(huì)推動(dòng)用戶(hù)對(duì)大數(shù)據(jù)安全和隱私管理的關(guān)注。在亞太區(qū),澳大利亞和新加坡的用戶(hù)對(duì)大數(shù)據(jù)的相關(guān)投資主要在咨詢(xún)服務(wù)方面,更關(guān)注如何根據(jù)新的最佳實(shí)踐需求設(shè)計(jì)和實(shí)施方案。中國(guó)和印度在大數(shù)據(jù)領(lǐng)域的硬件投資則非常明顯,更傾向于數(shù)據(jù)中心相關(guān)的基礎(chǔ)架構(gòu)的投資。在傳統(tǒng)的數(shù)據(jù)分析與商業(yè)數(shù)據(jù)挖掘

4、中,人們通常遵循二八原則。也就是任務(wù) 20%的用戶(hù)提供了80%的價(jià)值,因此利用優(yōu)勢(shì)資源用戶(hù)對(duì)于少數(shù)用戶(hù)的服務(wù)。隨著互聯(lián)網(wǎng)的發(fā)展,越來(lái)越多的低價(jià)值用戶(hù)進(jìn)入到商業(yè)體系中,這部分用戶(hù)成為商業(yè)企業(yè)競(jìng)爭(zhēng)的目標(biāo)。比如電商行業(yè),大量顧客都是傳統(tǒng)意義上的低價(jià)值客戶(hù),數(shù)據(jù)表明對(duì)于這部分用戶(hù)價(jià)值的挖掘可以改變二八原則,甚至可達(dá)到價(jià)值的幾乎均勻分布。并且由于計(jì)算技術(shù)的發(fā)展,對(duì)于大數(shù)據(jù)的分析也成為了可能。旅游行業(yè)開(kāi)展大數(shù)據(jù)分析及應(yīng)用的意義旅游行業(yè)有行業(yè)廣、規(guī)模大、移動(dòng)性強(qiáng)的特點(diǎn),因此更加依賴(lài)大數(shù)據(jù)。當(dāng)前,旅游業(yè)也在“新常態(tài)”下迎來(lái)了升級(jí)的挑戰(zhàn)和變革的機(jī)遇,新常態(tài)對(duì)于一般的經(jīng)濟(jì)部門(mén)是經(jīng)濟(jì)速度放慢、人均GD凡曾速減小,很

5、多傳統(tǒng)行業(yè)在調(diào)整結(jié)構(gòu),但新常態(tài)對(duì)旅游行業(yè)卻是速度加快的。旅游大數(shù)據(jù)的解決之道,在于整合國(guó)內(nèi)多途徑的大數(shù)據(jù)源,形成旅游大數(shù)據(jù)生態(tài),為國(guó)內(nèi)旅游業(yè)提供大數(shù)據(jù)解決方案,促進(jìn)旅游業(yè)的轉(zhuǎn)型升級(jí)。數(shù)據(jù)挖掘與大數(shù)據(jù)分析科研平臺(tái)建設(shè)的必要性數(shù)據(jù)挖掘與大數(shù)據(jù)分析是以計(jì)算機(jī)基礎(chǔ)為基礎(chǔ),以挖掘算法為核心,緊密面向行業(yè)應(yīng)用的一門(mén)綜合性學(xué)科。其主要技術(shù)涉及概率論與數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘、算法與數(shù)據(jù)結(jié)構(gòu)、計(jì)算機(jī)網(wǎng)絡(luò)、并行計(jì)算等多個(gè)專(zhuān)業(yè)方向,因此該學(xué)科對(duì)于科研平臺(tái)具有較高的專(zhuān)業(yè)要求??蒲衅脚_(tái)不僅要提供基礎(chǔ)的編程環(huán)境,還要提供大數(shù)據(jù)的運(yùn)算環(huán)境以及用于科學(xué)研究的實(shí)戰(zhàn)大數(shù)據(jù)案例。這些素材的準(zhǔn)備均需完整的科研平臺(tái)作為支撐。目前,在我國(guó)高

6、校的專(zhuān)業(yè)設(shè)置上與數(shù)據(jù)挖掘與大數(shù)據(jù)分析相關(guān)的學(xué)科專(zhuān)業(yè)包括:計(jì)算機(jī)科學(xué)與技術(shù)、信息管理與信息系統(tǒng)、統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)、金融、貿(mào)易、生物信息、旅游以及公共衛(wèi)生等。這些專(zhuān)業(yè)的在使用科研平臺(tái)時(shí)的側(cè)重點(diǎn)各不相同,使用人員層次水平也不相同,對(duì)算法的使用也不相同,因此,需要建設(shè)一個(gè)便利、操作簡(jiǎn)易、算法全面、可視化的大數(shù)據(jù)科研平臺(tái)是非常有必要的。數(shù)據(jù)挖掘與大數(shù)據(jù)分析科研平臺(tái)總體規(guī)劃科研平臺(tái)規(guī)劃科研平臺(tái)建設(shè)的基本原則是科研為主,同時(shí)為教學(xué)實(shí)驗(yàn)提供部分計(jì)算資源及安全資源,系統(tǒng)在授權(quán)范圍內(nèi)共享科研系統(tǒng)的計(jì)算資源,提高教學(xué)實(shí)驗(yàn)的真實(shí)性。項(xiàng)目的總體架構(gòu)如圖1 所示。圖 1. 總體架構(gòu)圖系統(tǒng)整體由千兆核心交換機(jī)作為核心節(jié)點(diǎn),并以

7、兩個(gè)千兆接入交換機(jī)作為科研與實(shí)驗(yàn)環(huán)境的交換節(jié)點(diǎn)。科研環(huán)境由我司開(kāi)發(fā)的商業(yè)Hadoop集群為基礎(chǔ),上層集成便于操作的大數(shù)據(jù)科研應(yīng)用系統(tǒng),集成10TB大數(shù)據(jù)案例集及可拖拽的數(shù)據(jù)算法和可視化算法??蒲衅脚_(tái)功能規(guī)劃本科研平臺(tái)針對(duì)數(shù)據(jù)挖掘有大數(shù)據(jù)分析研究?jī)?nèi)容,兼顧科研與教學(xué)的需求,既能滿(mǎn)足科研工作中對(duì)大數(shù)據(jù)分析高性能平臺(tái)要求也具有教學(xué)實(shí)驗(yàn)平臺(tái)簡(jiǎn)單易用的特點(diǎn)。1) 大數(shù)據(jù)資源規(guī)劃內(nèi)置商業(yè)級(jí)數(shù)據(jù)資源,按常見(jiàn)科研分類(lèi)規(guī)劃數(shù)據(jù)資源,可以直接用于科學(xué)研究,具有數(shù)據(jù)資源授權(quán)管控功能。2) 大數(shù)據(jù)分析功能規(guī)劃建設(shè)以商業(yè)版Hadoop為核心的大數(shù)據(jù)分析平臺(tái),系統(tǒng)提供MapReduce1及 Spark 等大數(shù)據(jù)挖掘功能。

8、系統(tǒng)具有完整的管理調(diào)度功能。3) 硬件資源功能規(guī)劃系統(tǒng)具有24個(gè)Intel Xeon E5 CPU 計(jì)算能力,提供超過(guò)40TB的存儲(chǔ)能力以及 1T 以上的內(nèi)存,可滿(mǎn)足1000 任務(wù)共時(shí)計(jì)算內(nèi)能,方便擴(kuò)充。數(shù)據(jù)挖掘與大數(shù)據(jù)分析科研平臺(tái)建設(shè)方案大數(shù)據(jù)科研平臺(tái)設(shè)備架構(gòu)圖 3. 設(shè)備架構(gòu) 主節(jié)點(diǎn)和備份主節(jié)點(diǎn)主節(jié)點(diǎn)負(fù)責(zé)整個(gè)分布式大數(shù)據(jù)平臺(tái)的運(yùn)行。主節(jié)點(diǎn)始終在內(nèi)存中保存整個(gè) 文件系統(tǒng)的目錄結(jié)構(gòu),每個(gè)目錄有哪些文件,每個(gè)文件有哪些分塊及每個(gè)分塊保存在哪個(gè)計(jì)算上,用于處理讀寫(xiě)請(qǐng)求。同時(shí),主節(jié)點(diǎn)還負(fù)責(zé)將作業(yè)分解成子任務(wù),并將這些子任務(wù)分配到各個(gè)計(jì)算節(jié)點(diǎn)上。備份主節(jié)點(diǎn)在主節(jié)點(diǎn)發(fā)生故障時(shí)承擔(dān)主節(jié)點(diǎn)的各種任務(wù),使得分

9、布式大數(shù)據(jù)平臺(tái)仍然能夠正常運(yùn)行。管理節(jié)點(diǎn)管理節(jié)點(diǎn)用于管理整個(gè)分布式大數(shù)據(jù)平臺(tái),可進(jìn)行節(jié)點(diǎn)安裝、配置、服務(wù)配置等,提供網(wǎng)頁(yè)窗口界面提高了系統(tǒng)配置的可見(jiàn)度,而且降低了集群參數(shù)設(shè)置的復(fù)雜度。接口節(jié)點(diǎn)終端用戶(hù)通過(guò)接口節(jié)點(diǎn)連接和使用分布式大數(shù)據(jù)平臺(tái),提交任務(wù)并獲得結(jié)果,并可以用其他數(shù)據(jù)分析工具做進(jìn)一步處理,與外界進(jìn)行數(shù)據(jù)交互(如連接關(guān)系型數(shù)據(jù)庫(kù))。計(jì)算節(jié)點(diǎn)分布式大數(shù)據(jù)平臺(tái)包含了多個(gè)計(jì)算節(jié)點(diǎn)。計(jì)算節(jié)點(diǎn)是系統(tǒng)中真正存儲(chǔ)數(shù)據(jù)和做數(shù)據(jù)運(yùn)算的節(jié)點(diǎn)。每個(gè)計(jì)算節(jié)點(diǎn)周期性地和主節(jié)點(diǎn)通信,還時(shí)不時(shí)和客戶(hù)端代碼以及其他計(jì)算節(jié)點(diǎn)通信。計(jì)算節(jié)點(diǎn)還維護(hù)一個(gè)開(kāi)放的socket服務(wù)器,讓客戶(hù)端代碼和其他計(jì)算節(jié)點(diǎn)通過(guò)它可以讀寫(xiě)數(shù)據(jù),這

10、個(gè)服務(wù)器還會(huì)匯報(bào)給主節(jié)點(diǎn)。大數(shù)據(jù)科研平臺(tái)底層架構(gòu)大數(shù)據(jù)科研平臺(tái)低層架構(gòu)以我司自主研發(fā)的商業(yè)版Hadoop為基礎(chǔ)架構(gòu), 包含和大數(shù)據(jù)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等功能模塊,并以HDFSZ及Hbase 作為存儲(chǔ)基礎(chǔ)。圖 2. 軟件架構(gòu)分布式持久化數(shù)據(jù)存儲(chǔ) HDFSHadoop分布式文件系統(tǒng)(HDFS被設(shè)計(jì)成適合運(yùn)行在通用硬件上的分布式文件系統(tǒng)。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn)。但同時(shí),它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDF幅一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上。HDFS提供高吞吐量的數(shù)據(jù)訪(fǎng)問(wèn),非常適合大 規(guī)模數(shù)據(jù)集上的應(yīng)用。HDF跋寬了一部分POSIX約束,來(lái)實(shí)現(xiàn)流式讀取文 件

11、系統(tǒng)數(shù)據(jù)的目的。分布式實(shí)時(shí)數(shù)據(jù)庫(kù) HBaseHBase是一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù),該技術(shù)來(lái)源于Fay Chang所撰寫(xiě)的 Google 論文“ Bigtable :一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)”。就像 Bigtable 利用了 Google 文件系統(tǒng)(所提供的分布式數(shù)據(jù)存儲(chǔ)一樣,HBase在Hadoop之上提供了類(lèi)似于 BigTable的能力。HBase是Apache的Hadoop項(xiàng)目的子項(xiàng)目。HBase不同于一般的關(guān)系數(shù)據(jù)庫(kù),它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。另一個(gè)不同的是HBase基于列的而不是基于行的模式。分布式資源調(diào)度管理 YARNYarn是Hadoop2.0的MapR

12、educe框架。YAR附層結(jié)構(gòu)的本質(zhì)是 ResourceManager。這個(gè)實(shí)體控制整個(gè)集群并管理應(yīng)用程序向基礎(chǔ)計(jì)算資 源的分配。ResourceManager 將各個(gè)資源部分(計(jì)算、內(nèi)存、帶寬等)精心安排給基礎(chǔ)ApplicationMaster還與 ResourceManager 的每節(jié)點(diǎn)代理)。 YARN( NodeManager一起分配資源,與NodeManager 一起啟動(dòng)和監(jiān)視它們的基礎(chǔ)應(yīng)用程序。在此上下文中,ApplicationMaster承擔(dān)了以前的TaskTracker 的一些角色, ResourceManager 承擔(dān)了 JobTracker 的角色。交互式SQLI擎Hiv

13、eHive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射 為一張數(shù)據(jù)庫(kù)表,并提供簡(jiǎn)單的SQL查詢(xún)功能,可以將SQL語(yǔ)句轉(zhuǎn)換為MapReduceg務(wù)進(jìn)行運(yùn)行。其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過(guò)類(lèi)SQL語(yǔ)句快 速實(shí)現(xiàn)簡(jiǎn)單的MapReduc期計(jì),不必開(kāi)發(fā)專(zhuān)門(mén)的 MapReduce應(yīng)用,十分適 合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。內(nèi)存計(jì)算SparkSpark是UC Berkeley AMP實(shí)驗(yàn)室所開(kāi)源的類(lèi) Hadoop MapReduce勺通用的 并行計(jì)算框架。Spark擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于 MapReduce勺是Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫(xiě)

14、 HDFS因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的 MapReduce1。科研平臺(tái)的功能科研項(xiàng)目管理在科研平臺(tái)中,科研計(jì)算是以計(jì)算項(xiàng)目來(lái)保存的,包括了計(jì)算項(xiàng)目建立、計(jì)算項(xiàng)目維護(hù)、計(jì)算項(xiàng)目設(shè)計(jì)、計(jì)算項(xiàng)目運(yùn)行和結(jié)果可視化等幾個(gè)環(huán)節(jié)。從技術(shù)角度來(lái)說(shuō),計(jì)算項(xiàng)目中也包括了算法組件、算法流程和數(shù)據(jù)集,一旦設(shè)計(jì)完后,就可用于計(jì)算,后期還可以調(diào)整算法和基于新的數(shù)據(jù)資源進(jìn)行計(jì)算。計(jì)算項(xiàng)目完成后,可以訓(xùn)練出算法模型,在新的計(jì)算項(xiàng)目中使用已經(jīng)訓(xùn)練好的模型進(jìn)行數(shù)據(jù)的預(yù)測(cè),形成一次訓(xùn)練多次使用的算法實(shí)現(xiàn)。平臺(tái)內(nèi)置數(shù)據(jù)集在科研工作中,如何獲取到海量高質(zhì)量大數(shù)據(jù)資源是最大的難點(diǎn)。目前在互聯(lián)網(wǎng)等渠道是很難找

15、到科研工作所需的數(shù)據(jù)源,尤其是經(jīng)過(guò)數(shù)據(jù)清洗和治理后的高質(zhì)量數(shù)據(jù)。數(shù)據(jù)超市平臺(tái)利用以下模式,通過(guò)外部的資源,為高校的科研工作提供優(yōu)質(zhì)數(shù)據(jù)資源:1) 通過(guò)商務(wù)合作的模式,直接與數(shù)據(jù)所有權(quán)擁有者進(jìn)行靈活的商務(wù)溝通,獲得科研的數(shù)據(jù)使用授權(quán);2)邀請(qǐng)行業(yè)內(nèi)優(yōu)質(zhì)的第三方數(shù)據(jù)服務(wù)提供商入駐數(shù)據(jù)超市平臺(tái);3)通過(guò)數(shù)據(jù)采集的方式,經(jīng)過(guò)數(shù)據(jù)尋源、采集、治理、清洗后,引入具有公開(kāi)版權(quán)的數(shù)據(jù)資源;所有引入數(shù)據(jù)都會(huì)經(jīng)過(guò)數(shù)據(jù)工程師的嚴(yán)格審核,保證數(shù)據(jù)的清潔和質(zhì)量,可以直接用于數(shù)據(jù)計(jì)算。如平臺(tái)內(nèi)置的專(zhuān)利數(shù)據(jù),包括了國(guó)內(nèi)近2000 萬(wàn)各類(lèi)商業(yè)數(shù)據(jù),并且不斷更新,可以直接用于旅游各方面的科學(xué)研究。有別區(qū)目前行業(yè)提供的數(shù)據(jù)庫(kù),數(shù)

16、據(jù)超市直接提供了原始的數(shù)據(jù),可以打通其他的行業(yè)數(shù)據(jù),用于深 層次的數(shù)據(jù)分析和經(jīng)濟(jì)預(yù)測(cè)。科研數(shù)據(jù)上傳科研老師已有的數(shù)據(jù)可以上傳到平臺(tái)參與數(shù)據(jù)計(jì)算,老師可以在平臺(tái)上建立數(shù)據(jù) 表,然后把本地?cái)?shù)據(jù)文件上傳到數(shù)據(jù)表中。也可以維護(hù)外部的JDBC數(shù)據(jù)源,平臺(tái)會(huì)把外部數(shù)據(jù)自動(dòng)抽取到平臺(tái)中進(jìn)行計(jì)算和預(yù)測(cè)。集成算法組件為了便于科研老師快速進(jìn)行科研數(shù)據(jù)的加工、分析和計(jì)算,數(shù)據(jù)超市平臺(tái)集成多種通用大數(shù)據(jù)算法組件,包括回歸算法、分類(lèi)算法、聚類(lèi)算法、關(guān)聯(lián)規(guī)劃50 了.算法、推薦算法、預(yù)測(cè)評(píng)估、數(shù)據(jù)預(yù)處理算法、機(jī)器學(xué)習(xí)等。所有的算法無(wú)須重新編程,只需要拖拽繪圖完成即可進(jìn)行計(jì)算,如下圖:算法組件經(jīng)過(guò)配置可以實(shí)現(xiàn)強(qiáng)大的自定義計(jì)

17、算功能和效果,調(diào)整后的模型可以完成老師需要的數(shù)據(jù)分析和預(yù)測(cè)??蒲衅脚_(tái)可視化功能提供20余種可視化展示模式,一鍵選擇,一鍵切換,可按使用者需求展示大數(shù)據(jù)之美,根據(jù)需要展示對(duì)應(yīng)的緯度,并可以一鍵生成高質(zhì)量PN成件,保存到本地后可用于科研報(bào)告和論文等。平臺(tái)數(shù)據(jù)集清單科研平臺(tái)為方便用戶(hù)快速開(kāi)展科學(xué)研究、生成科研數(shù)據(jù)報(bào)告,平臺(tái)提供了一些通用的數(shù)據(jù)集,包括各類(lèi)標(biāo)準(zhǔn)科研數(shù)據(jù)等。平臺(tái)也內(nèi)置了數(shù)百款可選數(shù)據(jù)集,分為多個(gè)數(shù)據(jù)包,總量近 10TB,并且隨商務(wù)和采集工作推進(jìn),仍在不斷增加中。定制數(shù)據(jù)服務(wù).根據(jù)科研老師的需求,數(shù)據(jù)超市平臺(tái)提供數(shù)據(jù)采集和商務(wù)合作等定制數(shù)據(jù) 引入模式,數(shù)據(jù)引入后,可以直接引入數(shù)據(jù)超市,由老

18、師來(lái)進(jìn)行使用。如老師需要旅游服務(wù)評(píng)價(jià)類(lèi)數(shù)據(jù)進(jìn)行服務(wù)情況的分析和預(yù)測(cè),可以直接通過(guò)數(shù)據(jù)超市內(nèi)的數(shù)據(jù)定制模塊提出數(shù)據(jù)需求,經(jīng)數(shù)據(jù)超市平臺(tái)管理員匯總后,可以通過(guò)數(shù)據(jù)超市平臺(tái)進(jìn)行數(shù)據(jù)的準(zhǔn)備,交給老師進(jìn)行使用??蒲衅脚_(tái)算法清單平臺(tái)集成的算法包括72種,全部來(lái)自科研網(wǎng)站,經(jīng)過(guò)了商業(yè)機(jī)構(gòu)的驗(yàn)證, 引入平臺(tái)后完成了分布式優(yōu)化,可以高效執(zhí)行,詳細(xì)如下表:算法描算法名算法分1回歸算線(xiàn)性回利用線(xiàn)性模型對(duì)數(shù)值型變量進(jìn)行擬合利用平方誤差最小化準(zhǔn)則,進(jìn)行特征選擇,生成 2決策樹(shù)回回歸算叉樹(shù),從而對(duì)對(duì)數(shù)值型變量進(jìn)行擬以回歸決策樹(shù)為基模型,將一定數(shù)量的基模型組隨機(jī)森林回3回歸算對(duì)數(shù)值型變量擬合,并對(duì)基模型的預(yù)測(cè)結(jié)果平均為算法

19、的最終結(jié)以二叉回歸決策樹(shù)為基函數(shù)的加法模型與前向回歸算梯度提升回歸4,通過(guò)對(duì)損失函數(shù)在當(dāng)前模型的步結(jié)合的算 測(cè)值的梯度作為近似殘差進(jìn)行擬合,從而對(duì)數(shù)值變量預(yù)測(cè)對(duì)目標(biāo)變量為二值型分類(lèi)變量,建立參數(shù)化邏輯邏輯回歸二分5分類(lèi)算法函數(shù),近似條件概率分布,以諦分布,即 sigmoid實(shí)現(xiàn)二值分類(lèi)?;貧w分類(lèi)器與個(gè)獨(dú)立的分類(lèi)算法邏輯回歸多分類(lèi) 邏輯回歸多分類(lèi),k logistic6分類(lèi)對(duì)象類(lèi)別之間不是互onevsall結(jié)合的分類(lèi)模型,斥的logistic回歸就是邏輯回歸的一般形式,是Softmax 7分類(lèi)算法Softmax回歸多分類(lèi)分類(lèi)對(duì)象類(lèi)別是回歸模型在多分類(lèi)問(wèn)題上的推廣,互斥的利用信息增益準(zhǔn)則或基尼指數(shù)

20、最小化準(zhǔn)則,進(jìn)行特 8分類(lèi)算法決策樹(shù)分類(lèi)征選擇,生成二叉樹(shù),從而對(duì)對(duì)目標(biāo)變量為離散變量的數(shù)據(jù)進(jìn)行分類(lèi)以分類(lèi)決策樹(shù)為基模型,將一定數(shù)量的基模型組合隨機(jī)森林分類(lèi) 分類(lèi)算法9對(duì)離散型的目標(biāo)變量擬合,并根據(jù)基模型的預(yù)測(cè)結(jié)果進(jìn)行投票,以占多數(shù)結(jié)果的種類(lèi)作為算法的最終結(jié)果以二叉分類(lèi)決策樹(shù)為基函數(shù)的加法模型與前向分梯度提升分類(lèi)樹(shù)分類(lèi)算法10 .步結(jié)合的算法,通過(guò)對(duì)損失函數(shù)在當(dāng)前模型的預(yù)值的梯度作為近似殘差進(jìn)行擬合,從而對(duì)分類(lèi)型標(biāo)變量預(yù)測(cè)11分類(lèi)算B神經(jīng)網(wǎng)以感知器為基函數(shù),通過(guò)將當(dāng)前基函數(shù)的的輸出為下一個(gè)感知器的輸入,從而實(shí)現(xiàn)對(duì)離散型分類(lèi)量的分12分類(lèi)算貝葉斯分基于貝葉斯定理與特征條件獨(dú)立假設(shè),對(duì)給定數(shù)集,學(xué)

21、習(xí)輸入輸出的聯(lián)合概率分布,利用貝葉斯理輸出后驗(yàn)概率最大的預(yù)測(cè)類(lèi)作為預(yù)測(cè)結(jié)13分類(lèi)算支持向量機(jī)分在感知機(jī)的基礎(chǔ)上,通過(guò)在特征空間上間隔最大核技巧,實(shí)現(xiàn)對(duì)二類(lèi)目標(biāo)變量分14聚類(lèi)算均值聚將無(wú)標(biāo)記樣本根據(jù)特征空間中的數(shù)據(jù)結(jié)構(gòu),劃個(gè)不相交的子集15聚類(lèi)算二均值聚均值聚類(lèi)的改進(jìn)版,能克服原算法收斂局部最的缺點(diǎn),每次選其中一簇分成兩簇16聚類(lèi)算高斯混合模對(duì)于符合高斯分布的數(shù)據(jù),假設(shè)存?zhèn)€高斯型,將數(shù)據(jù)反復(fù)迭代,期望極大化。將樣本聚到驗(yàn)概率最大的模型類(lèi)下17關(guān)聯(lián)規(guī)則頻繁項(xiàng)集挖掘算法FP-Growt主要分為兩個(gè)步驟FP-tre構(gòu)建遞歸挖FP-tre挖掘出共同出現(xiàn)的頻繁物品集協(xié)同過(guò)濾是在海量數(shù)據(jù)中挖掘出某部分與目標(biāo)

22、18推薦算協(xié)同過(guò)濾算戶(hù)行為類(lèi)似的數(shù)據(jù),并根據(jù)某種指標(biāo)對(duì)其進(jìn)行序19預(yù)測(cè)評(píng)分類(lèi)預(yù)測(cè)及評(píng)分類(lèi)算法中,在已有訓(xùn)練數(shù)據(jù)訓(xùn)練模型的基礎(chǔ)上將未訓(xùn)練的數(shù)據(jù)代入算法中,預(yù)測(cè)結(jié)果與實(shí)際目變量比對(duì)評(píng)估,檢測(cè)模型的性能20預(yù)測(cè)評(píng)回歸預(yù)測(cè)及評(píng)回歸算法中,在已有訓(xùn)練數(shù)據(jù)訓(xùn)練模型的基礎(chǔ)上將未訓(xùn)練的數(shù)據(jù)代入算法中,預(yù)測(cè)結(jié)果與實(shí)際目變量比對(duì)評(píng)估,檢測(cè)模型的性能21預(yù)測(cè)評(píng)聚類(lèi)預(yù)測(cè)及評(píng)聚類(lèi)算法中,在已有訓(xùn)練數(shù)據(jù)訓(xùn)練模型的基礎(chǔ)上將未訓(xùn)練的數(shù)據(jù)代入算法中,預(yù)測(cè)結(jié)果與實(shí)際數(shù)類(lèi)型比對(duì)評(píng)估,檢測(cè)模型的性能22預(yù)測(cè)評(píng)推薦評(píng)推薦算法中,在已有訓(xùn)練數(shù)據(jù)訓(xùn)練模型的基礎(chǔ)上將未訓(xùn)練的數(shù)據(jù)代入算法中,預(yù)測(cè)結(jié)果與物品類(lèi)比對(duì)評(píng)估,檢測(cè)模型的性能23數(shù)據(jù)預(yù)處

23、歸一將有量綱的數(shù)據(jù)轉(zhuǎn)化為無(wú)量綱的數(shù)據(jù)min-max準(zhǔn)24數(shù)據(jù)預(yù)處Join兩表關(guān)類(lèi)sql joi的功能,將兩張表通過(guò)一個(gè)字段對(duì)者多個(gè)字段對(duì)的相等關(guān)系關(guān)聯(lián)合成一張25數(shù)據(jù)預(yù)處類(lèi)型轉(zhuǎn)換strin類(lèi)型轉(zhuǎn)換數(shù)值類(lèi)型將不同數(shù)據(jù)的類(lèi)型按需要進(jìn)行轉(zhuǎn)對(duì)不同數(shù)據(jù)集取并Union26數(shù)據(jù)預(yù)處標(biāo)準(zhǔn)化是將數(shù)據(jù)縮放到一個(gè)區(qū)間范圍內(nèi),如正態(tài)標(biāo)準(zhǔn)正則27數(shù)據(jù)預(yù)處布,小數(shù)定標(biāo),邏輯斯諦分布。正則化是利用先知識(shí),對(duì)模型增加約束,防止過(guò)擬合。.28數(shù)據(jù)預(yù)處缺失值填對(duì)數(shù)據(jù)中某項(xiàng)數(shù)值所對(duì)應(yīng)的某些樣本缺失,通過(guò)種先驗(yàn)假設(shè),根據(jù)樣本其他已知數(shù)據(jù)項(xiàng)對(duì)缺失值合預(yù)測(cè)29數(shù)據(jù)預(yù)處拆按照比修拆分樣本集如設(shè) 0.切分60:4個(gè)樣本集30數(shù)據(jù)預(yù)處隨機(jī)采

24、當(dāng)數(shù)據(jù)量過(guò)大或模型訓(xùn)練批容量有限時(shí),隨機(jī)采一定比例的樣本集31數(shù)據(jù)預(yù)處增加序列在數(shù)據(jù)表第一列追I列數(shù)據(jù)庫(kù)查t9操作查32某限定條件下的樣數(shù)據(jù)預(yù)處Select數(shù)據(jù)庫(kù)查詢(xún)操作Select_Distinct數(shù)據(jù)預(yù)處33查詢(xún)某限定條件下并過(guò)濾掉復(fù)的樣34數(shù)據(jù)預(yù)處Select_Where數(shù)據(jù)庫(kù)查詢(xún)操作,查詢(xún)指定條件下的樣數(shù)據(jù)庫(kù)查詢(xún)操作,查詢(xún)條彳的交集與并數(shù)據(jù)預(yù)處35Select_And_Or數(shù)據(jù)庫(kù)查詢(xún)操作,查t©結(jié)果按某指標(biāo)排Select_OrderBy36數(shù)據(jù)預(yù)處數(shù)據(jù)庫(kù)查詢(xún)操作,查詢(xún)某限定段的數(shù)37Select_Limit數(shù)據(jù)預(yù)處數(shù)據(jù)庫(kù)查詢(xún)操作,查詢(xún)包含指定字段的數(shù)Select_Like38

25、數(shù)據(jù)預(yù)處數(shù)據(jù)降維去噪常用方法,對(duì)數(shù)據(jù)的協(xié)方差矩陣取39特征工主成分分個(gè)最大方差方向作為新的數(shù)據(jù)方向40特征工Oneho編用戶(hù)將特征值進(jìn)行二元編碼映射成二元向量,并數(shù)值向量進(jìn)行拼42特征工特征尺度變由于計(jì)算需要或根據(jù)數(shù)據(jù)特點(diǎn)將某特征對(duì)應(yīng)數(shù)項(xiàng)進(jìn)行縮放,不改變樣本間該數(shù)值項(xiàng)的相對(duì)大43特征工特征重要性分指根據(jù)數(shù)據(jù)集各項(xiàng)特征在算法模型中對(duì)目標(biāo)變的相對(duì)重要程度的分析,從而提出冗余特征,關(guān)重要特征,提高算法模型的效率準(zhǔn)確44特征工特征離對(duì)連續(xù)型特征按某方法轉(zhuǎn)換為離散型變分布jieb分詞接口,基 SplitWord45Tri文本分樹(shù)結(jié)構(gòu)實(shí)現(xiàn)高的詞圖掃描,生成句子中漢字所有可能成詞情況構(gòu)成的有向無(wú)環(huán)圖DAG;

26、采用了動(dòng)態(tài)規(guī)劃查最大概率路,找出基于詞頻的最大切分組合; 于未登錄詞,采用了基于漢字成詞能力 HM型,彳更用Viterb算46文本分文檔主題生成模型LDLDA(Latent Dirichlet allocation ,是一種主題模型它可以將文檔集中每篇文檔的主題按照概率分的形式給出。同時(shí)它是一種無(wú)監(jiān) 督學(xué)習(xí)算法,在練時(shí)不需要手工標(biāo)注的訓(xùn)練集,需要的僅僅是文集以及指定主題的數(shù)即可LD首先DavidM. BleAndrew . NMichael I. Jorda200年提出,目前在文本挖掘領(lǐng)域包括文本主題識(shí)別文本分類(lèi)以及文本相似度計(jì)算方面都有應(yīng)用 47文本分T特將文本文檔的集合轉(zhuǎn)換為詞頻計(jì)數(shù)的向量

27、 使用散列技巧將一系列詞t§映射到其詞頻的向量48文本分HashingT特HashingTF的過(guò)程就是對(duì)每一個(gè)詞作了一次哈并對(duì)特征維數(shù)取余得到該詞的位置,然后按照該詞 出現(xiàn)的次數(shù)計(jì)次。所以就不用像傳統(tǒng)方法一樣每維護(hù)一張?jiān)~表,運(yùn)HashingTF就可以方便的到該詞所對(duì)應(yīng)向量元素的位置。當(dāng)然這樣做的代就是向量維數(shù)會(huì)非常大好spark可以支持稀向量,所以計(jì)算開(kāi)銷(xiāo)并不大 49 文本分 TF-ID 特 TF-IDterm frequencinverse document frequenc)是一種用于資訊檢索與文本挖掘的常加權(quán)技術(shù)TF-ID是一種統(tǒng)計(jì)方法用以評(píng)估一詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的

28、其中一份件的重要程度字詞的重要性隨著它在文件中現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)出現(xiàn)的頻率成反比下降TF-ID加權(quán)的各種形式被搜索引擎應(yīng)用,作為文件與用戶(hù)查詢(xún)之間相關(guān)度的度量或評(píng)級(jí) 50 文本分字符串相似一個(gè)字符串轉(zhuǎn)換成另外一個(gè)字符串的代價(jià),轉(zhuǎn)換代價(jià)越高則說(shuō)明兩個(gè)字符串的相似度越低 51 文本分停用詞過(guò)針對(duì)文檔數(shù)據(jù),將包含的特定詞匯過(guò)濾掉,不計(jì)統(tǒng)計(jì)數(shù)據(jù) 52 文本分Word2VecWord2Vec是一種著名詞嵌入WordEmbeddin方法,它可以計(jì)算每個(gè)單詞在其給語(yǔ)料庫(kù)環(huán)境下分布式詞向量DistributedRepresentatio亦直接被稱(chēng)為詞向量)。詞向量示可以在一定程度上刻畫(huà)

29、每個(gè)單詞的語(yǔ)義。如果的語(yǔ)義相近,它們的詞向量在向量空間中也相互近,這使得詞語(yǔ) 的向量化建模更加精確,可以改現(xiàn)有方法并提高魯棒性。詞向量已被證明在許多然語(yǔ)言處理問(wèn)題,如:機(jī)器翻譯,標(biāo)注問(wèn)題,實(shí)識(shí)別等問(wèn)題中具有非常重要的 作用Word2Ve有兩種模型,其一 CBOW,其思想是通過(guò)每詞的上下文窗口詞詞向量來(lái)預(yù)測(cè)中心詞的詞向量其二Skip-gra,其思想是通過(guò)每個(gè)中心詞來(lái)測(cè)其上下文窗口詞,并根據(jù)預(yù)測(cè)結(jié)果來(lái)修正中心的詞向量。該組件目前只支持后者 53 文本分詞頻統(tǒng)在對(duì)文章進(jìn)行分詞的基礎(chǔ)上,按行保序輸出對(duì)應(yīng)I(docId對(duì)應(yīng)文章的詞,統(tǒng)計(jì)指定文I(docId對(duì)應(yīng)文章內(nèi)(docContent的詞頻54 文本

30、分文本摘通pageranjf法計(jì)算得到的重要性最高的若干子可以當(dāng)作摘要 55 文本分關(guān)鍵詞提全面把握文章的中心思想的基礎(chǔ)上,提取出若干代表文章語(yǔ)義內(nèi)容的詞匯或短 56 文本分長(zhǎng)句拆根據(jù)長(zhǎng)句中的標(biāo)點(diǎn)符號(hào)將句子進(jìn)行分割成多個(gè) 57 工具算sq腳用戶(hù)可以在該組件自定義SQ腳本從而完成數(shù)據(jù)的轉(zhuǎn)換處理.58統(tǒng)計(jì)分單樣檢單樣檢驗(yàn):?jiǎn)螛訖z驗(yàn)one-sample -tes又稱(chēng)單樣本均檢驗(yàn),適用于樣本均與已總體均u的比較其比較目的是檢驗(yàn)樣本均所代表的總體均u是否與已知總體均u有別。已知總體均u, 一般為標(biāo)準(zhǔn)值、理論值或大量觀(guān)察得到的較穩(wěn)定的指標(biāo)值檢驗(yàn)的前提樣本總體服從正態(tài)分59統(tǒng)計(jì)分配對(duì)樣本均檢配對(duì)樣本均檢驗(yàn)

31、paired t tes又稱(chēng)非獨(dú)立樣本均檢驗(yàn),適用于配對(duì)設(shè)計(jì)計(jì)量資料均數(shù)比較,其比較目的是檢驗(yàn)兩相關(guān)樣本均數(shù)所代表未知 總體均數(shù)是否有差別60統(tǒng)計(jì)分兩獨(dú)立樣本均檢兩獨(dú)立樣檢(two-sample t-test)又稱(chēng)成驗(yàn),它適用于完全隨機(jī)設(shè)計(jì)的兩樣本均數(shù)的比較其目的是檢驗(yàn)兩樣本所來(lái)自總體的均數(shù)是否相等 完全隨機(jī)設(shè)計(jì)是將受試對(duì)象隨機(jī)地分配到兩組中每組對(duì)象分別接受不同的處理,分析比較兩組的理效應(yīng)61統(tǒng)計(jì)分方差齊性檢由兩樣本方差推斷兩總體方差是否相同。有三種差齊性檢驗(yàn)的方法可供選擇。選Bartlet檢驗(yàn)如果我們的數(shù)據(jù)服從正態(tài)分布,那么這種方法將最為適用的。對(duì)于正態(tài)分布的數(shù)據(jù),這種檢驗(yàn)極靈敏;而當(dāng)數(shù)據(jù)為非正態(tài)分布時(shí),使用該方法則容易導(dǎo)致假陽(yáng)性誤判Leven檢驗(yàn)當(dāng)樣本數(shù)據(jù)態(tài)或者非正態(tài)性 的情況下,選Leven檢驗(yàn)魯性與精度 Bartlet檢驗(yàn)好Fligner-Killee檢驗(yàn)這是一個(gè)非參數(shù)的檢驗(yàn)方法,完全不依賴(lài)于對(duì)分的假設(shè)62統(tǒng)計(jì)分卡方適配度檢卡方適配度檢驗(yàn) Chi-

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論