旅游大數(shù)據(jù)平臺(tái)建設(shè)解決方案_第1頁
旅游大數(shù)據(jù)平臺(tái)建設(shè)解決方案_第2頁
旅游大數(shù)據(jù)平臺(tái)建設(shè)解決方案_第3頁
旅游大數(shù)據(jù)平臺(tái)建設(shè)解決方案_第4頁
旅游大數(shù)據(jù)平臺(tái)建設(shè)解決方案_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、旅游研究院大數(shù)據(jù)挖掘與分析科研平臺(tái)建設(shè)方案背景1.1 數(shù)據(jù)挖掘和大數(shù)據(jù)分析行業(yè)背景和開展趨勢(shì)移動(dòng)互聯(lián)網(wǎng)、電子商務(wù)以及社交媒體的快速開展使得企業(yè)需要面 臨的數(shù)據(jù)量成指數(shù)增長(zhǎng).根據(jù)IDC?數(shù)字宇宙?Dig讓al Universe 研究報(bào)告顯示,2021年全球新建和復(fù)制的信息量已經(jīng)超過 40ZB,是 2021年的12彳§而中國的數(shù)據(jù)量那么會(huì)在 2021年超過8ZB,比2021年 增長(zhǎng)22倍.數(shù)據(jù)量的飛速增長(zhǎng)帶來了大數(shù)據(jù)技術(shù)和效勞市場(chǎng)的繁榮 開展.IDC亞太區(qū)不含日本最新關(guān)于大數(shù)據(jù)和分析BDA領(lǐng)域的市 場(chǎng)研究說明,大數(shù)據(jù)技術(shù)和效勞市場(chǎng)規(guī)模將會(huì)從 2021年的5.48億美 元增加到2021年的

2、23.8億美元,未來5年的復(fù)合增長(zhǎng)率到達(dá)34.1%. 該市場(chǎng)涵蓋了存儲(chǔ)、效勞器、網(wǎng)絡(luò)、軟件以及效勞市場(chǎng).數(shù)據(jù)量的增 長(zhǎng)是一種非線性的增長(zhǎng)速度.據(jù)IDC分析報(bào)道,最近一年來,亞太區(qū)出現(xiàn)了越來越廣泛的大數(shù) 據(jù)和分析領(lǐng)域的應(yīng)用案例.在中國,從互聯(lián)網(wǎng)企業(yè),到電信、金融、 政府這樣的傳統(tǒng)行業(yè),都開始采用各種大數(shù)據(jù)和分析技術(shù),開始了自己的大數(shù)據(jù)實(shí)踐之旅;應(yīng)用場(chǎng)景也在逐漸拓展,從結(jié)構(gòu)化數(shù)據(jù)的分析, 開展到半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的分析,尤其是社交媒體信息分析受 到用戶的更多關(guān)注.用戶們開始評(píng)估以 Hadoop數(shù)據(jù)庫一體機(jī)以及 內(nèi)存計(jì)算技術(shù)為代表的大數(shù)據(jù)相關(guān)新型技術(shù).最新調(diào)研結(jié)果顯示,提升競(jìng)爭(zhēng)優(yōu)勢(shì),降低本錢以及

3、吸引新的客戶 是中國用戶對(duì)大數(shù)據(jù)工程最期望的三大回報(bào). 目前現(xiàn)有的大數(shù)據(jù)工程 主要集中在業(yè)務(wù)流程優(yōu)化以及提升客戶滿意度方面的應(yīng)用.IDC發(fā)現(xiàn)很多用戶希望大數(shù)據(jù)能夠?yàn)槠髽I(yè)帶來業(yè)務(wù)創(chuàng)新, 并且開始使用高級(jí)分 析的解決方案以治理復(fù)雜的數(shù)據(jù)環(huán)境. 過去一年中用戶對(duì)社交數(shù)據(jù)的 收集和分析應(yīng)用的關(guān)注度增加明顯. 未來,地理位置信息分析將會(huì)增 長(zhǎng)迅速,這也會(huì)推動(dòng)用戶對(duì)大數(shù)據(jù)平安和隱私治理的關(guān)注. 在亞太區(qū), 澳大利亞和新加坡的用戶對(duì)大數(shù)據(jù)的相關(guān)投資主要在咨詢效勞方面, 更關(guān)注如何根據(jù)新的最正確實(shí)踐需求設(shè)計(jì)和實(shí)施方案.中國和印度在大數(shù)據(jù)領(lǐng)域的硬件投資那么非常明顯,更傾向于數(shù)據(jù)中央相關(guān)的根底架構(gòu) 的投資.在傳統(tǒng)

4、的數(shù)據(jù)分析與商業(yè)數(shù)據(jù)挖掘中,人們通常遵循二八原那么. 也就是任務(wù)20%勺用戶提供了 80%勺價(jià)值,因此利用優(yōu)勢(shì)資源用戶對(duì) 于少數(shù)用戶的效勞.隨著互聯(lián)網(wǎng)的開展,越來越多的低價(jià)值用戶進(jìn)入 到商業(yè)體系中,這局部用戶成為商業(yè)企業(yè)競(jìng)爭(zhēng)的目標(biāo).比方電商行業(yè), 大量顧客都是傳統(tǒng)意義上的低價(jià)值客戶,數(shù)據(jù)說明對(duì)于這局部用戶價(jià) 值的挖掘可以改變二八原那么,甚至可到達(dá)價(jià)值的幾乎均勻分布. 并且 由于計(jì)算技術(shù)的開展,對(duì)于大數(shù)據(jù)的分析也成為了可能.1.2 旅游行業(yè)開展大數(shù)據(jù)分析及應(yīng)用的意義旅游行業(yè)有行業(yè)廣、規(guī)模大、移動(dòng)性強(qiáng)的特點(diǎn),因此更加依賴大 數(shù)據(jù).當(dāng)前,旅游業(yè)也在“新常態(tài)下迎來了升級(jí)的挑戰(zhàn)和變革的機(jī) 遇,新常態(tài)對(duì)于

5、一般的經(jīng)濟(jì)部門是經(jīng)濟(jì)速度放慢、 人均GDP曾速減小, 很多傳統(tǒng)行業(yè)在調(diào)整結(jié)構(gòu),但新常態(tài)對(duì)旅游行業(yè)卻是速度加快的. 旅 游大數(shù)據(jù)的解決之道,在于整合國內(nèi)多途徑的大數(shù)據(jù)源,形成旅游大 數(shù)據(jù)生態(tài),為國內(nèi)旅游業(yè)提供大數(shù)據(jù)解決方案, 促進(jìn)旅游業(yè)的轉(zhuǎn)型升 級(jí).1.3 數(shù)據(jù)挖掘與大數(shù)據(jù)分析科研平臺(tái)建設(shè)的必要性數(shù)據(jù)挖掘與大數(shù)據(jù)分析是以計(jì)算機(jī)根底為根底,以挖掘算法為核 心,緊密面向行業(yè)應(yīng)用的一門綜合性學(xué)科. 其主要技術(shù)涉及概率論與 數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘、算法與數(shù)據(jù)結(jié)構(gòu)、計(jì)算機(jī)網(wǎng)絡(luò)、并行計(jì)算等多 個(gè)專業(yè)方向,因此該學(xué)科對(duì)于科研平臺(tái)具有較高的專業(yè)要求. 科研平 臺(tái)不僅要提供根底的編程環(huán)境,還要提供大數(shù)據(jù)的運(yùn)算環(huán)境以及

6、用于 科學(xué)研究的實(shí)戰(zhàn)大數(shù)據(jù)案例.這些素材的準(zhǔn)備均需完整的科研平臺(tái)作 為支撐.目前,在我國高校的專業(yè)設(shè)置上與數(shù)據(jù)挖掘與大數(shù)據(jù)分析相關(guān)的 學(xué)科專業(yè)包括:計(jì)算機(jī)科學(xué)與技術(shù)、信息治理與信息系統(tǒng)、統(tǒng)計(jì)學(xué)、 經(jīng)濟(jì)、金融、貿(mào)易、生物信息、旅游以及公共衛(wèi)生等.這些專業(yè)的在 使用科研平臺(tái)時(shí)的側(cè)重點(diǎn)各不相同, 使用人員層次水平也不相同,對(duì) 算法的使用也不相同,因此,需要建設(shè)一個(gè)便利、操作簡(jiǎn)易、算法全 面、可視化的大數(shù)據(jù)科研平臺(tái)是非常有必要的.二. 數(shù)據(jù)挖掘與大數(shù)據(jù)分析科研平臺(tái)總體規(guī)劃2.1 科研平臺(tái)規(guī)劃科研平臺(tái)建設(shè)的根本原那么是科研為主,同時(shí)為教學(xué)實(shí)驗(yàn)提供局部 計(jì)算資源及平安資源,系統(tǒng)在授權(quán)范圍內(nèi)共享科研系統(tǒng)的計(jì)

7、算資源, 提升教學(xué)實(shí)驗(yàn)的真實(shí)性.工程的總體架構(gòu)如圖1所示.圖1.總體架構(gòu)圖系統(tǒng)整體由千兆核心交換機(jī)作為核心節(jié)點(diǎn),并以兩個(gè)千兆接入交 換機(jī)作為科研與實(shí)驗(yàn)環(huán)境的交換節(jié)點(diǎn).科研環(huán)境由我司開發(fā)的商業(yè) Hadoop集群為根底,上層集成便于操作的大數(shù)據(jù)科研應(yīng)用系統(tǒng),集 成10TB大數(shù)據(jù)案例集及可拖拽的數(shù)據(jù)算法和可視化算法.2.2 科研平臺(tái)功能規(guī)劃本科研平臺(tái)針對(duì)數(shù)據(jù)挖掘有大數(shù)據(jù)分析研究?jī)?nèi)容,兼顧科研與教學(xué)的需求,既能滿足科研工作中對(duì)大數(shù)據(jù)分析高性能平臺(tái)要求也具有 教學(xué)實(shí)驗(yàn)平臺(tái)簡(jiǎn)單易用的特點(diǎn).1大數(shù)據(jù)資源規(guī)劃內(nèi)置商業(yè)級(jí)數(shù)據(jù)資源,按常見科研分類規(guī)劃數(shù)據(jù)資源,可以直接 用于科學(xué)研究,具有數(shù)據(jù)資源授權(quán)管控功能.2大

8、數(shù)據(jù)分析功能規(guī)劃建設(shè)以商業(yè)版Hadoop為核心的大數(shù)據(jù)分析平臺(tái),系統(tǒng)提供MapReduc以及Spark等大數(shù)據(jù)挖掘功能.系統(tǒng)具有完整的治理調(diào)度 功能.3硬件資源功能規(guī)劃系統(tǒng)具有24個(gè)Intel Xeon E5 CPU 計(jì)算水平,提供超過40TB的 存儲(chǔ)水平以及1T以上的內(nèi)存,可滿足1000任務(wù)共時(shí)計(jì)算內(nèi)能,方便 擴(kuò)充.三.數(shù)據(jù)挖掘與大數(shù)據(jù)分析科研平臺(tái)建設(shè)方案3.1 大數(shù)據(jù)科研平臺(tái)設(shè)備架構(gòu)圖3.設(shè)備架構(gòu)3.1.1 主節(jié)點(diǎn)和備份主節(jié)點(diǎn)主節(jié)點(diǎn)負(fù)責(zé)整個(gè)分布式大數(shù)據(jù)平臺(tái)的運(yùn)行. 主節(jié)點(diǎn)始終在內(nèi)存中 保存整個(gè)文件系統(tǒng)的目錄結(jié)構(gòu),每個(gè)目錄有哪些文件,每個(gè)文件有哪 些分塊及每個(gè)分塊保存在哪個(gè)計(jì)算上,用于處理讀

9、寫請(qǐng)求.同時(shí),主 節(jié)點(diǎn)還負(fù)責(zé)將作業(yè)分解成子任務(wù),并將這些子任務(wù)分配到各個(gè)計(jì)算節(jié) 點(diǎn)上.備份主節(jié)點(diǎn)在主節(jié)點(diǎn)發(fā)生故障時(shí)承當(dāng)主節(jié)點(diǎn)的各種任務(wù),使得分布式大數(shù)據(jù)平臺(tái)仍然能夠正常運(yùn)行.3.1.2 治理節(jié)點(diǎn)治理節(jié)點(diǎn)用于治理整個(gè)分布式大數(shù)據(jù)平臺(tái),可進(jìn)行節(jié)點(diǎn)安裝、配置、效勞配置等,提供網(wǎng)頁窗口界面提升了系統(tǒng)配置的可見度,而且 降低了集群參數(shù)設(shè)置的復(fù)雜度.3.1.3 接口節(jié)點(diǎn)終端用戶通過接口節(jié)點(diǎn)連接和使用分布式大數(shù)據(jù)平臺(tái), 提交任務(wù) 并獲得結(jié)果,并可以用其他數(shù)據(jù)分析工具做進(jìn)一步處理, 與外界進(jìn)行 數(shù)據(jù)交互如連接關(guān)系型數(shù)據(jù)庫.3.1.4 計(jì)算節(jié)點(diǎn)分布式大數(shù)據(jù)平臺(tái)包含了多個(gè)計(jì)算節(jié)點(diǎn).計(jì)算節(jié)點(diǎn)是系統(tǒng)中真正 存儲(chǔ)數(shù)據(jù)和

10、做數(shù)據(jù)運(yùn)算的節(jié)點(diǎn).每個(gè)計(jì)算節(jié)點(diǎn)周期性地和主節(jié)點(diǎn)通 信,還時(shí)不時(shí)和客戶端代碼以及其他計(jì)算節(jié)點(diǎn)通信.計(jì)算節(jié)點(diǎn)還維護(hù)一個(gè)開放的socket效勞器,讓客戶端代碼和其他計(jì)算節(jié)點(diǎn)通過它可 以讀寫數(shù)據(jù),這個(gè)效勞器還會(huì)匯報(bào)給主節(jié)點(diǎn).3.2 大數(shù)據(jù)科研平臺(tái)底層架構(gòu)大數(shù)據(jù)科研平臺(tái)低層架構(gòu)以我司自主研發(fā)的商業(yè)版Hadoop為基礎(chǔ)架構(gòu),包含和大數(shù)據(jù)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等功能模塊,并以 HDF©及Hbase作為存儲(chǔ)根底.圖2.軟件架構(gòu)3.2.1 分布式持久化數(shù)據(jù)存儲(chǔ)一一HDFSHadoop分布式文件系統(tǒng)HDFS被設(shè)計(jì)成適合運(yùn)行在通用硬件 上的分布式文件系統(tǒng).它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn).但同時(shí),它

11、和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的.HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上.HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用.HDFS放寬了一局部POSIX約束,來實(shí)現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的.HBaseM一個(gè)分布式的、面向列的開源數(shù)據(jù)庫,該技術(shù)來源于Fay Chang所撰寫的Google論文“Bigtable : 一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式 存儲(chǔ)系統(tǒng)".就像Bigtable利用了 Google文件系統(tǒng)所提供的分布 式數(shù)據(jù)存儲(chǔ)一樣,HBase在Hadoop之上提供了類似于BigTable的能 力.HBase是Apache的Hadoop工程的子工程.H

12、Base不同于一般的 關(guān)系數(shù)據(jù)庫,它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫.另一個(gè)不同的是HBase基于列的而不是基于行的模式.3.2.3 分布式資源調(diào)度治理YARNYarn是Hadoop2.0的MapReduce框架.YARNb層結(jié)構(gòu)的本質(zhì)是 ResourceManager.這個(gè)實(shí)體限制整個(gè)集群并治理應(yīng)用程序向根底計(jì) 算資源的分配.ResourceManager將各個(gè)資源局部計(jì)算、內(nèi)存、帶 寬等精心安排給根底NodeManager YARN的每節(jié)點(diǎn)代理.ResourceManager 還 與 ApplicationMaster 起 分酉己 資源, 與 NodeManager一起啟動(dòng)和監(jiān)視它們的

13、根底應(yīng)用程序.在此上下文中, ApplicationMaster 承當(dāng)了 以前的 TaskTracker 的一些角色, ResourceManager 承當(dāng)了 JobTracker 的角色.3.2.4 交互式SQL引擎HiveHive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù) 文件映射為一張數(shù)據(jù)庫表,并提供簡(jiǎn)單的SQL查詢功能,可以將SQL語句轉(zhuǎn)換為MapReduc期務(wù)進(jìn)行運(yùn)行. 具優(yōu)點(diǎn)是學(xué)習(xí)本錢低,可以 通過類SQL語句快速實(shí)現(xiàn)簡(jiǎn)單的 MapReduce統(tǒng)計(jì),不必開發(fā)專門的 MapReducW用,十分適合數(shù)據(jù)倉庫的統(tǒng)計(jì)分析.3.2.5 內(nèi)存計(jì)算SparkSpark 是 UC B

14、erkeley AMP實(shí)驗(yàn)室所開源的類 Hadoop MapReduce 的通用的并行計(jì)算框架.Spark擁有Hadoop MapReduce所具有的優(yōu) 點(diǎn);但不同于MapReduce勺是Job中間輸出結(jié)果可以保存在內(nèi)存中, 從而不再需要讀寫HDFS因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī) 器學(xué)習(xí)等需要迭代的MapReduce算法.3.3 科研平臺(tái)的功能3.3.1 科研工程治理在科研平臺(tái)中,科研計(jì)算是以計(jì)算工程來保存的,包括了計(jì)算項(xiàng) 目建立、計(jì)算工程維護(hù)、計(jì)算工程設(shè)計(jì)、計(jì)算工程運(yùn)行和結(jié)果可視化 等幾個(gè)環(huán)節(jié).從技術(shù)角度來說,計(jì)算工程中也包括了算法組件、算法 流程和數(shù)據(jù)集,一旦設(shè)計(jì)完后,就可用于計(jì)

15、算,后期還可以調(diào)整算法 和基于新的數(shù)據(jù)資源進(jìn)行計(jì)算.計(jì)算工程完成后,可以練習(xí)出算法模型,在新的計(jì)算工程中使用 已經(jīng)練習(xí)好的模型進(jìn)行數(shù)據(jù)的預(yù)測(cè),形成一次練習(xí)屢次使用的算法實(shí)3.3.2 平臺(tái)內(nèi)置數(shù)據(jù)集在科研工作中,如何獲取到海量高質(zhì)量大數(shù)據(jù)資源是最大的難 點(diǎn).目前在互聯(lián)網(wǎng)等渠道是很難找到科研工作所需的數(shù)據(jù)源,尤其是經(jīng)過數(shù)據(jù)清洗和治理后的高質(zhì)量數(shù)據(jù).數(shù)據(jù)超市平臺(tái)利用以下模式,通過外部的資源,為高校的科研工 作提供優(yōu)質(zhì)數(shù)據(jù)資源:1通過商務(wù)合作的模式,直接與數(shù)據(jù)所有權(quán)擁有者進(jìn)行靈活的商 務(wù)溝通,獲得科研的數(shù)據(jù)使用授權(quán);2邀請(qǐng)行業(yè)內(nèi)優(yōu)質(zhì)的第三方數(shù)據(jù)效勞提供商入駐數(shù)據(jù)超市平臺(tái);3通過數(shù)據(jù)采集的方式,經(jīng)過數(shù)據(jù)

16、尋源、采集、治理、清洗后, 引入具有公開版權(quán)的數(shù)據(jù)資源;所有引入數(shù)據(jù)都會(huì)經(jīng)過數(shù)據(jù)工程師的嚴(yán)格審核,保證數(shù)據(jù)的清潔 和質(zhì)量,可以直接用于數(shù)據(jù)計(jì)算.如平臺(tái)內(nèi)置的專利數(shù)據(jù),包括了國內(nèi)近 2000萬各類商業(yè)數(shù)據(jù), 并且不斷更新,可以直接用于旅游各方面的科學(xué)研究. 有別區(qū)目前行 業(yè)提供的數(shù)據(jù)庫,數(shù)據(jù)超市直接提供了原始的數(shù)據(jù), 可以打通其他的 行業(yè)數(shù)據(jù),用于深層次的數(shù)據(jù)分析和經(jīng)濟(jì)預(yù)測(cè).3.3.3 科研數(shù)據(jù)上傳科研老師已有的數(shù)據(jù)可以上傳到平臺(tái)參與數(shù)據(jù)計(jì)算,老師可以在平臺(tái)上建立數(shù)據(jù)表,然后把本地?cái)?shù)據(jù)文件上傳到數(shù)據(jù)表中. 也可以維 護(hù)外部的JDBO據(jù)源,平臺(tái)會(huì)把外部數(shù)據(jù)自動(dòng)抽取到平臺(tái)中進(jìn)行計(jì) 算和預(yù)測(cè).3.3.

17、4 集成算法組件為了便于科研老師快速進(jìn)行科研數(shù)據(jù)的加工、 分析和計(jì)算,數(shù)據(jù) 超市平臺(tái)集成了 50多種通用大數(shù)據(jù)算法組件,包括回歸算法、分類 算法、聚類算法、關(guān)聯(lián)規(guī)劃算法、推薦算法、預(yù)測(cè)評(píng)估、數(shù)據(jù)預(yù)處理 算法、機(jī)器學(xué)習(xí)等.所有的算法無須重新編程,只需要拖拽繪圖完成 即可進(jìn)行計(jì)算,如下列圖:三18件列泰B耳目“法策樹目舊也忤毒博節(jié)疝配+包騫學(xué)可+敷泰用處理計(jì)分析料位工程*文本分崎* E+河分析+ H室可如化+思,日M算法組件經(jīng)過配置可以實(shí)現(xiàn)強(qiáng)大的自定義計(jì)算功能和效果, 調(diào)整后的模型可以完成老師需要的數(shù)據(jù)分析和預(yù)測(cè).3.3.5 科研平臺(tái)可視化功能提供20余種可視化展示模式,一鍵選擇,一鍵切換,可按使

18、用者 需求展示大數(shù)據(jù)之美,根據(jù)需要展示對(duì)應(yīng)的緯度,并可以一鍵生成高 質(zhì)量PNGC件,保存到本地后可用于科研報(bào)告和論文等.4 .平臺(tái)數(shù)據(jù)集清單科研平臺(tái)為方便用戶快速開展科學(xué)研究、 生成科研數(shù)據(jù)報(bào)告,平 臺(tái)提供了一些通用的數(shù)據(jù)集,包括各類標(biāo)準(zhǔn)科研數(shù)據(jù)等.平臺(tái)也內(nèi)置了數(shù)百款可選數(shù)據(jù)集,分為多個(gè)數(shù)據(jù)包,總量近10TB, 并且隨商務(wù)和采集工作推進(jìn),仍在不斷增加中.5 .定制數(shù)據(jù)效勞根據(jù)科研老師的需求,數(shù)據(jù)超市平臺(tái)提供數(shù)據(jù)采集和商務(wù)合作等 定制數(shù)據(jù)引入模式,數(shù)據(jù)引入后,可以直接引入數(shù)據(jù)超市,由老師來 進(jìn)行使用.如老師需要旅游效勞評(píng)價(jià)類數(shù)據(jù)進(jìn)行效勞情況的分析和預(yù)測(cè),可以直接通過數(shù)據(jù)超市內(nèi)的數(shù)據(jù)定制模塊提出數(shù)

19、據(jù)需求, 經(jīng)數(shù)據(jù)超市平臺(tái)治理員匯總后,可以通過數(shù)據(jù)超市平臺(tái)進(jìn)行數(shù)據(jù)的準(zhǔn)備, 交給老師 進(jìn)行使用.六.科研平臺(tái)算法清單平臺(tái)集成的算法包括72種,全部來自科研網(wǎng)站,經(jīng)過了商業(yè)機(jī) 構(gòu)的驗(yàn)證,引入平臺(tái)后完成了分布式優(yōu)化,可以高效執(zhí)行,詳細(xì)如下 表:序號(hào)算法分類算法名稱算法描述1回歸算法線性回歸利用線性模型對(duì)數(shù)值型變量進(jìn)行擬合.2回歸算法決策樹回歸利用平方誤差最小化準(zhǔn)那么, 進(jìn)行特征選擇,生成二叉 樹,從而對(duì)對(duì)數(shù)值型變量進(jìn) 行擬合3回歸算法隨機(jī)森林回歸以回歸決策樹為基模型,將一定數(shù)量的基模型組合對(duì)數(shù)值型變量擬合,并對(duì)基模型的預(yù)測(cè)結(jié)果平均作為算法的最終結(jié)果4回歸算法梯度提升回歸樹以二叉回歸決策樹為基函 數(shù)

20、的加法模型與前向分步 結(jié)合的算法,通過對(duì)損失 函數(shù)在當(dāng)前模型的預(yù)測(cè)值 的梯度作為近似殘差進(jìn)行 擬合,從而對(duì)數(shù)值型變量預(yù) 測(cè).5分類算法邏輯回歸二分類對(duì)目標(biāo)變?cè)鐬橐恢敌头诸?變量,建立參數(shù)化邏輯斯諦 分布,即sigmoid函數(shù),近 似條件概率分布,以實(shí)現(xiàn)二 值分類.6分類算法邏輯回歸多分類邏輯回歸多分類,k個(gè)獨(dú)立的logistic 回歸分類器與 onevsall結(jié)合的分類模型, 分類對(duì)象類別之間不是互 斥的7分類算法Softmax回歸多分類Softmax回歸就是邏輯回歸的一M形式,是logistic回歸模型在多分類問題上的推廣,分類對(duì)象類別是互斥的8分類算法決策樹分類利用信息增益準(zhǔn)那么或基尼 指

21、數(shù)最小化準(zhǔn)那么,進(jìn)行特征 選擇,生成二叉樹,從而對(duì) 對(duì)目標(biāo)變?cè)鐬殡x散變量的 數(shù)據(jù)進(jìn)行分類9分類算法隨機(jī)森林分類以分類決策樹為基模型,將 一定數(shù)量的基模型組合對(duì)離散型的目標(biāo)變量擬合,并 根據(jù)基模型的預(yù)測(cè)結(jié)果進(jìn) 行投票,以占多數(shù)結(jié)果的種 類作為算法的最終結(jié)果10分類算法梯度提升分類樹以二叉分類決策樹為基函 數(shù)的加法模型與前向分步 結(jié)合的算法,通過對(duì)損失函 數(shù)在當(dāng)前模型的預(yù)測(cè)值的 梯度作為近似殘差進(jìn)行擬 合,從而對(duì)分類型目標(biāo)變量 預(yù)測(cè).11分類算法BP神經(jīng)網(wǎng)絡(luò)以感知器為基函數(shù),通過將 當(dāng)前基函數(shù)的的輸出作為 下一個(gè)感知器的輸入,從而 實(shí)現(xiàn)對(duì)離散型分類變量的 分類1分類貝葉斯分類基于貝葉斯定理與特征條

22、2算法件獨(dú)立假設(shè),對(duì)給定數(shù)據(jù) 集,學(xué)習(xí)輸入輸出的聯(lián)合概 率分布,利用貝葉斯原埋輸 出后驗(yàn)概率最大的預(yù)測(cè)類 作為預(yù)測(cè)結(jié)果1分類支持向量機(jī)分類在感知機(jī)的根底上,通過在3算法特征空間上間隔最大和核技巧,實(shí)現(xiàn)對(duì)二類目標(biāo)變量分類1聚類K均值聚類將無標(biāo)記樣本根據(jù)特征空4算法間中的數(shù)據(jù)結(jié)構(gòu),劃入K個(gè)不相交的子集中1聚類二分K均值聚類K均值聚類的改良版,能克5算法服原算法收斂局部最小的缺點(diǎn),每次選其中f分成兩簇.16聚類算法高斯混合模型對(duì)于符合高斯分布的數(shù)據(jù),假設(shè)存在K個(gè)高斯模型,將數(shù)據(jù)反復(fù)迭代,期望極大化.將樣本聚到后驗(yàn)概率最大的模型類下.1關(guān)聯(lián)頻繁項(xiàng)集挖掘算法主要分為兩個(gè)步驟:7規(guī)那么算法(FP-Grow

23、th)FP-tree 構(gòu)建、遞歸挖掘FP-tree.挖掘出共同出現(xiàn) 的頻繁物品集.18推薦算法協(xié)同過濾算法協(xié)同過濾是在海量數(shù)據(jù)中 挖掘出某局部與目標(biāo)客戶 行為類似的數(shù)據(jù),并根據(jù)某 種指標(biāo)對(duì)其進(jìn)行排序.19預(yù)測(cè)評(píng)估分類預(yù)測(cè)及評(píng)估分類算法中,在已有練習(xí)數(shù) 據(jù)練習(xí)模型的根底上,將未 練習(xí)的數(shù)據(jù)代入算法中,預(yù) 測(cè)結(jié)果與實(shí)際目標(biāo)變量比 對(duì)評(píng)估,檢測(cè)模型的性能.20預(yù)測(cè)評(píng)估回歸預(yù)測(cè)及評(píng)估回歸算法中,在已有練習(xí)數(shù) 據(jù)練習(xí)模型的根底上,將未 練習(xí)的數(shù)據(jù)代入算法中,預(yù) 測(cè)結(jié)果與實(shí)際目標(biāo)變量比 對(duì)評(píng)估,檢測(cè)模型的性能.21預(yù)測(cè)評(píng)估聚類預(yù)測(cè)及評(píng)估聚類算法中,在已有練習(xí)數(shù) 據(jù)練習(xí)模型的根底上,將未 練習(xí)的數(shù)據(jù)代入算法

24、中,預(yù) 測(cè)結(jié)果與實(shí)際數(shù)據(jù)類型比 對(duì)評(píng)估,檢測(cè)模型的性能.22預(yù)測(cè)評(píng)估推薦評(píng)估推薦算法中,在已有練習(xí)數(shù) 據(jù)練習(xí)模型的根底上,將未 練習(xí)的數(shù)據(jù)代入算法中,預(yù) 測(cè)結(jié)果與物品類目比對(duì)評(píng) 估,檢測(cè)模型的性能.23數(shù)據(jù)預(yù)處理歸一化將有量綱的數(shù)據(jù)轉(zhuǎn)化為無量綱的數(shù)據(jù),min-max標(biāo)準(zhǔn)化24數(shù)據(jù)預(yù)處Join-兩表關(guān)聯(lián)類似sql join的功能,將兩張表通過一個(gè)字段對(duì)或理者多個(gè)字段對(duì)的相等關(guān)系關(guān)聯(lián)合成一張表25數(shù)據(jù)預(yù)處理類型轉(zhuǎn)換string類型轉(zhuǎn)換數(shù)值類型將不同數(shù)據(jù)的類型按需要進(jìn)行轉(zhuǎn)換26數(shù)據(jù)預(yù)處理Union對(duì)不同數(shù)據(jù)集取并集27數(shù)據(jù)預(yù)處理標(biāo)準(zhǔn)化/正那么化標(biāo)準(zhǔn)化是將數(shù)據(jù)縮放到一 個(gè)區(qū)間范圍內(nèi),如正態(tài)分 布,小數(shù)

25、定標(biāo),邏輯斯諦分 布.正那么化是利用先驗(yàn)知 識(shí),對(duì)模型增加約束,預(yù)防 過擬合.28數(shù)據(jù)預(yù)處理缺失值填充對(duì)數(shù)據(jù)中某項(xiàng)數(shù)值所對(duì)應(yīng) 的某些樣本缺失,通過某種 先驗(yàn)假設(shè),根據(jù)樣本其他已 知數(shù)據(jù)項(xiàng)對(duì)缺失值擬合預(yù) 測(cè).2數(shù)據(jù)拆分根據(jù)比例拆分樣本集,如設(shè)9預(yù)處理置0.6 ,切分成60:40兩個(gè)樣本集.3數(shù)據(jù)隨機(jī)采樣當(dāng)數(shù)據(jù)量過大或模型練習(xí)0預(yù)處批容量有限時(shí),隨機(jī)采取一理定量/比例的樣本集.3數(shù)據(jù)增加呼列號(hào)在數(shù)據(jù)表第一列追加ID列.1預(yù)處理3數(shù)據(jù)Select數(shù)據(jù)庫查詢操作,查詢某2預(yù)處限定條件下的樣本理3數(shù)據(jù)Select_Distinct數(shù)據(jù)庫查詢操作,查詢某3預(yù)處限定條件下并過濾掉重復(fù)理的樣本3數(shù)據(jù)Selec

26、t_Where數(shù)據(jù)庫查詢操作,查詢指定4預(yù)處條件下的樣本理3數(shù)據(jù)Select_And_Or數(shù)據(jù)庫查詢操作,查詢條件5預(yù)處的交集與并集理36數(shù)據(jù)預(yù)處理Select_OrderBy數(shù)據(jù)庫查詢操作,查詢結(jié)果按某指標(biāo)排序37數(shù)據(jù)預(yù)處理Select_Limit數(shù)據(jù)庫查詢操作,查詢某限定段的數(shù)據(jù)38數(shù)據(jù)預(yù)處理Select_Like數(shù)據(jù)庫查詢操作,查詢包含指定字段的數(shù)據(jù)39特征工程主成分分析數(shù)據(jù)降維去噪常用方法,對(duì) 數(shù)據(jù)的協(xié)方差矩陣取前K個(gè) 最大方差方向作為新的數(shù) 據(jù)方向.40特征工程Onehot編他用戶將特征值進(jìn)行二元編碼映射成二元向量,并與數(shù)值向量進(jìn)行拼接42特征工程特征尺度變換由于計(jì)算需要或根據(jù)數(shù)據(jù)特

27、點(diǎn)將某特征對(duì)應(yīng)數(shù)據(jù)項(xiàng)進(jìn)行縮放,不改變樣本間該數(shù)值項(xiàng)的相對(duì)大小43特征工程特征重要性分析指根據(jù)數(shù)據(jù)集各項(xiàng)特征在 算法模型中對(duì)目標(biāo)變量的 相對(duì)重要程度的分析,從而 提出冗余特征,關(guān)注重要特 征,提升算法模型的效率準(zhǔn) 確性44特征工程特征離散對(duì)連續(xù)型特征按某方法轉(zhuǎn)換為離散型變量45文本分析SplitWord分布式j(luò)ieba分詞接口,基 于Trie樹結(jié)構(gòu)實(shí)現(xiàn)局效的 詞圖掃描,生成句子中漢字 所后可能成詞情況所構(gòu)成 的有向無環(huán)圖DAG米用 了動(dòng)態(tài)規(guī)劃查找最大概率 路徑,找出基于詞頻的最 大切分組合;對(duì)于未登錄 詞,采用了基于漢字成詞能 力的HMMI型,使用了Viterbi 算法46文本分析文檔主題生成模

28、型(LD四LDA(Latent Dirichlet allocation) ,種主題模型,它可以將文檔集中每 篇文檔的主題根據(jù)概率分 布的形式給出.同時(shí)它是一 種無監(jiān)督學(xué)習(xí)算法,在練習(xí) 時(shí)不需要手工標(biāo)注的練習(xí) 集,需要的僅僅是文檔集以 及指定主題的數(shù)量k即可.LDA首先由 David M. Blei、 Andrew Y. Ng和 Michael I. Jordan于2003年提出,目 前在文本挖掘領(lǐng)域包括文 本主題識(shí)別、文本分類以及 文本相似度計(jì)算方面都有 應(yīng)用.47文本分析TF特征將文本文檔的集合轉(zhuǎn)換為詞頻計(jì)數(shù)的向量.48文本分析HashingTF 特征使用散列技巧將一系列詞語映射到其詞頻的

29、向量,HashingTF的過程就是對(duì)每一個(gè)詞作了一次哈希并 對(duì)特征維數(shù)取余得到該詞 的位置,然后根據(jù)該詞出現(xiàn) 的次數(shù)計(jì)次.所以就不用像 傳統(tǒng)方法一樣每次維護(hù)一 張?jiān)~表,運(yùn)用HashingTF 就可以方便的得到該詞所 對(duì)應(yīng)向量元素的位置.當(dāng)然 這樣做的代價(jià)就是向量維 數(shù)會(huì)非常大,好在spark 可以支持稀疏向量,所以計(jì) 算開銷并不大.49文本分析TF-IDF特征TF-IDF (term frequency - inverse document frequency )號(hào)一種用于資 訊檢索與文本挖掘的常用 加權(quán)技術(shù).TF-IDF是一種統(tǒng) 計(jì)方法,用以評(píng)估一字詞對(duì) 于一個(gè)文件集或一個(gè)語料 庫中的其中一

30、份文件的重 要程度.字詞的重要性隨 著它在義件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著 它在語料庫中出現(xiàn)的頻率 成反比下降.TF-IDF加權(quán)的 各種形式常被搜索引擎應(yīng) 用,作為文件與用戶查詢之 間相關(guān)程度的度顯或評(píng)級(jí).50文本分析字符串相似度一個(gè)字符串轉(zhuǎn)換成另外一個(gè)字符串的代價(jià),轉(zhuǎn)換的代 價(jià)越高那么說明兩個(gè)字符串 的相似度越低.51文本分析停用詞過濾針對(duì)文檔數(shù)據(jù),將包含的特 定詞匯過濾掉,不計(jì)入統(tǒng)計(jì) 數(shù)據(jù)中52文本分析Word2VecWord2Vec是一種著名的 詞嵌入(Word Embedding) 方法,它可以計(jì)算每個(gè)單詞 在其給定語料庫環(huán)境卜的分布式詞向量(DistributedRepres

31、entation ,亦直接被 稱為詞向量).詞向量表示可以在一定程度上刻畫每 個(gè)單詞的語義.如果詞的語 義相近,它們的詞向量在向 量空間中也相互接近,這使 得詞語的向量化建模更加 精確,可以改善現(xiàn)有方法并 提升魯棒性.詞向量已被證 明在許多自然語言處理問 題,如:機(jī)器譯,標(biāo)注問 題,實(shí)體識(shí)別等問題中具有 非常重要的作用.Word2Vec 具有兩種模型,其一是 CBOvy其思想是通過每個(gè) 詞的上下文窗口詞詞向量 來預(yù)測(cè)中央詞的詞向量.其 二是Skip-gram ,其思想是 通過每個(gè)中央詞來預(yù)測(cè)其 上下文窗口詞,并根據(jù)預(yù)測(cè) 結(jié)果來修正中央詞的詞向 量.該組件目前只支持后 者.53文本分析詞頻統(tǒng)計(jì)在

32、對(duì)文章進(jìn)行分詞的根底 上,按行保序輸出對(duì)應(yīng)文章ID列(docId)對(duì)應(yīng)義章的 詞,統(tǒng)計(jì)指定義章ID列 (docId)對(duì)應(yīng)義章內(nèi)容 (docContent)的詞頻.54文本分析文本摘要通過pagerank算法計(jì)算得到的重要性最高的假設(shè)干句 子可以當(dāng)作摘要.55文本分析關(guān)鍵詞提取全面把握文章的中央思想的根底上,提取出假設(shè)干個(gè)代表文章語義內(nèi)容的詞匯或短語56文本分析長(zhǎng)句拆分根據(jù)長(zhǎng)句中的標(biāo)點(diǎn)符號(hào)將句子進(jìn)行分割成多個(gè)短句57工具算法sql腳本用戶可以在該組件自定義的SQL卻本從而完成對(duì)數(shù)據(jù)的轉(zhuǎn)換處理58統(tǒng)計(jì)分析單樣本T檢驗(yàn)單樣本T檢驗(yàn):?jiǎn)螛颖総檢驗(yàn)(one-sample t-test )又稱單樣本均數(shù)t

33、檢驗(yàn),適 用于樣本均數(shù)x與總體 均數(shù)U0的比擬,具比擬目 的是檢驗(yàn)樣本均數(shù)x所代表 的總體均數(shù)U0是否與 總體均數(shù)U0 4|差異. 總體均數(shù)U0, 一般為標(biāo)準(zhǔn) 值、理論值或經(jīng)大量觀察得 到的較穩(wěn)定的指標(biāo)值.T檢 驗(yàn)的前提是樣本總體服從 正態(tài)分布59統(tǒng)計(jì)分析配對(duì)樣本均數(shù)T檢驗(yàn)配對(duì)樣本均數(shù)t檢驗(yàn)(paired t test ),又稱非 獨(dú)立兩樣本均數(shù)t檢驗(yàn),適 用于配對(duì)設(shè)計(jì)的資料均 數(shù)的比擬,具比擬目的是檢 驗(yàn)兩相關(guān)樣本均數(shù)所代表 的未知總體均數(shù)是否有差 別.60統(tǒng)計(jì)分析兩獨(dú)立樣本均數(shù)T檢驗(yàn)兩獨(dú)立樣本t檢驗(yàn)(two-sample t-test), 又稱成組t檢驗(yàn),它適用于完全 隨機(jī)設(shè)計(jì)的兩樣本均數(shù)

34、的 比擬,其目的是檢驗(yàn)兩樣本 所來自總體的均數(shù)是否相 等.完全隨機(jī)設(shè)計(jì)是將受試 對(duì)象隨機(jī)地分配到兩組中, 每組對(duì)象分別接受不同的 處理,分析比擬兩組的處理 效應(yīng).61統(tǒng)計(jì)分析方差齊性檢驗(yàn)由兩樣本方差推斷兩總體 方差是否相同.有三種方差 齊性檢驗(yàn)的方法可供選擇.選用Bartlett 檢驗(yàn):如果 我們的數(shù)據(jù)服從正態(tài)分布, 那么這種方法將是最為適 用的.對(duì)于止態(tài)分布的數(shù) 據(jù),這種檢驗(yàn)極為靈敏;而 當(dāng)數(shù)據(jù)為非正態(tài)分布時(shí),使 用該方法那么很容易導(dǎo)致假 陽性誤判.Levene檢驗(yàn):當(dāng) 樣本數(shù)據(jù)偏態(tài)或者非正態(tài) 性的情況下,選用Levene檢驗(yàn)魯棒性與精度比Bartlett 檢驗(yàn)好.Fligner-Killeen 檢驗(yàn):這是一個(gè)非參數(shù)的檢驗(yàn)方法, 完全不依賴于對(duì)分布的假 設(shè).62統(tǒng)計(jì)分析卡方適配度檢驗(yàn)卡方適配度檢驗(yàn), Chi-Square Goodness of Fit Test.驗(yàn)證一組觀察值 的次數(shù)分配是否異于理論

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論