版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、旅游研究院大數(shù)據(jù)挖掘與分析科研平臺建設(shè)方案一 . 背景1.1 數(shù)據(jù)挖掘和大數(shù)據(jù)分析行業(yè)背景和發(fā)展趨勢移動互聯(lián)網(wǎng)、電子商務(wù)以及社交媒體的快速發(fā)展使得企業(yè)需要面臨的數(shù)據(jù)量成指數(shù)增長。根據(jù)IDC 數(shù)字宇宙(DigitalUniverse) 研究報告顯示,2020年全球新建和復(fù)制的信息量已經(jīng)超過40ZB,是2015年的12倍;而中國的數(shù)據(jù)量則會在2020年超過8ZB,比2015年增長22倍。數(shù)據(jù)量的飛速 增長帶來了大數(shù)據(jù)技術(shù)和服務(wù)市場的繁榮發(fā)展。IDC亞太區(qū)(不含日本)最新關(guān)于大數(shù)據(jù)和分析(BDA) 領(lǐng)域的市場研究表明,大數(shù)據(jù)技術(shù)和服務(wù)市場規(guī)模將會從2012年的 5.48 億美元增加到2017年的23
2、.8 億美元,未來5 年的復(fù)合增長率達到34.1%。該市場涵蓋了存儲、服務(wù)器、網(wǎng)絡(luò)、軟件以及服務(wù)市場。數(shù)據(jù)量的增長是一種非線性的增長速度。據(jù)IDC分析報道,最近一年來,亞太區(qū)出現(xiàn)了越來越廣泛的大數(shù)據(jù)和分析領(lǐng)域的應(yīng)用案例。在 中國,從互聯(lián)網(wǎng)企業(yè),到電信、金融、政府這樣的傳統(tǒng)行業(yè),都開始采用各種大數(shù)據(jù)和分析技術(shù),開始了自己的大數(shù)據(jù)實踐之旅; 應(yīng)用場景也在逐漸拓展,從結(jié)構(gòu)化數(shù)據(jù)的分析,發(fā)展到半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的分析,尤其是社交媒體信息分析受到用戶的更多關(guān)注。用戶們開始評估以Hadoop、數(shù)據(jù)庫一體機以及內(nèi)存計算技術(shù)為代表的大數(shù)據(jù)相關(guān)新型技術(shù)。最新調(diào)研結(jié)果顯示,提高競爭優(yōu)勢,降低成本以及吸引新的客
3、戶是中國用戶對大數(shù)據(jù)項目最期望的三大回報。目前現(xiàn)有的大數(shù)據(jù)項目主要集中在業(yè)務(wù)流程優(yōu)化以及提高客戶滿意度方面的應(yīng)用。 IDC發(fā)現(xiàn)很多用戶希望大數(shù)據(jù)能夠為企業(yè)帶來業(yè)務(wù)創(chuàng)新,并且開始使用高級分析的解決方案以管理復(fù)雜的數(shù)據(jù)環(huán)境。過去一年中用戶對社交數(shù)據(jù)的收集和分析應(yīng)用的關(guān)注度增加明顯。未來, 地理位置信息分析將會增長迅速,這也會推動用戶對大數(shù)據(jù)安全和隱私管理的關(guān)注。在亞太區(qū),澳大利亞和新加坡的用戶對大數(shù)據(jù)的相關(guān)投資主要在咨詢服務(wù)方面,更關(guān)注如何根據(jù)新的最佳實踐需求設(shè)計和實施方案。中國和印度在大數(shù)據(jù)領(lǐng)域的硬件投資則非常明顯,更傾向于數(shù)據(jù)中心相關(guān)的基礎(chǔ)架構(gòu)的投資。在傳統(tǒng)的數(shù)據(jù)分析與商業(yè)數(shù)據(jù)挖掘中,人們通常
4、遵循二八原則。也就是任務(wù)20%的用戶提供了80%的價值,因此利用優(yōu)勢資源用戶對于少數(shù)用戶的服務(wù)。隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的低價值用戶進入到商業(yè)體系中,這部分用戶成為商業(yè)企業(yè)競爭的目標(biāo)。比如電商行業(yè),大量顧客都是傳統(tǒng)意義上的低價值客戶,數(shù)據(jù)表明對于這部分用戶價值的挖掘可以改變二八原則,甚至可達到價值的幾乎均勻分布。并且由于計算技術(shù)的發(fā)展,對于大數(shù)據(jù)的分析也成為了可能。1.2 旅游行業(yè)開展大數(shù)據(jù)分析及應(yīng)用的意義旅游行業(yè)有行業(yè)廣、規(guī)模大、移動性強的特點,因此更加依賴大數(shù)據(jù)。當(dāng)前,旅游業(yè)也在“新常態(tài)” 下迎來了升級的挑戰(zhàn)和變革的機遇,新常態(tài)對于一般的經(jīng)濟部門是經(jīng)濟速度放慢、人均 GDP增速減小,很多
5、傳統(tǒng)行業(yè)在調(diào)整結(jié)構(gòu),但新常態(tài)對旅游行業(yè)卻是速度加快的。旅游大數(shù)據(jù)的解決之道,在于整合國內(nèi)多途徑的大數(shù)據(jù)源,形成旅游大數(shù)據(jù)生態(tài),為國內(nèi)旅游業(yè)提供大數(shù)據(jù)解決方案,促進旅游業(yè)的轉(zhuǎn)型升級。1.3 數(shù)據(jù)挖掘與大數(shù)據(jù)分析科研平臺建設(shè)的必要性數(shù)據(jù)挖掘與大數(shù)據(jù)分析是以計算機基礎(chǔ)為基礎(chǔ),以挖掘算法為核心,緊密面向行業(yè)應(yīng)用的一門綜合性學(xué)科。其主要技術(shù)涉及概率論與數(shù)理統(tǒng)計、數(shù)據(jù)挖掘、算法與數(shù)據(jù)結(jié)構(gòu)、計算機網(wǎng)絡(luò)、并行計算等多個專業(yè)方向,因此該學(xué)科對于科研平臺具有較高的專業(yè)要求??蒲衅脚_不僅要提供基礎(chǔ)的編程環(huán)境,還要提供大數(shù)據(jù)的運算環(huán)境以及用于科學(xué)研究的實戰(zhàn)大數(shù)據(jù)案例。這些素材的準(zhǔn)備均需完整的科研平臺作為支撐。目前,
6、在我國高校的專業(yè)設(shè)置上與數(shù)據(jù)挖掘與大數(shù)據(jù)分析相關(guān)的學(xué)科專業(yè)包括:計算機科學(xué)與技術(shù)、信息管理與信息系統(tǒng)、統(tǒng)計學(xué)、經(jīng)濟、金融、貿(mào)易、生物信息、旅游以及公共衛(wèi)生等。這些專業(yè)的在使用科研平臺時的側(cè)重點各不相同,使用人員層次水平也不相同,對算法的使用也不相同,因此,需要建設(shè)一個便利、操作簡易、算法全面、可視化的大數(shù)據(jù)科研平臺是非常有必要的。二 . 數(shù)據(jù)挖掘與大數(shù)據(jù)分析科研平臺總體規(guī)劃2.1 科研平臺規(guī)劃科研平臺建設(shè)的基本原則是科研為主,同時為教學(xué)實驗提供部分計算資源及安全資源,系統(tǒng)在授權(quán)范圍內(nèi)共享科研系統(tǒng)的計算資源,提高教學(xué)實驗的真實性。項目的總體架構(gòu)如圖1 所示。圖 1. 總體架構(gòu)圖系統(tǒng)整體由千兆核心
7、交換機作為核心節(jié)點,并以兩個千兆接入交換機作為科研與實驗環(huán)境的交換節(jié)點。 科研環(huán)境由我司開發(fā)的商業(yè)Hadoop 集群為基礎(chǔ),上層集成便于操作的大數(shù)據(jù)科研應(yīng)用系統(tǒng),集成10TB 大數(shù)據(jù)案例集及可拖拽的數(shù)據(jù)算法和可視化算法。2.2 科研平臺功能規(guī)劃本科研平臺針對數(shù)據(jù)挖掘有大數(shù)據(jù)分析研究內(nèi)容,兼顧科研與教學(xué)的需求,既能滿足科研工作中對大數(shù)據(jù)分析高性能平臺要求也具有教學(xué)實驗平臺簡單易用的特點。1) 大數(shù)據(jù)資源規(guī)劃內(nèi)置商業(yè)級數(shù)據(jù)資源,按常見科研分類規(guī)劃數(shù)據(jù)資源,可以直接用于科學(xué)研究,具有數(shù)據(jù)資源授權(quán)管控功能。2) 大數(shù)據(jù)分析功能規(guī)劃建設(shè)以商業(yè)版Hadoop為核心的大數(shù)據(jù)分析平臺,系統(tǒng)提供MapReduc
8、e及Spark等大數(shù)據(jù)挖掘 功能。系統(tǒng)具有完整的管理調(diào)度功能。3) 硬件資源功能規(guī)劃系統(tǒng)具有24個IntelXeonE5CPU計算能力,提供超過40TB的存儲能力以及1T以上的內(nèi)存,可滿足 1000任務(wù)共時計算內(nèi)能,方便擴充。三 . 數(shù)據(jù)挖掘與大數(shù)據(jù)分析科研平臺建設(shè)方案3.1 大數(shù)據(jù)科研平臺設(shè)備架構(gòu)圖 3. 設(shè)備架構(gòu)3.1.1 主節(jié)點和備份主節(jié)點主節(jié)點負(fù)責(zé)整個分布式大數(shù)據(jù)平臺的運行。主節(jié)點始終在內(nèi)存中保存整個文件系統(tǒng)的目錄結(jié)構(gòu), 每個目錄有哪些文件,每個文件有哪些分塊及每個分塊保存在哪個計算上,用于處理讀寫請求。同時, 主節(jié)點還負(fù)責(zé)將作業(yè)分解成子任務(wù),并將這些子任務(wù)分配到各個計算節(jié)點上。備份主
9、節(jié)點在主節(jié)點發(fā)生故障時承擔(dān)主節(jié)點的各種任務(wù),使得分布式大數(shù)據(jù)平臺仍然能夠正常運行。3.1.2 管理節(jié)點管理節(jié)點用于管理整個分布式大數(shù)據(jù)平臺,可進行節(jié)點安裝、配置、服務(wù)配置等,提供網(wǎng)頁窗口界面提高了系統(tǒng)配置的可見度,而且降低了集群參數(shù)設(shè)置的復(fù)雜度。3.1.3 接口節(jié)點終端用戶通過接口節(jié)點連接和使用分布式大數(shù)據(jù)平臺,提交任務(wù)并獲得結(jié)果,并可以用其他數(shù)據(jù)分析工具做進一步處理,與外界進行數(shù)據(jù)交互(如連接關(guān)系型數(shù)據(jù)庫)。3.1.4 計算節(jié)點分布式大數(shù)據(jù)平臺包含了多個計算節(jié)點。計算節(jié)點是系統(tǒng)中真正存儲數(shù)據(jù)和做數(shù)據(jù)運算的節(jié) 點。 每個計算節(jié)點周期性地和主節(jié)點通信,還時不時和客戶端代碼以及其他計算節(jié)點通信。計
10、算節(jié)點還維護一個開放的socket 服務(wù)器,讓客戶端代碼和其他計算節(jié)點通過它可以讀寫數(shù)據(jù),這個服務(wù)器還會匯報給主節(jié)點。3.2 大數(shù)據(jù)科研平臺底層架構(gòu)大數(shù)據(jù)科研平臺低層架構(gòu)以我司自主研發(fā)的商業(yè)版Hadoop 為基礎(chǔ)架構(gòu),包含和大數(shù)據(jù)分析、數(shù)據(jù)挖掘、機器學(xué)習(xí)等功能模塊,并以HDFS 以及 Hbase 作為存儲基礎(chǔ)。圖 2.軟件架構(gòu)3.2.1 分布式持久化數(shù)據(jù)存儲 HDFSHadoop分布式文件系統(tǒng)(HDFS)被設(shè)計成適合運行在通用硬件上的分布式文件系統(tǒng)。它和 現(xiàn)有的分布式文件系統(tǒng)有很多共同點。但同時,它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS 是一個高度容錯性的系統(tǒng),適合部署在廉價的機器
11、上。HDFS 能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS 放寬了一部分POSIX 約束,來實現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。3.2.2 分布式實時數(shù)據(jù)庫 HBaseHBase 是一個分布式的、面向列的開源數(shù)據(jù)庫,該技術(shù)來源于FayChang 所撰寫的Google論文 “ Bigtable : 一個結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系統(tǒng)”。 就像 Bigtable 利用了 Google 文件系統(tǒng) (所提供的分布式數(shù)據(jù)存儲一樣,HBase 在 Hadoop 之上提供了類似于BigTable 的能力。 HBase 是Apache 的 Hadoop 項目的子項目。HBase 不同于一般的關(guān)系數(shù)
12、據(jù)庫,它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個不同的是HBase 基于列的而不是基于行的模式。3.2.3 分布式資源調(diào)度管理 YARNYarn 是 Hadoop2.0 的 MapReduce 框架。 YARN 分層結(jié)構(gòu)的本質(zhì)是ResourceManager 。這個實體控制整個集群并管理應(yīng)用程序向基礎(chǔ)計算資源的分配。ResourceManager 將各個資源部分(計算、 內(nèi)存、 帶寬等) 精心安排給基礎(chǔ)NodeManager( YARN 的每節(jié)點代理)。 ResourceManager還與ApplicationMaster 一起分配資源,與NodeManager 一起啟動和監(jiān)視它們的基礎(chǔ)應(yīng)
13、用程序。在此上下文中,ApplicationMaster 承擔(dān)了以前的TaskTracker 的一些角色,ResourceManager 承擔(dān)了JobTracker 的角色。3.2.4 交互式 SQL 引擎 HiveHive 是基于 Hadoop 的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的SQL 查詢功能,可以將 SQL 語句轉(zhuǎn)換為MapReduce 任務(wù)進行運行。其優(yōu)點是學(xué)習(xí)成本低,可以通過類SQL 語句快速實現(xiàn)簡單的MapReduce 統(tǒng)計,不必開發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。3.2.5 內(nèi)存計算 SparkSpark 是 UC
14、BerkeleyAMP 實驗室所開源的類HadoopMapReduce 的通用的并行計算框架。Spark 擁有HadoopMapReduce 所具有的優(yōu)點;但不同于MapReduce 的是 Job 中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學(xué)習(xí)等需要迭代的MapReduce 算法。3.3 科研平臺的功能3.3.1 科研項目管理在科研平臺中,科研計算是以計算項目來保存的,包括了計算項目建立、計算項目維護、計算項目設(shè)計、計算項目運行和結(jié)果可視化等幾個環(huán)節(jié)。從技術(shù)角度來說,計算項目中也包括了算法組件、算法流程和數(shù)據(jù)集,一旦設(shè)計完后,就可用于計算
15、,后期還可以調(diào)整算法和基于新的數(shù)據(jù)資源進行計算。計算項目完成后,可以訓(xùn)練出算法模型,在新的計算項目中使用已經(jīng)訓(xùn)練好的模型進行數(shù)據(jù)的預(yù)測,形成一次訓(xùn)練多次使用的算法實現(xiàn)。3.3.2 平臺內(nèi)置數(shù)據(jù)集在科研工作中,如何獲取到海量高質(zhì)量大數(shù)據(jù)資源是最大的難點。目前在互聯(lián)網(wǎng)等渠道是很難找到科研工作所需的數(shù)據(jù)源,尤其是經(jīng)過數(shù)據(jù)清洗和治理后的高質(zhì)量數(shù)據(jù)。數(shù)據(jù)超市平臺利用以下模式,通過外部的資源,為高校的科研工作提供優(yōu)質(zhì)數(shù)據(jù)資源:1 )通過商務(wù)合作的模式,直接與數(shù)據(jù)所有權(quán)擁有者進行靈活的商務(wù)溝通,獲得科研的數(shù)據(jù)使用授權(quán);2)邀請行業(yè)內(nèi)優(yōu)質(zhì)的第三方數(shù)據(jù)服務(wù)提供商入駐數(shù)據(jù)超市平臺;3)通過數(shù)據(jù)采集的方式,經(jīng)過數(shù)據(jù)
16、尋源、采集、治理、清洗后,引入具有公開版權(quán)的數(shù)據(jù)資 源;所有引入數(shù)據(jù)都會經(jīng)過數(shù)據(jù)工程師的嚴(yán)格審核,保證數(shù)據(jù)的清潔和質(zhì)量,可以直接用于數(shù)據(jù)計 算。如平臺內(nèi)置的專利數(shù)據(jù),包括了國內(nèi)近 2000萬各類商業(yè)數(shù)據(jù),并且不斷更新,可以直接用于 旅游各方面的科學(xué)研究。有別區(qū)目前行業(yè)提供的數(shù)據(jù)庫,數(shù)據(jù)超市直接提供了原始的數(shù)據(jù),可以打 通其他的行業(yè)數(shù)據(jù),用于深層次的數(shù)據(jù)分析和經(jīng)濟預(yù)測。3.3.3 科研數(shù)據(jù)上傳科研老師已有的數(shù)據(jù)可以上傳到平臺參與數(shù)據(jù)計算,老師可以在平臺上建立數(shù)據(jù)表,然后把本 地數(shù)據(jù)文件上傳到數(shù)據(jù)表中。也可以維護外部的 JDBC數(shù)據(jù)源,平臺會把外部數(shù)據(jù)自動抽取到平 臺中進行計算和預(yù)測。3.3.4
17、集成算法組件為了便于科研老師快速進行科研數(shù)據(jù)的加工、分析和計算,數(shù)據(jù)超市平臺集成了50多種通用大數(shù)據(jù)算法組件,包括回歸算法、分類算法、聚類算法、關(guān)聯(lián)規(guī)劃算法、推薦算法、預(yù)測評估、數(shù) 據(jù)預(yù)處理算法、機器學(xué)習(xí)等。所有的算法無須重新編程,只需要拖拽繪圖完成即可進行計算,如下 圖:讀數(shù)據(jù)源表舊$4增制序號列465o SC. . T.1.I:Z機用學(xué)習(xí)小贛器玨處理*跣計君新持證工程士文本苗折+ TA十 口片分析+熟翳可視此+ 標(biāo)算法組件經(jīng)過配置可以實現(xiàn)強大的自定義計算功能和效果, 調(diào)整后的模型可以完成老師需要的 數(shù)據(jù)分析和預(yù)測3.3.5 科研平臺可視化功能提供20余種可視化展示模式,一鍵選擇,一鍵切換,
18、可按使用者需求展示大數(shù)據(jù)之美,根據(jù) 需要展示對應(yīng)的緯度,并可以一鍵生成高質(zhì)量PNG文件,保存到本地后可用于科研報告和論文等。4 .平臺數(shù)據(jù)集清單科研平臺為方便用戶快速開展科學(xué)研究、生成科研數(shù)據(jù)報告,平臺提供了一些通用的數(shù)據(jù)集, 包括各類標(biāo)準(zhǔn)科研數(shù)據(jù)等。平臺也內(nèi)置了數(shù)百款可選數(shù)據(jù)集,分為多個數(shù)據(jù)包,總量近 10TB,并且隨商務(wù)和采集工作推 進,仍在不斷增加中。5 .定制數(shù)據(jù)服務(wù)根據(jù)科研老師的需求,數(shù)據(jù)超市平臺提供數(shù)據(jù)采集和商務(wù)合作等定制數(shù)據(jù)引入模式,數(shù)據(jù)引入后,可以直接引入數(shù)據(jù)超市,由老師來進行使用。如老師需要旅游服務(wù)評價類數(shù)據(jù)進行服務(wù)情況的分析和預(yù)測, 可以直接通過數(shù)據(jù)超市內(nèi)的數(shù)據(jù) 定制模塊提
19、出數(shù)據(jù)需求,經(jīng)數(shù)據(jù)超市平臺管理員匯總后,可以通過數(shù)據(jù)超市平臺進行數(shù)據(jù)的準(zhǔn)備, 交給老師進行使用。6 .科研平臺算法清單平臺集成的算法包括72種,全部來自科研網(wǎng)站,經(jīng)過了商業(yè)機構(gòu)的驗證,引入平臺后完成了 分布式優(yōu)化,可以高效執(zhí)行,詳細如下表:序號算法分類算法名稱算法描述1回歸算法線性回歸利用線性模型對數(shù)值型變量進行擬合。2回歸算法決策樹回歸利用平方誤差最小化準(zhǔn)則,進行特征選擇,生成二叉樹,從而對對數(shù)值型變量進行擬合3回歸算法隨機森林回歸以回歸決策樹為基模型,將一定數(shù)量的基模型組合 對數(shù)值型變量擬合,并對基模型的預(yù)測結(jié)果平均作為算法的最終結(jié)果4回歸算法梯度提升回歸樹以二叉回歸決策樹為基函數(shù)的加法模
20、型與前向分 步結(jié)合的算法,通過對損失函數(shù)在當(dāng)前模型的預(yù)測 值的梯度作為近似殘差進行擬合,從而對數(shù)值型變 量預(yù)測。5分類算法邏輯回歸二分類對目標(biāo)變量為二值型分類變量,建立參數(shù)化邏輯斯 諦分布,即sigmoid函數(shù),近似條件概率分布,以 實現(xiàn)二值分類。6分類算法邏輯回歸多分類邏輯回歸多分類,k個獨立的logistic回歸分類器與 onevsall結(jié)合的分類模型,分類對象類別之間不是互 斥的7分類算法Softmax回歸多分類Softmax回歸就是邏輯回歸的一般形式,是logistic回歸模型在多分類問題上的推廣,分類對象類別是互斥的8分類算法決策樹分類禾用信息增益準(zhǔn)則或基尼指數(shù)最小化準(zhǔn)則,進行特 征
21、選擇,生成二叉樹,從而對對目標(biāo)變量為離散變 量的數(shù)據(jù)進行分類9分類算法隨機森林分類以分類決策樹為基模型,將一定數(shù)量的基模型組合 對離散型的目標(biāo)變量擬合,并根據(jù)基模型的預(yù)測結(jié) 果進行投票,以占多數(shù)結(jié)果的種類作為算法的最終 結(jié)果10分類算法梯度提升分類樹以二叉分類決策樹為基函數(shù)的加法模型與前向分 步結(jié)合的算法,通過對損失函數(shù)在當(dāng)前模型的預(yù)測 值的梯度作為近似殘差進行擬合,從而對分類型目 標(biāo)變量預(yù)測。11分類算法BP神經(jīng)網(wǎng)絡(luò)以感知器為基函數(shù),通過將當(dāng)前基函數(shù)的的輸出作 為下一個感知器的輸入,從而實現(xiàn)對離散型分類變 量的分類12分類算法貝葉斯分類基于貝葉斯定理與特征條件獨立假設(shè),對給定數(shù)據(jù) 集,學(xué)習(xí)輸
22、入輸出的聯(lián)合概率分布,利用貝葉斯原 理輸出后驗概率最大的預(yù)測類作為預(yù)測結(jié)果13分類算法支持向量機分類在感知機的基礎(chǔ)上,通過在特征空間上間隔最大和核技巧,實現(xiàn)對二類目標(biāo)變量分類14聚類算法K均值聚類將無標(biāo)記樣本根據(jù)特征空間中的數(shù)據(jù)結(jié)構(gòu),劃入K個不相交的子集中15聚類算法二分K均值聚類K均值聚類的改進版,能克服原算法收斂局部最小 的缺點,每次選其中一簇分成兩簇。16聚類算法高斯混合模型對于符合高斯分布的數(shù)據(jù),假設(shè)存在 K個高斯模 型,將數(shù)據(jù)反復(fù)迭代,期望極大化。將樣本聚到后 驗概率最大的模型類下。17關(guān)聯(lián)規(guī)則算法頻繁項集挖掘算法(FP-Growth)主要分為兩個步驟:FP-tree構(gòu)建、遞歸挖掘F
23、P-trea挖掘出共同出現(xiàn)的頻繁物品集。18推薦算法協(xié)同過濾算法協(xié)同過濾是在海量數(shù)據(jù)中挖掘出某部分與目標(biāo)客 戶行為類似的數(shù)據(jù),并根據(jù)某種指標(biāo)對其進行排 序。19預(yù)測評估分類預(yù)測及評估分類算法中,在已有訓(xùn)練數(shù)據(jù)訓(xùn)練模型的基礎(chǔ)上, 將未訓(xùn)練的數(shù)據(jù)代入算法中,預(yù)測結(jié)果與實際目標(biāo) 變量比對評估,檢測模型的性能。20預(yù)測評估回歸預(yù)測及評估回歸算法中,在已有訓(xùn)練數(shù)據(jù)訓(xùn)練模型的基礎(chǔ)上, 將未訓(xùn)練的數(shù)據(jù)代入算法中,預(yù)測結(jié)果與實際目標(biāo) 變量比對評估,檢測模型的性能。21預(yù)測評估聚類預(yù)測及評估聚類算法中,在已有訓(xùn)練數(shù)據(jù)訓(xùn)練模型的基礎(chǔ)上, 將未訓(xùn)練的數(shù)據(jù)代入算法中,預(yù)測結(jié)果與實際數(shù)據(jù) 類型比對評估,檢測模型的性能。
24、22預(yù)測評估推薦評估推薦算法中,在已有訓(xùn)練數(shù)據(jù)訓(xùn)練模型的基礎(chǔ)上, 將未訓(xùn)練的數(shù)據(jù)代入算法中,預(yù)測結(jié)果與物品類目 比對評估,檢測模型的性能。23數(shù)據(jù)預(yù)處理歸一化將有量綱的數(shù)據(jù)轉(zhuǎn)化為無量綱的數(shù)據(jù),min-max標(biāo)準(zhǔn)化24數(shù)據(jù)預(yù)處理Join-兩表關(guān)聯(lián)類似sqljoin的功能,將兩張表通過一個字段對或者多個字段對的相等關(guān)系關(guān)聯(lián)合成一張表25數(shù)據(jù)預(yù)處理類型轉(zhuǎn)換(string類型轉(zhuǎn)換數(shù)值類型)將不同數(shù)據(jù)的類型按需要進行轉(zhuǎn)換26數(shù)據(jù)預(yù)處理Union對不同數(shù)據(jù)集取并集27數(shù)據(jù)預(yù)處理標(biāo)準(zhǔn)化/正則化標(biāo)準(zhǔn)化是將數(shù)據(jù)縮放到一個區(qū)間范圍內(nèi),如正態(tài)分 布,小數(shù)定標(biāo),邏輯斯諦分布。正則化是利用先驗 知識,對模型增加約束,防
25、止過擬合。28數(shù)據(jù)預(yù)處理缺失值填充對數(shù)據(jù)中某項數(shù)值所對應(yīng)的某些樣本缺失,通過某 種先驗假設(shè),根據(jù)樣本其他已知數(shù)據(jù)項對缺失值擬合預(yù)測。29數(shù)據(jù)預(yù)處理拆分按照比例拆分樣本集,如設(shè)置0.6,切分成60:40兩 個樣本集。30數(shù)據(jù)預(yù)處理隨機采樣當(dāng)數(shù)據(jù)量過大或模型訓(xùn)練批容量有限時,隨機采取 一定量/比例的樣本集。31數(shù)據(jù)預(yù)處理增加序列號在數(shù)據(jù)表第一列追加ID歹U。32數(shù)據(jù)預(yù)處理Select數(shù)據(jù)庫查詢操作,查詢某限定條件下的樣本33數(shù)據(jù)預(yù)處理Select_Distinct數(shù)據(jù)庫查詢操作,查詢某限定條件下并過濾掉重復(fù)的樣本34數(shù)據(jù)預(yù)處理Select_Where數(shù)據(jù)庫查詢操作,查詢指定條件下的樣本35數(shù)據(jù)預(yù)處
26、理Select_And_Or數(shù)據(jù)庫查詢操作,查詢條件的交集與并集36數(shù)據(jù)預(yù)處理Select_OrderBy數(shù)據(jù)庫查詢操作,查詢結(jié)果按某指標(biāo)排序37數(shù)據(jù)預(yù)處理Select_Limit數(shù)據(jù)庫查詢操作,查詢某限定段的數(shù)據(jù)38數(shù)據(jù)預(yù)處理Select_Like數(shù)據(jù)庫查詢操作,查詢包含指定字段的數(shù)據(jù)39特征工程主成分分析數(shù)據(jù)降維去噪常用方法,對數(shù)據(jù)的協(xié)方差矩陣取前K個最大方差方向作為新的數(shù)據(jù)方向。40特征工程Onehot編碼用戶將特征值進行二元編碼映射成二元向量,并與數(shù)值向量進行拼接42特征工程特征尺度變換由于計算需要或根據(jù)數(shù)據(jù)特點將某特征對應(yīng)數(shù)據(jù)項進行縮放,不改變樣本間該數(shù)值項的相對大小43特征工程特征
27、重要性分析指根據(jù)數(shù)據(jù)集各項特征在算法模型中對目標(biāo)變量的相對重要程度的分析,從而提出冗余特征,關(guān)注重要特征,提高算法模型的效率準(zhǔn)確性44特征工程特征離散對連續(xù)型特征按某方法轉(zhuǎn)換為離散型變量45文本分析SplitWord分布式j(luò)ieba分詞接口,基于Trie樹結(jié)構(gòu)實現(xiàn)高效 的詞圖掃描,生成句子中漢字所有可能成詞情況所 構(gòu)成的有向無環(huán)圖(DAG);采用了動態(tài)規(guī)劃查找 最大概率路徑,找出基于詞頻的最大切分組合;對于 未登錄詞,采用了基于漢字成詞能力的 HMM模型, 使用了 Viterbi算法46文本分析文檔主題生成模型(LDA )LDA(LatentDirichletallocation),是一種主題
28、模型,它可以將文檔集中每篇文檔的主題按照概率分布的形式給出。同時它是一種無監(jiān)督學(xué)習(xí)算法,在訓(xùn) 練時不需要手工標(biāo)注的訓(xùn)練集,需要的僅僅是文檔 集以及指定主題的數(shù)量k即可。LDA首先由 DavidM.Blei、AndrewY.Ng 和 Michaell.Jordan 于 2003年提出,目前在文本挖掘領(lǐng)域包括文本主題識 另h文本分類以及文本相似度計算方面都有應(yīng)用。47文本分析TF特征將文本文檔的集合轉(zhuǎn)換為詞頻計數(shù)的向量。48文本分析HashingTF 特征使用散列技巧將一系列詞語映射到其詞頻的向量, HashingTF的過程就是對每一個詞作了一次哈希并 對特征維數(shù)取余得到該詞的位置,然后按照該詞出
29、 現(xiàn)的次數(shù)計次。所以就不用像傳統(tǒng)方法一樣每次維 護一張詞表,運用HashingTF就可以方便的得到該 詞所對應(yīng)向量元素的位置。當(dāng)然這樣做的代價就是 向量維數(shù)會非常大,好在spark可以支持稀疏向量, 所以計算開銷并不大。49文本分析TF-IDF特征TF-IDF (termfrequency inversedocumentfrequency) 是一種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù)。TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個 文件集或一個語料庫中的其中一份文件的重要程 度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正 比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成 反比下降。TF-IDF加
30、權(quán)的各種形式常被搜索引擎應(yīng) 用,作為文件與用戶查詢之間相關(guān)程度的度量或評 級。50文本分析字符串相似度一個字符串轉(zhuǎn)換成另外一個字符串的代價,轉(zhuǎn)換的代價越高則說明兩個字符串的相似度越低。51文本分析停用詞過濾針對文檔數(shù)據(jù),將包含的特定詞匯過濾掉,不計入統(tǒng)計數(shù)據(jù)中52文本分析Word2VecWord2Vec是一種著名的詞嵌入(WordEmbedding) 方法,它可以計算每個單詞在其給定語料庫環(huán)境下 的分布式詞向量(DistributedRepresentation,亦直 接被稱為詞向量)。詞向量表示可以在一定程度上 刻畫每個單詞的語義。如果詞的語義相近,它們的 詞向量在向量空間中也相互接近,這使
31、得詞語的向 量化建模更加精確,可以改善現(xiàn)有方法并提高魯棒 性。詞向量已被證明在許多自然語言處理問題,如:機器翻譯,標(biāo)注問題,實體識別等問題中具有非常 重要的彳用。Word2Vec具有兩種模型,其一是CBOW,其思想是通過每個詞的上下文窗口詞詞向量來預(yù)測中心詞的詞向量。其二是Skip-gram,其思想是通過每個中心詞來預(yù)測其上下文窗口詞,并 根據(jù)預(yù)測結(jié)果來修正中心詞的詞向量。該組件目前 只支持后者。53文本分析詞頻統(tǒng)計在對文章進行分詞的基礎(chǔ)上,按行保序輸出對應(yīng)文章ID列(docId)對應(yīng)文章的詞,統(tǒng)計指定文章ID列(docId)對應(yīng)文章內(nèi)容(docContent)的詞頻。54文本分析文本摘要通過
32、pagerank算法計算得到的重要性最高的若干句子可以當(dāng)作摘要。55文本分析關(guān)鍵詞提取全面把握文章的中心思想的基礎(chǔ)上,提取出若干個代表文章語義內(nèi)容的詞匯或短語56文本分析長句拆分根據(jù)長句中的標(biāo)點符號將句子進行分割成多個短句57工具算法sql腳本用戶可以在該組件自定義的 SQL腳本從而完成對數(shù)據(jù)的轉(zhuǎn)換處理58統(tǒng)計分析單樣本T檢驗單樣本T檢驗:單樣本t檢驗(one-samplet-test又稱單樣本均數(shù)t檢驗,適用于樣本均數(shù) x與已知 總體均數(shù)U0的比較,其比較目的是檢驗樣本均數(shù) x 所代表的總體均數(shù)u0是否與已知總體均數(shù)u0有差 另限已知總體均數(shù)u0, 一般為標(biāo)準(zhǔn)值、理論值或經(jīng) 大量觀察得到的較
33、穩(wěn)定的指標(biāo)值。T檢驗的前提是 樣本總體服從正態(tài)分布59統(tǒng)計分析配對樣本均數(shù)T檢驗配對樣本均數(shù)t檢驗(pairedttest),又稱非獨立兩樣 本均數(shù)t檢驗,適用于配對設(shè)計計量資料均數(shù)的比 較,其比較目的是檢驗兩相關(guān)樣本均數(shù)所代表的未 知總體均數(shù)是否有差別。60統(tǒng)計分析兩獨立樣本均數(shù)T檢驗兩獨立樣本t檢驗(two-samplet-test),又稱成組t檢 驗,它適用于完全隨機設(shè)計的兩樣本均數(shù)的比較, 其目的是檢驗兩樣本所來自總體的均數(shù)是否相等。 完全隨機設(shè)計是將受試對象隨機地分配到兩組中, 每組對象分別接受不同的處理,分析比較兩組的處 理效應(yīng)。61統(tǒng)計分析方差齊性檢驗由兩樣本方差推斷兩總體方差是否相同。有三種方差齊性檢驗的方法可供選擇。選用Bartlett檢驗:如果我們的數(shù)據(jù)服從正態(tài)分布,那么這種方法將是最為適用的。對于正態(tài)分布的數(shù)據(jù),這種檢驗極為 靈敏;而當(dāng)數(shù)據(jù)為非正態(tài)分布時,使用該方法則很 容易導(dǎo)致假陽性誤判。Levene檢驗:當(dāng)樣本數(shù)據(jù)偏 態(tài)或者非正態(tài)性的情況下,選用 Levene檢驗魯棒 性與精度比Bartlett檢驗女Fligner-Killeen檢驗: 這是一個非參數(shù)的檢驗方法,完全不依賴于對分布 的假設(shè)。62統(tǒng)計分析卡方適配度檢驗卡方適配度檢驗,Chi-SquareGoodnessofFitTest驗證一組觀察值的次數(shù)分配是否異
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年企業(yè)用車借用協(xié)議范本3篇
- 2025年度文化旅游融合項目投資借款協(xié)議
- 買賣合同第三方保證擔(dān)保合同(2024版)
- 二零二五年度旅行社旅游培訓(xùn)合作合同4篇
- 2025年度女方婚內(nèi)出軌離婚財產(chǎn)分割及贍養(yǎng)費協(xié)議
- 2025年度個人商鋪租賃合同能源消耗監(jiān)測與管理合同4篇
- 2025年度個人與企業(yè)間特殊用途車輛租賃合同3篇
- 二零二五年度農(nóng)民工勞動保護補貼發(fā)放合同標(biāo)準(zhǔn)
- 2024苗木運輸合同范本全面規(guī)范運輸過程中的風(fēng)險防控3篇
- 二零二五年度加油站LED廣告屏安裝裝修合同3篇
- 北師大版小學(xué)三年級上冊數(shù)學(xué)第五單元《周長》測試卷(含答案)
- DB45T 1950-2019 對葉百部生產(chǎn)技術(shù)規(guī)程
- 資源枯竭型城市的轉(zhuǎn)型發(fā)展 課件 2024-2025學(xué)年高二上學(xué)期地理人教版選擇性必修2
- 2025屆河北省衡水市衡水中學(xué)高考仿真模擬英語試卷含解析
- 新修訂《保密法》知識考試題及答案
- 電工基礎(chǔ)知識培訓(xùn)課程
- 住宅樓安全性檢測鑒定方案
- 廣東省潮州市潮安區(qū)2023-2024學(xué)年五年級上學(xué)期期末考試數(shù)學(xué)試題
- 市政道路及設(shè)施零星養(yǎng)護服務(wù)技術(shù)方案(技術(shù)標(biāo))
- 選擇性必修一 期末綜合測試(二)(解析版)2021-2022學(xué)年人教版(2019)高二數(shù)學(xué)選修一
- 《論語》學(xué)而篇-第一課件
評論
0/150
提交評論