基于Spark的交互式數(shù)據(jù)探索與建模系統(tǒng)_第1頁
基于Spark的交互式數(shù)據(jù)探索與建模系統(tǒng)_第2頁
基于Spark的交互式數(shù)據(jù)探索與建模系統(tǒng)_第3頁
基于Spark的交互式數(shù)據(jù)探索與建模系統(tǒng)_第4頁
基于Spark的交互式數(shù)據(jù)探索與建模系統(tǒng)_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、DI:基于SPARK的交互式數(shù)據(jù)探索與建模系統(tǒng)企業(yè)級應(yīng)用中,BI已經(jīng)滿足不了業(yè)務(wù)人員的數(shù)據(jù)分析需求用戶越來越希望用高級數(shù)據(jù)分析方法提升業(yè)務(wù)能力開發(fā)數(shù)據(jù)價值依賴于大量的懂業(yè)務(wù)的數(shù)據(jù)分析人員需要強(qiáng)大易用的大數(shù)據(jù)分析系統(tǒng)大數(shù)據(jù)分析需求變化大數(shù)據(jù)分析需要掌握這么多裝備數(shù)據(jù)分析往往利用多種編程語言或系統(tǒng)管理不同的數(shù)據(jù)挖掘任務(wù)和機(jī)器學(xué)習(xí)流程需要掌握從分布式系統(tǒng)到數(shù)據(jù)分析等眾多門檻很高的工具和技能為什么不能有這樣的分析工具?針對普通的數(shù)據(jù)分析人員幾乎不需要編程開發(fā)分布式程序提供直觀易用的圖形化系統(tǒng)界面提供可擴(kuò)展的數(shù)據(jù)分析手段可處理大規(guī)模數(shù)據(jù)集計(jì)算能力可線性增加部署運(yùn)維簡單技術(shù)選型:Spark基于內(nèi)存的架構(gòu)極

2、大的減少了磁盤I/O通用任務(wù)上20-100 x速度的提升精簡且表達(dá)力強(qiáng)大的語法(如Spark2.0的Dataframe)統(tǒng)一的編程模型能用主流的編程語言Java,Phthon,Scala新工具減少使用的障礙(Spark2.0支持SQL2003)和已有的Hadoop生態(tài)系統(tǒng)能很好的工作大量的社區(qū)貢獻(xiàn)者持續(xù)的對Spark技術(shù)棧組件進(jìn)行持續(xù)的 快速更新性能高效利用Hadoop資產(chǎn)持續(xù)改進(jìn)通過增加機(jī)器計(jì)算能力實(shí)現(xiàn)整體分析能力的線性擴(kuò)展單個計(jì)算節(jié)點(diǎn)失效后自動重算利用自動持久化確保整個計(jì)算過程可靠完成擴(kuò)展性Spark2.0的性能Iteration 1CPUMemoryIteration 2CPUMemor

3、yZero Read/Write Disk BottleneckHDFSReadInputChain Job Output Into New Job InputSparkDI:交互式數(shù)據(jù)探索框架常駐內(nèi)存 服務(wù)TorandoWeb服務(wù)js每個工程運(yùn)行在一個單 獨(dú)的Spark環(huán)境Spark環(huán)境資源由YARN 分配調(diào)度DI和Spark常駐內(nèi)存, 通過消息隊(duì)列交互利用RDD保存探索過程 中的各種中間表DI概覽操作對象抽象為表函數(shù)式編程思想所有算子不改變原表 數(shù)據(jù)增加列或生成新表新表單獨(dú)保存算子操作異步運(yùn)行記錄算子流程DAG流程持久化,實(shí)現(xiàn)自 動批處理數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)準(zhǔn)備抽樣過濾均勻/隨機(jī)/分層抽樣多條件組

4、合過濾根據(jù)距離/密度/局部離群 因子/類離群因子/離群點(diǎn) 檢測的聚類過濾離群點(diǎn)去重合并左右連接Join取交集/并集合并Merge多列聯(lián)合主鍵去重識別并移除冗余變量構(gòu)造根據(jù)已有變量拆分/組合/抽取/ 運(yùn)算生成新變量支持?jǐn)?shù)學(xué)/統(tǒng)計(jì)/文本/日期等100多種函數(shù)運(yùn)算及其邏輯組合根據(jù)離散或連續(xù)分布函數(shù)/等差/等比/日期分布等生成基礎(chǔ)列 數(shù)據(jù)歸一化分箱按根據(jù)字典數(shù)據(jù)替換不同變量進(jìn)行取值區(qū)間歸一化連續(xù)變量離散化等頻/等距/Bootstrap/聚類等分箱利用變量統(tǒng)計(jì)值填充空值將數(shù)值型數(shù)據(jù)按箱子的個數(shù)進(jìn)行等距離分箱,得到每一 行的年齡數(shù)據(jù)歸屬于哪一個 年齡段的數(shù)據(jù)典型功能文本抽取等距分箱文本分析利用文檔預(yù)處理、

5、自然語言處理、主題檢測等功能分析文本數(shù)據(jù),便于數(shù)據(jù)分析人員處理非結(jié) 構(gòu)化文本數(shù)據(jù)。文本分析文本挖掘詞句段切分支持多種不同的詞語切分 方法和用戶詞典加載提供段落和句子切分功能提供新詞發(fā)現(xiàn)功能,利用 互信息熵、條件隨機(jī)場 CRF等算法實(shí)體識別提取標(biāo)準(zhǔn)實(shí)體,如人名、地名、 時間、日期和物理量等提取特定領(lǐng)域的概念特征詞抽取提供TFIDF統(tǒng)計(jì)計(jì)算利用TextRank算法抽取特 征詞Word2vec詞向量模型文本分類文本聚類文檔矩陣主題分析典型算子:特征詞提取從目標(biāo)文本中按某種算法提取關(guān)鍵詞TFIDF算法TextRank算法將待抽取關(guān)鍵詞的文本進(jìn)行分詞固定長度為n(通常取5)的窗口,在一個窗口中的任兩個單

6、詞對 應(yīng)的節(jié)點(diǎn)之間存在一個無向無權(quán)的邊基于窗口分割后的邊構(gòu)建TextGraph圖,利用PageRank計(jì)算每個 節(jié)點(diǎn)的重要性得到最重要的k個節(jié)點(diǎn)即提取出了k個關(guān)鍵詞長度為3的窗口信息熵定義新詞識別詞頻自由度(片段所有可能左右鄰的混亂程度)例句:利用公用配電負(fù)荷歷史負(fù)載率以及中長期配電負(fù)荷預(yù) 測結(jié)果,結(jié)合配變的容量,指出負(fù)荷容量不足和容量過剩的 配變。片段“負(fù)荷”的所有左鄰字實(shí)例為電, 出 熵為 - (ln() + ln() 0.693片段“負(fù)荷”的所有右鄰字實(shí)例為歷, 預(yù), 容 熵為 - (ln() + 1/3ln(1/3) + 1/3ln(1/3) 1.08“負(fù)荷”的右鄰字比左鄰字更豐富更靈

7、活凝合度令n為文本的長度,令f(x)為字符串x在文本中出現(xiàn)的次數(shù)令p(x)為f(x)/n,即字符串x出現(xiàn)的概率定義“負(fù)載率”的可拆分度為:max(p(負(fù))p(載率) / p(負(fù)載率), p(負(fù)載)p(率) / p(負(fù)載率)典型算子:新詞識別利用知網(wǎng)電力領(lǐng)域期刊全文數(shù)據(jù)50G文本數(shù)據(jù)抽取新詞1100個俄統(tǒng)國際生物質(zhì)燃料 熱電聯(lián)產(chǎn) 能源消費(fèi)電價基 固體生物質(zhì)抽 水蓄能農(nóng)村電氣化生物甲烷聯(lián) 合循環(huán) 資產(chǎn)融資 乙醇燃料國際電 力運(yùn)輸燃料南卡生物質(zhì)柴油生物質(zhì)供熱并網(wǎng)太陽能 燃料混合礦產(chǎn)能源部??松梨谔?太陽能法令光伏組件并網(wǎng)光伏 全球光伏卡 奧拉巴薩能源國際燃料車稅收激勵 許權(quán)招標(biāo)亞聯(lián)邦 徑流式燃能系

8、統(tǒng)典型算子:詞語語義距離分析Word2Vecl 每個詞表示為一個高維向量l 利用多層神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)語言模型訓(xùn)練 出詞的向量表示l 利用空間向量模型Cos計(jì)算距離探索分析探索分析離散相關(guān)分析特征降維(列相關(guān)分析)變量聚類主成分分析PCA支持維度的層次劃分支持多種度量的計(jì)算函數(shù)變量統(tǒng)計(jì)描述性數(shù)據(jù)統(tǒng)計(jì),包括常 見統(tǒng)計(jì)量、分位數(shù)等提供變量概率密度和直方 圖,以及分布推斷實(shí)現(xiàn)變量信息熵和信息值IV計(jì)算多維分組匯總OLAP行相關(guān)分析關(guān)聯(lián)規(guī)則分析,支持頻繁 項(xiàng)集的交互式篩選對連續(xù)和離散變量的 K 均值聚類,自動估計(jì)最佳 聚類數(shù)量,輸出整個數(shù)據(jù) 集的聚類歸屬和距離測量 值超過20種相似性距離測量 方法相關(guān)性度

9、量:pearson、spearman、余弦相關(guān)系數(shù)、互 信息等共現(xiàn)矩陣分析自相關(guān)矩陣分析互相關(guān)矩陣分析典型算子1:多維分組統(tǒng)計(jì)利用cube進(jìn)行分組匯總16ItemColorQtySumTableBlue123TableRed223ChairBlue101ChairRed210ItemColorQtySumTableBlue123TableRed223TableALL347ChairBlue101ChairRed210ChairALL311ALLBlue225ALLRed433ALLALl658提供了對數(shù)據(jù)進(jìn)行多種維度、多種度 量方法進(jìn)行匯總展示的功能??焖佾@取數(shù)據(jù)的宏觀統(tǒng)計(jì)信息。X5 X6 X

10、7是維度,以交叉表的方式展現(xiàn)了分類 匯總的統(tǒng)計(jì)信息分組匯總示例支持維度、指標(biāo)的交互式拖 拽和實(shí)時計(jì)算相關(guān)性分析基礎(chǔ):距離度量方法典型算子2:特征降維(列相關(guān))用途數(shù)據(jù)建模則需要快速挖掘出與目標(biāo)相關(guān)度最高的特征建模前無法確定輸入變量對目標(biāo)變量的預(yù)測能力,把可能的基礎(chǔ)變量和衍 生變量放到模型中,但這些變量特別是衍生變量之間可能會存在相關(guān)性, 會導(dǎo)致模型的多重共線性,從而造成模型整體預(yù)測能力的下降。例子保險業(yè)務(wù)保單號、被保險人、車牌號、保費(fèi)收入、起保日期、已賺保費(fèi)解決方法主成分分析/卡方檢驗(yàn)/嶺回歸等(無法解釋)變量聚類采用相關(guān)系數(shù),夾角余弦和列聯(lián)系數(shù)來尋找反映元素之間親疏關(guān)系的統(tǒng)計(jì)量, 然后依據(jù)此

11、把變量分為若干組。把高度相關(guān)的變量聚到一組,每一組內(nèi)的變量之間信息重合度很高,互補(bǔ)性很 弱,而組間的變量相關(guān)性則很低,信息重合度很弱,互補(bǔ)性很強(qiáng)。從每一組選擇一兩個最具有代表性的變量代表整個類別,參與建模。論文數(shù)據(jù)問題:科研合作分析探索的是作者之間的合作關(guān)系 相關(guān)性方法支持pearson、cos典型算子3:離散自相關(guān)矩陣分析C1C2C3C4C5R1X1Y1A1,A2,A3B1,B2,B3Z1R2X2Y2A2,A3B2,B4Z2R3X3Y3A1,A4,A5B2,B3,B6Z3R4X4Y4A2,A5B1,B4Z4R5X5Y5A3,A4B1,B5Z5R1R2R3R4R5A110100A211010A

12、311001A400101A500110A1A2A3A4A5A11111A21201A31210A41011A51101A1A2A3A4A5A110.4080.4080.50.5A20.40810.66700.408A30.4080.66710.4080A40.500.40810.5A50.50.40800.51A1A2A3A4A5A11-0.167-0.1670.1670.167A2-0.16710.167-1-0.167A3-0.1670.1671-0.167-1A40.167-1-0.16710.167A50.167-0.167-10.1671原始數(shù)據(jù)表矩陣變換共現(xiàn)相關(guān)性cos相關(guān)性pe

13、arson相關(guān)性投影應(yīng)用:保險欺詐合謀分析案件編號人員車牌地點(diǎn)金額344561段建華,張 華,許衛(wèi)湘A2BA32,湘AA1391,湘 ZG00069板倉南路20000344562羅堅(jiān),肖蓉湘J7ZH83,湘AL5S85開元西路50000344563王麗萍,劉 雙泉湘A65N90,湘A1661K壽昌路100000344564彭發(fā)兵,周 輝,蘇英雄湘A2ZB92,湘B2HL12,湘 A2KA19人民路70000344565張斌,王麗 萍,湘AT8137,湘A65N90湘江東路10000344567344568344569344570344571謝前01101敬春橋00010羅堅(jiān)01001肖蓉001

14、00劉雙泉01000謝前敬春 橋羅堅(jiān)肖蓉劉雙 泉謝前0211敬春 橋0000羅堅(jiān)2001肖蓉1000劉雙 泉1010謝前敬春橋羅堅(jiān)肖蓉劉雙泉謝前100.8160.5770.577敬春橋01000羅堅(jiān)0.8160100.707肖蓉0.5770010劉雙泉0.57700.70701謝前敬春橋羅堅(jiān)肖蓉劉雙泉謝前1-0.6120.6670.4080.408敬春橋-0.6121-0.408-0.25-0.25羅堅(jiān)0.667-0.4081-0.4080.612肖蓉0.408-0.25-0.4081-0.25劉雙泉0.408-0.25-1-0.251理賠數(shù)據(jù)表矩陣變換共現(xiàn)相關(guān)性cos相關(guān)性pearson相關(guān)

15、性合謀關(guān)系分析可視化Aduna圖合作關(guān)系可視化相關(guān)矩陣分析map車輛自相關(guān)分析案件編號人員車牌地點(diǎn)金額344573周輝,朱師翰湘A65N90, 湘A1661K桂花路20000344574蘇英雄,莫貴木, 羅堅(jiān),肖蓉,謝 前湘A2KA19, 湘AT0101, 湘J7ZH85, 湘AL5S84, 湘AA0390人民路50000344575張斌,劉榮湘A632AK, 湘AUQ852開元西路100000344576羅德臻,王麗萍湘A9HT68, 湘A65N90北斗路70000344577吳海龍,張華湘AVB590, 湘AA1391北斗路100003445733445743445753445763445

16、77湘ZG006900000湘A2KA1901000湘AA039001000湘A65N9010010湘AA139100001湘ZG0069湘A2KA19湘AA0390湘A65N90湘AA1391湘ZG006910000湘A2KA1901100湘AA039001100湘A65N9000010湘AA139100000原始數(shù)據(jù)表矩陣變換cos相關(guān)性典型算子4:離散互相關(guān)矩陣分析C1C2C3C4C5R1X1Y1A1,A2,A3B1,B2,B3Z1R2X2Y2A2,A3B2,B4Z2R3X3Y3A1,A4,A5B2,B3,B6Z3R4X4Y4A2,A5B1,B4Z4R5X5Y5A3,A4B1,B5Z5B

17、1B2B3B4B5A112200A212120A312111A411101A511110A1A2A3A4A5A13333A23500A33520A43023A53003A1A2A3A4A5A110.70.7830.8490.849A20.710.8940.5660.849A30.7830.89410.7910.791A40.8490.5660.79110.8A50.8490.8490.7910.81A1A2A3A4A5A110.250.3540.5480.548A20.2510.707-0.5480.548A30.3540.707100A40.548-0.54801-0.2A50.5480.5

18、480-0.21原始數(shù)據(jù)表矩陣變換共現(xiàn)互相關(guān)性cos互相關(guān)性pearson互相關(guān)性投影應(yīng)用:從報案地點(diǎn)看合作欺詐關(guān)系案件編號人員車牌地點(diǎn)金額344561段建華,張 華,許衛(wèi)湘A2BA32,湘AA1391 湘ZG00069板倉南 路20000344564彭發(fā)兵,周 輝,蘇英雄湘A2ZB92,湘B2HL12 湘A2KA19人民路70000344574蘇英雄,莫 貴木,羅堅(jiān), 肖蓉,謝前湘A2KA19,湘AT0101 湘J7ZH85,湘AL5S84 湘AA0390人民路50000344563王麗萍,劉 雙泉湘A65N90,湘A1661K壽昌路100000344581張華,莫木 貴,許衛(wèi)湘AA1391

19、,湘AT0101 湘ZG00069板倉南 路100000板倉南路開元西路壽昌路人民路湘江東路湘ZG006930000湘A2KA1900020湘AA039000010湘A65N9000101湘AA139130000湘ZG0069湘A2KA19湘 AA0390湘A65N90湘AA1391湘ZG00690003湘A2KA190100湘AA03900100湘A65N900000湘AA13913000湘ZG0069湘A2KA19湘AA0390湘A65N90湘AA1391湘ZG006910001湘A2KA1901100湘AA039001100湘A65N9000010湘AA139110001理賠數(shù)據(jù)表矩陣變

20、換共現(xiàn)互相關(guān)Cos互相關(guān)湘ZG0069湘A2KA19湘AA0390湘A65N90湘AA1391湘ZG006910000湘A2KA1901100湘AA039001100湘A65N9000010湘AA139100000cos自相關(guān)可疑車輛可視化離散矩陣分析實(shí)質(zhì)二分圖很多應(yīng)用領(lǐng)域醫(yī)療領(lǐng)域藥品關(guān)聯(lián)分析公共安全(相同時間/機(jī)場)乘坐相同航班的同乘分析(相同時間/地點(diǎn))的緊密通話客戶分析科技領(lǐng)域研發(fā)相類似技術(shù)領(lǐng)域的競爭對手分析典型算子5: 頻繁項(xiàng)探索記錄屬性 間的關(guān)聯(lián)性數(shù)據(jù)建模模型建立-無需編寫代碼,在web頁面可配置模型參數(shù)進(jìn)行學(xué)習(xí)、評價、調(diào)優(yōu)、存儲 模型評價在界面上即可對生成的模型進(jìn)行評價。模型預(yù)測在

21、界面上選取保持的模型及要進(jìn)行預(yù)測的數(shù)據(jù)集即可生成預(yù)測數(shù)據(jù)機(jī)器學(xué)習(xí)模型管理線性模型支持線性回歸和邏輯回歸模型, 支持任意程度嵌套效果、多項(xiàng) 式和曲線效果支持自動模型選擇,提供豐富 的模型診斷結(jié)果和自動模型評 估。決策樹和隨機(jī)森林支持包含分類和連續(xù)特征的分類樹和 回歸樹提供成本復(fù)雜性、C4.5 和減少誤差 的自動修剪并基于保留最優(yōu)樹支持二分變量、名義變量和連續(xù)變 量的隨機(jī)森林、自動組合多個決策樹 預(yù)測單個目標(biāo)自動分配獨(dú)立模型訓(xùn)練任務(wù),自動智 能調(diào)整參數(shù)設(shè)置確定最佳模型神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)支持二分變量、名義變量和連續(xù)變 量的神經(jīng)網(wǎng)絡(luò)提供智能默認(rèn)的大部分神經(jīng)網(wǎng)絡(luò)參 數(shù),如激活和誤差函數(shù),定制神經(jīng)網(wǎng) 絡(luò)結(jié)構(gòu)和加權(quán)支持二分變量的支持向量機(jī)模型, 線性和多項(xiàng)式內(nèi)核模型訓(xùn)練利用分區(qū)數(shù)據(jù)集對預(yù)測模型結(jié)果進(jìn)行測試比對,快速確定最佳模型利用提升表、ROC 圖 表、協(xié)調(diào)統(tǒng)計(jì) 和錯誤分類表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論