版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
Spark應用開發(fā)技術本章主要講述SparkSQL的使用。本章主要講述SparkDataFrame基礎操作。通過學習本節(jié)將能夠?qū)W習SparkSQL、SparkDataFrame基礎操作。通過本節(jié)學習可以:理解SparkSQL的基本概念。掌握SparkSQL與Shell交互。掌握創(chuàng)建DataFrame對象的方法。掌握DataFrame查看數(shù)據(jù)的方法。掌握DataFrame的查詢及輸出操作。認識SparkSQLSpark
SQL簡介Spark
SQLCLI配置SparkSQL與Shell交互掌握DataFrame基礎操作創(chuàng)建DataFrame對象DataFrame查看數(shù)據(jù)DataFrame查詢操作DataFrame輸出操作探索分析法律服務網(wǎng)站數(shù)據(jù)獲取數(shù)據(jù)、網(wǎng)頁類型分析、點擊次數(shù)分析、網(wǎng)頁排名分析1.創(chuàng)建DataFrame對象結構化數(shù)據(jù)文件創(chuàng)建DataFrame外部數(shù)據(jù)庫創(chuàng)建DataFrameRDD創(chuàng)建DataFrameHive中的表創(chuàng)建DataFrame掌握DataFrame基礎操作結構化數(shù)據(jù)文件創(chuàng)建DataFrame加載parquet文件為DataFrame加載json文件為DataFrame方式一加載json文件為DataFrame方式二掌握DataFrame基礎操作外部數(shù)據(jù)庫創(chuàng)建DataFrameSparkSQL可以從外部數(shù)據(jù)庫(比如MySQL、Oracle等數(shù)據(jù)庫)中創(chuàng)建DataFrame使用這種方式創(chuàng)建DataFrame需要通過JDBC連接或ODBC連接的方式訪問數(shù)據(jù)庫掌握DataFrame基礎操作RDD創(chuàng)建DataFrame方式一利用反射機制推斷RDD模式,使用這種方式首先需要定義一個caseclass,因為只有caseclass才能被Spark隱式地轉換為DataFrame。掌握DataFrame基礎操作RDD創(chuàng)建DataFrame方式二從原來的RDD創(chuàng)建一個元組或列表的RDD用StructType創(chuàng)建一個和上一個步驟中創(chuàng)建
的RDD中元組或列表的結構相匹配的Schema通過SQLContext提供的createDataFrame方法
將Schema應用到RDD上掌握DataFrame基礎操作從Hive中的表創(chuàng)建RDD從Hive表中的表創(chuàng)建DataFrame,可以聲明一個HiveContext對象使用HiveContext對象查詢Hive中的表并轉成DataFrame掌握DataFrame基礎操作準備數(shù)據(jù)將數(shù)據(jù)movies.dat,ratings.dat,users.dat上傳到HDFS分別加載movies.dat,ratings.dat,users.dat數(shù)據(jù)為RDD數(shù)據(jù)movies,ratings,users分別將RDD數(shù)據(jù)movies,ratings,users轉換為DataFrame掌握DataFrame基礎操作2.DataFrame查看數(shù)據(jù)掌握DataFrame基礎操作DataFrame查看數(shù)據(jù)——printSchemaprintSchema函數(shù)查看數(shù)據(jù)模式,打印出列的名稱和類型掌握DataFrame基礎操作DataFrame查看數(shù)據(jù)——show掌握DataFrame基礎操作DataFrame查看數(shù)據(jù)——show()/show(truncate:Boolean)show()方法與show(true)方法一樣,只顯示前20條記錄并且最多只顯示20個字符若是要顯示所有字符,需要使用show(false)方法掌握DataFrame基礎操作DataFrame查看數(shù)據(jù)——show(numRows:Int)show(numRows:Int)查看前n行記錄掌握DataFrame基礎操作DataFrame查看數(shù)據(jù)——first/head/take/takeAsList掌握DataFrame基礎操作DataFrame查看數(shù)據(jù)——collect/collectAsListcollect方法可以將DataFrame中的所有數(shù)據(jù)都獲取到,并返回一個Array對象collectAsList方法可以獲取所有數(shù)據(jù)到List掌握DataFrame基礎操作3.DataFrame查詢方式一將DataFrame注冊成為臨時表,然后通過SQL語句進行查詢掌握DataFrame基礎操作4.DataFrame查詢方式二直接在DataFrame對象上進行查詢,DataFrame提供了很多查詢的方法掌握DataFrame基礎操作DataFrame查詢——條件查詢DataFrame可以使用where(conditionExpr:String)根據(jù)指定條件進行查詢參數(shù)中可以使用and或or該方法的返回結果仍然為DataFrame類型掌握DataFrame基礎操作DataFrame查詢——條件查詢DataFrame還可使用filter篩選符合條件的數(shù)據(jù)filter與where的使用方法一樣掌握DataFrame基礎操作DataFrame查詢——查詢指定字段的數(shù)據(jù)信息select方法根據(jù)傳入的string類型字段名,獲取指定字段的值,以DataFrame類型返回掌握DataFrame基礎操作DataFrame查詢——查詢指定字段的數(shù)據(jù)信息掌握DataFrame基礎操作selectExpr:對指定字段進行特殊處理可以對指定字段調(diào)用UDF函數(shù)或者指定別名selectExpr傳入string類型的參數(shù),返回DataFrame對象。DataFrame查詢——查詢指定字段的數(shù)據(jù)信息col或者apply也可以獲取DataFrame指定字段col或者apply只能獲取一個字段,并且返回對象為Column類型掌握DataFrame基礎操作DataFrame查詢——limitlimit方法獲取指定DataFrame的前n行記錄,得到一個新的DataFrame對象不同于take與head,limit方法不是Action操作。掌握DataFrame基礎操作DataFrame查詢——orderByorderBy方法是根據(jù)指定字段排序,默認為升序排序若是要求降序排序,可以使用desc(“字段名稱”)或者$”字段名”.desc或者在指定字段前面加“-”來表示降序排序掌握DataFrame基礎操作DataFrame查詢——sortsort方法與orderBy方法一樣,也是根據(jù)指定字段排序,用法也與orderBy一樣掌握DataFrame基礎操作DataFrame查詢——groupBygroupBy方法是根據(jù)字段進行分組操作groupBy方法有兩種調(diào)用方式,可以傳入String類型的字段名,也可傳入Column類型的對象。掌握DataFrame基礎操作DataFrame查詢——groupBygroupBy方法返回的是GroupedData對象,GroupedData的操作方法如表所示掌握DataFrame基礎操作DataFrame查詢——joinDataFrame提供了三種join方法用于連接兩個表掌握DataFrame基礎操作DataFrame查詢——join(right:DataFrame)掌握DataFrame基礎操作DataFrame查詢——join(right:DataFrame,joinExprs:Column)掌握DataFrame基礎操作DataFrame查詢——join(right:DataFrame,joinExprs:Column,joinType:String)連接類型joinType只能是inner、outer、left_outer、right_outer、semijoin中的一種掌握DataFrame基礎操作5.DataFrame輸出操作save方法可以將DataFrame保存成文件,save操作有一個可選參數(shù)SaveMode,用這個參數(shù)可以指定如何處理數(shù)據(jù)已經(jīng)存在的情況。在使用HiveContext的時候,DataFrame可以用saveAsTable方法,將數(shù)據(jù)保存成持久化的表。讀取持久化表時,只需要用表名作為參數(shù),調(diào)用SQLContext.table方法即可得到對應DataFrame。掌握DataFrame基礎操作將DataFrame保存到一個文件里方法一首先創(chuàng)建一個Map對象,用于存儲一些save函數(shù)需要用到的一些數(shù)據(jù),這里將指定保存文件路徑及JSON文件的頭信息從DataFrame對象中選擇出userId,gender和age三列調(diào)用save函數(shù)保存(2)中的DataFrame數(shù)據(jù)到copyOfUser.json文件夾中掌握DataFrame基礎操作將DataFrame保存到一個文件里方法一mode函數(shù)可以接收的參數(shù)有Overwrite、Append、Ignore和ErrorIfExists。Overwrite代表覆蓋目錄下之前存在的數(shù)據(jù)Append代表給指導目錄下追加數(shù)據(jù)Ignore代表如果目錄下已經(jīng)有文件,那就什么都不執(zhí)行ErrorIfExists代表如果保存目錄下存在文件掌握DataFrame基礎操作將DataFrame保存到一個文件里方法一查看保存結果掌握DataFrame基礎操作將DataFrame保存到一個文件里方法二直接調(diào)用save(path:String,source:String,mode:SaveMode)方法掌握DataFrame基礎操作
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 在企業(yè)安全生產(chǎn)約談會上講話稿范本
- 三態(tài)股份招股書解析
- 安全生產(chǎn)責任狀(模板)
- 微積分習題(答案)
- 通信電源標準規(guī)范
- 香料作物種植與農(nóng)業(yè)科技創(chuàng)新能力提升策略制定與實施考核試卷
- 高鐵設備智能制造與大數(shù)據(jù)分析考核試卷
- 節(jié)能工程合同管理考核試卷
- 空調(diào)器國際市場法規(guī)與標準考核試卷
- 防洪設施建設對旅游業(yè)的影響考核試卷
- 手術室發(fā)生地震應急預案演練
- 配合、協(xié)調(diào)、服務方案
- 市政工程監(jiān)理大綱
- 2023-2024學年廣東省廣州市黃埔區(qū)六年級(上)期末數(shù)學試卷(A卷)
- 初中數(shù)學新課程標準(2024年版)
- 2024年北京市學業(yè)水平合格性地理試卷(第一次)
- 黑龍江哈爾濱六中2025屆高三第六次模擬考試數(shù)學試卷含解析
- GB/T 36547-2024電化學儲能電站接入電網(wǎng)技術規(guī)定
- 會議記錄培訓教材課件幻燈片
- 期末測試卷(一)2024-2025學年 人教版PEP英語五年級上冊(含答案含聽力原文無聽力音頻)
- 售后服務人員培訓資料課件
評論
0/150
提交評論