![Spark大數(shù)據(jù)分析 課件 4.3 RDD類型操作_第1頁(yè)](http://file4.renrendoc.com/view6/M00/10/27/wKhkGWdys-iARdf2AACKWF5iieI545.jpg)
![Spark大數(shù)據(jù)分析 課件 4.3 RDD類型操作_第2頁(yè)](http://file4.renrendoc.com/view6/M00/10/27/wKhkGWdys-iARdf2AACKWF5iieI5452.jpg)
![Spark大數(shù)據(jù)分析 課件 4.3 RDD類型操作_第3頁(yè)](http://file4.renrendoc.com/view6/M00/10/27/wKhkGWdys-iARdf2AACKWF5iieI5453.jpg)
![Spark大數(shù)據(jù)分析 課件 4.3 RDD類型操作_第4頁(yè)](http://file4.renrendoc.com/view6/M00/10/27/wKhkGWdys-iARdf2AACKWF5iieI5454.jpg)
![Spark大數(shù)據(jù)分析 課件 4.3 RDD類型操作_第5頁(yè)](http://file4.renrendoc.com/view6/M00/10/27/wKhkGWdys-iARdf2AACKWF5iieI5455.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
RDD類型操作目錄/Contents01
轉(zhuǎn)換算子02行動(dòng)算子轉(zhuǎn)換算子01轉(zhuǎn)換算子Transformation:轉(zhuǎn)換算子,這類轉(zhuǎn)換并不觸發(fā)提交作業(yè),完成作業(yè)中間過(guò)程處理。下面是一些常用的轉(zhuǎn)換算子操作的API。操作介紹map(func)將RDD中的每個(gè)元素傳入自定義函數(shù),獲取一個(gè)新的元素,然后用新的元素組成新的RDDfilter(func)對(duì)RDD中每個(gè)元素進(jìn)行判斷,如果返回true則保留,返回false則剔除flatMap(func)與map類似,但是對(duì)每個(gè)元素都可以返回一個(gè)或多個(gè)新元素groupByKey(func)根據(jù)key進(jìn)行分組,每個(gè)key對(duì)應(yīng)一個(gè)Iterable<value>reduceByKey(func)對(duì)每個(gè)key對(duì)應(yīng)value進(jìn)行reduce操作轉(zhuǎn)換算子1.map(func)map(func)操作是對(duì)RDD中的每個(gè)元素都執(zhí)行一個(gè)指定的函數(shù)來(lái)產(chǎn)生一個(gè)新的RDD。2.filter(func)filter(func)操作會(huì)篩選出滿足條件(即func)的元素,返回一個(gè)新的數(shù)據(jù)集。3.flatMap(func)類似于map,但是每一個(gè)輸入元素,會(huì)被映射為0到多個(gè)輸出元素(因此,func函數(shù)的返回值是一個(gè)Seq,而不是單一元素)。在一個(gè)由(K,V)對(duì)組成的數(shù)據(jù)集上調(diào)用,返回一個(gè)(K,Seq[V])對(duì)的數(shù)據(jù)集。4.groupByKey(func)5.reduceByKey(func)顧名思義,reduceByKey就是對(duì)元素為KV對(duì)的RDD中Key相同的元素的Value進(jìn)行reduce,因此,Key相同的多個(gè)元素的值被reduce為一個(gè)值,然后與原RDD中的Key組成一個(gè)新的KV對(duì)。行動(dòng)算子02行動(dòng)算子Action:行動(dòng)算子,這類算子會(huì)觸發(fā)SparkContext提交Job作業(yè)。下面是一些常用的行動(dòng)算子操作的API。操作介紹
reduce(func)通過(guò)函數(shù)func聚集數(shù)據(jù)集中的所有元素。Func函數(shù)接受2個(gè)參數(shù),返回一個(gè)值。這個(gè)函數(shù)必須是關(guān)聯(lián)性的,確??梢员徽_的并發(fā)執(zhí)行collect()在Driver的程序中,以數(shù)組的形式,返回?cái)?shù)據(jù)集的所有元素。count()返回?cái)?shù)據(jù)集的元素個(gè)數(shù)take(n)返回一個(gè)數(shù)組,由數(shù)據(jù)集的前n個(gè)元素組成。first()返回?cái)?shù)據(jù)集的第一個(gè)元素(類似于take(1))foreach(func)在數(shù)據(jù)集的每一個(gè)元素上,運(yùn)行函數(shù)func。
saveAsTextFile(path)將數(shù)據(jù)集的元素,以textfile的形式,保存到本地文件系統(tǒng),hdfs或者任何其它hadoop支持的文件系統(tǒng)。Spark將會(huì)調(diào)用每個(gè)元素的toString方法,并將它轉(zhuǎn)換為文件中的一行文本行動(dòng)算子1.reduce(func)reduce將RDD中元素兩兩傳遞給輸入函數(shù),同時(shí)產(chǎn)生一個(gè)新的值,新產(chǎn)生的值與RDD中下一個(gè)元素再被傳遞給輸入函數(shù)直到最后只有一個(gè)值為止。2.collect()在Driver的程序中,以數(shù)組的形式,返回?cái)?shù)據(jù)集的所有元素。這通常會(huì)在使用filter或者其它操作后,返回一個(gè)足夠小的數(shù)據(jù)子集再使用,直接將整個(gè)RDD集Collect返回,很可能會(huì)讓Driver程序OOM。3.count()count返回整個(gè)RDD的元素個(gè)數(shù)。我們可以定義一個(gè)RDD,使用count()來(lái)統(tǒng)計(jì)RDD的元素個(gè)數(shù)。
take和collect操作類似,只是collect操作獲取的所有數(shù)據(jù),而take操作是獲取前n個(gè)元素。4.take(n)5.first()first()的作用是返回?cái)?shù)據(jù)集的第一個(gè)元素.我們可以定義一個(gè)RDD,使用first()來(lái)獲取RDD中的第一個(gè)元素。6.
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 28海的女兒說(shuō)課稿-2023-2024學(xué)年四年級(jí)下冊(cè)語(yǔ)文統(tǒng)編版
- 2 我是什么(說(shuō)課稿)-2024-2025學(xué)年統(tǒng)編版語(yǔ)文二年級(jí)上冊(cè)
- 2024-2025學(xué)年高中生物 專題2 微生物的培養(yǎng)與應(yīng)用 課題2 土壤中分解尿素的細(xì)菌的分離與計(jì)數(shù)說(shuō)課稿3 新人教版選修1
- 2025國(guó)有土地使用權(quán)出讓協(xié)議合同
- 2025有限公司股權(quán)轉(zhuǎn)讓合同
- Module 1 Unit 2 Changes in our lives Listen and say Listen and enjoy (說(shuō)課稿)-2024-2025學(xué)年滬教牛津版(深圳用)英語(yǔ)六年級(jí)下冊(cè)
- 2025城市供用氣合同
- 濰坊耐火混凝土施工方案
- 加氣轎車出售合同范例
- 8《安全記心上》(第一課時(shí))說(shuō)課稿-2024-2025學(xué)年道德與法治三年級(jí)上冊(cè)統(tǒng)編版
- 2025年中國(guó)X線診斷設(shè)備行業(yè)市場(chǎng)發(fā)展前景及發(fā)展趨勢(shì)與投資戰(zhàn)略研究報(bào)告
- 2024版全文:中國(guó)2型糖尿病預(yù)防及治療指南
- 2023-2024小學(xué)六年級(jí)上冊(cè)英語(yǔ)期末考試試卷質(zhì)量分析合集
- 第六章幾何圖形 初步數(shù)學(xué)活動(dòng) 制作紙魔方和繪制五角星說(shuō)課稿2024-2025學(xué)年人教版數(shù)學(xué)七年級(jí)上冊(cè)
- 讀書心得《好老師征服后進(jìn)生的14堂課》讀后感
- 公路工程施工安全應(yīng)急預(yù)案(4篇)
- 社會(huì)主義發(fā)展史(齊魯師范學(xué)院)知到智慧樹章節(jié)答案
- 2023年高考真題-地理(遼寧卷) 含解析
- 課程思政融入高職院校應(yīng)用文寫作課程教學(xué)路徑探析
- 2024全新鋼結(jié)構(gòu)安全培訓(xùn)
- 2025屆高三數(shù)學(xué)一輪復(fù)習(xí)-分段函數(shù)專項(xiàng)訓(xùn)練【含答案】
評(píng)論
0/150
提交評(píng)論