廈門大學-林子雨-大數(shù)據(jù)技術基礎-第7章MapReduce-_第1頁
廈門大學-林子雨-大數(shù)據(jù)技術基礎-第7章MapReduce-_第2頁
廈門大學-林子雨-大數(shù)據(jù)技術基礎-第7章MapReduce-_第3頁
廈門大學-林子雨-大數(shù)據(jù)技術基礎-第7章MapReduce-_第4頁
廈門大學-林子雨-大數(shù)據(jù)技術基礎-第7章MapReduce-_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、廈門大學計算機科學系研究生課程 大數(shù)據(jù)技術原理與應用上機練習MapReduce 編程初級實踐主講教師:林子雨廈門大學數(shù)據(jù)庫實驗室二零一五年九月 目錄1作業(yè)題目 . . 1 2作業(yè)目的 . . 1 3作業(yè)性質 . . 1 4作業(yè)考核方法 . . 1 5作業(yè)提交日期與方式 . . 1 6實驗平臺 . . 1 7實驗內容和要求 . . 1 8實驗報告 . . 4附錄 1:任課教師介紹 . 4附錄 2:課程教材介紹 . . 5大數(shù)據(jù)技術原理與應用MapReduce 編程初級實踐上機練習說明主講教師:林子雨E-mail: ziyulin 個人主頁:1作業(yè)題目MapReduce 編程初級實踐。2作業(yè)目的1

2、. 通過實驗掌握基本的 MapReduce 編程方法;2. 掌握用 MapReduce 解決一些常見的數(shù)據(jù)處理問題,包括數(shù)據(jù)去重、數(shù)據(jù)排序和數(shù)據(jù) 挖掘等。3作業(yè)性質課后作業(yè),必做,作為課堂平時成績。4作業(yè)考核方法提交上機實驗報告,任課老師根據(jù)上機實驗報告評定成績。5作業(yè)提交日期與方式林子雨編著大數(shù)據(jù)技術原理與應用教材第七章 MapReduce 內容結束后的下一周周 六晚上 9點之前提交。6實驗平臺已經(jīng)配置完成的 Hadoop 偽分布式環(huán)境。7實驗內容和要求1. 編程實現(xiàn)文件合并和去重操作對于兩個輸入文件, 即文件 A 和文件 B , 請編寫 MapReduce 程序, 對兩個文件進行合并, 并

3、剔除其中重復的內容,得到一個新的輸出文件 C 。下面是輸入文件和輸出文件的一個樣例 供參考。輸入文件 A 的樣例如下:20150101 x20150102 y20150103 x20150104 y20150105 z20150106 x輸入文件 B 的樣例如下:20150101 y20150102 y20150103 x20150104 z20150105 y根據(jù)輸入文件 A 和 B 合并得到的輸出文件 C 的樣例如下:20150101 x20150101 y20150102 y20150103 x20150104 y20150104 z20150105 y20150105 z2015010

4、6 x2. 編寫程序實現(xiàn)對輸入文件的排序現(xiàn)在有多個輸入文件, 每個文件中的每行內容均為一個整數(shù)。 要求讀取所有文件中的整 數(shù),進行升序排序后,輸出到一個新的文件中,輸出的數(shù)據(jù)格式為每行兩個整數(shù), 第一個數(shù) 字為第二個整數(shù)的排序位次, 第二個整數(shù)為原待排列的整數(shù)。 下面是輸入文件和輸出文件的 一個樣例供參考。輸入文件 1的樣例如下:33371240輸入文件 2的樣例如下:416395輸入文件 3的樣例如下:14525根據(jù)輸入文件 1、 2和 3得到的輸出文件如下:1 12 43 54 125 166 257 338 379 3910 4011 453. 對給定的表格進行信息挖掘下面給出一個 child-parent 的表格,要求挖掘其中的父子輩關系,給出祖孫輩關系的 表格。輸入文件內容如下:child parentSteven LucySteven JackJone LucyJone JackLucy MaryLucy F

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論