版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
附件2深圳市第十二屆職工技術(shù)創(chuàng)新運動會暨2022年深圳技能大賽—大數(shù)據(jù)技術(shù)應(yīng)用職業(yè)技能競賽技術(shù)文件深圳市第十二屆職工技術(shù)創(chuàng)新運動會暨2022年深圳技能大賽大數(shù)據(jù)技術(shù)應(yīng)用職業(yè)技能競賽執(zhí)委會2022年8月———一、技術(shù)描述(一)競賽項目大數(shù)據(jù)技術(shù)應(yīng)用。(二)理論知識與能力要求權(quán)重比例理論知識大數(shù)據(jù)平臺基礎(chǔ)1.分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop及其核心組件知識2.分布式計算框架Spark及其核心組件知識30%數(shù)據(jù)分析與挖掘基礎(chǔ)1.Python基本語法,數(shù)據(jù)結(jié)構(gòu)運用和程序流程控制等知識2.函數(shù)的語法、調(diào)用、參數(shù)以及自定義函數(shù)的編程實現(xiàn)知識3.正則表達(dá)式的字符獲取、匹配與替換知識4.不同形式的文件/數(shù)據(jù)讀取與存儲知識5.Numpy數(shù)值計算基礎(chǔ)知識6.Pandas統(tǒng)計分析基礎(chǔ)知識7.Pandas數(shù)據(jù)預(yù)處理知識網(wǎng)絡(luò)爬蟲1.爬蟲發(fā)展歷史、概念與反爬機制等知識2.網(wǎng)絡(luò)信息傳輸過程、HTTP與Cookie的概念與作用3.爬蟲環(huán)境、爬蟲基本流程與網(wǎng)頁前端知識4.靜態(tài)網(wǎng)頁與動態(tài)網(wǎng)頁的爬蟲常用技術(shù)應(yīng)用知識5.模擬登錄基本流程數(shù)據(jù)可視化1.Matplotlib可視化圖形繪制運用知識2.Pyecharts可視化圖形繪制運用知識機器學(xué)習(xí)原理1.機器學(xué)習(xí)概念、基本流程與應(yīng)用場景等知識2.機器學(xué)習(xí)的常用工具與相關(guān)庫3.基礎(chǔ)的聚類算法思想與模型搭建過程的知識4.基礎(chǔ)的分類算法思想與模型搭建過程的知識5.聚類與分類模型的評估方法的知識能力要求大數(shù)據(jù)平臺搭建具備在Linux下安裝Java并搭建完全分布式Hadoop集群的能力70%大數(shù)據(jù)信息采集具備運用Python網(wǎng)絡(luò)爬蟲技術(shù)采集指定網(wǎng)頁信息,存儲采集數(shù)據(jù)的能力大數(shù)據(jù)清洗與挖掘具備使用IDEA編寫Scala代碼,從HDFS加載數(shù)據(jù),并結(jié)合Spark技術(shù)實現(xiàn)基礎(chǔ)的數(shù)據(jù)清洗操作,存儲清洗后的數(shù)據(jù)的能力大數(shù)據(jù)分析與可視化具備運用Python數(shù)據(jù)挖掘與可視化知識對數(shù)據(jù)進(jìn)行統(tǒng)計與基本圖形繪制的能力大數(shù)據(jù)建模與評估具備運用Python機器學(xué)習(xí)知識實現(xiàn)數(shù)據(jù)建模與評估的能力合計100%二、賽題與評判標(biāo)準(zhǔn)(一)初賽1.初賽理論知識復(fù)習(xí)資料于報名開始后在/→技能競賽→技能競賽總覽欄目對應(yīng)項目下公布300個知識點。2.賽前一天由裁判長根據(jù)公布的知識點編制初賽賽題,并封存保管。3.競賽當(dāng)天由裁判長現(xiàn)場解封初賽賽題并導(dǎo)入競賽系統(tǒng)。(二)決賽1.決賽樣題于報名結(jié)束后在/→技能競賽→技能競賽總覽欄目對應(yīng)項目下公布。2.根據(jù)公布的樣題進(jìn)行編制決賽正式賽題,并封存保管3.競賽當(dāng)天由裁判長現(xiàn)場解封正式賽題并組織裁判培訓(xùn)及設(shè)備調(diào)試。(三)比賽時間及內(nèi)容參照廣東省第二屆職業(yè)技能大賽大數(shù)據(jù)技術(shù)應(yīng)用賽項標(biāo)準(zhǔn),結(jié)合新時代行業(yè)企業(yè)發(fā)展情況,適當(dāng)增加新知識、新技術(shù)、新設(shè)備、新技能的相關(guān)內(nèi)容,由執(zhí)委會組織專家制定。本次競賽為單人賽,分初賽和決賽兩個階段進(jìn)行,由裁判長組織落實各項技術(shù)工作。初賽為理論知識競賽,決賽為實際操作競賽。1.初賽。采用理論知識上機考核,取排名前60名選手進(jìn)入決賽。時間共60分鐘,滿分為100分,60分為合格。題型為單選題50題,每題1分;多選題10題,每題3分;判斷題20題,每題1分;各題型錯選、多選或少選均不得分。2.決賽。選手按賽場提供的實操任務(wù)書在競賽專用云主機上以現(xiàn)場實際操作的方式完成五個任務(wù)的實際操作,時間共240分鐘。滿分為100分,60分為合格。具體內(nèi)容如下:任務(wù)一:根據(jù)提供的安裝包,按照題目要求在Linux下安裝Java并搭建完全分布式Hadoop集群。該任務(wù)主要考核選手分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop相關(guān)知識和搭建完全分布式Hadoop集群能力。任務(wù)二:按照題目要求,基于Python語言,運用requests、lxml、BeautifulSoup、Selenium等相關(guān)庫采集指定網(wǎng)頁信息并存儲采集數(shù)據(jù)。該任務(wù)主要考核選手使用網(wǎng)頁信息爬取技術(shù)和數(shù)據(jù)處理、存儲的能力。任務(wù)三:按照題目要求,使用IDEA編寫Scala代碼,從HDFS加載數(shù)據(jù),并結(jié)合Spark技術(shù)實現(xiàn)基礎(chǔ)的數(shù)據(jù)清洗操作,存儲清洗后的數(shù)據(jù)。該任務(wù)主要考核選手使用Spark技術(shù)實現(xiàn)數(shù)據(jù)加載、清洗和存儲的能力。任務(wù)四:按照題目要求,基于Python語言,運用Pandas、NumPy、Matplotlib、Pyecharts等相關(guān)庫,對數(shù)據(jù)進(jìn)行統(tǒng)計與基本圖形繪制。該任務(wù)主要考核選手對數(shù)據(jù)統(tǒng)計分析和可視化常用工具及技術(shù)熟練使用的能力。任務(wù)五:按題目要求,基于Python語言,運用Pandas、NumPy、sklearn等相關(guān)庫實現(xiàn)數(shù)據(jù)建模與評估。該任務(wù)主要考核選手合理運用算法與模型的能力,能調(diào)用模型完成訓(xùn)練與預(yù)測且能實現(xiàn)模型評估操作。(四)評判標(biāo)準(zhǔn)1.初賽評分標(biāo)準(zhǔn)。采用上機考核,由競賽系統(tǒng)自動判分,各題型錯選、多選或少選均不得分;單選題共50題,每題1分;多選題共10題,每題3分;判斷題共20題,每題1分。2.決賽評分標(biāo)準(zhǔn)。競賽內(nèi)容評分標(biāo)準(zhǔn)占比大數(shù)據(jù)平臺搭建1.JDK正確部署2.Hadoop集群正確部署25%大數(shù)據(jù)信息采集1.運用Python相關(guān)庫采集指定網(wǎng)頁信息2.采集數(shù)據(jù)滿足題目要求的數(shù)量3.采集數(shù)據(jù)存放于DataFrame,并更改列名4.將采集數(shù)據(jù)存儲為csv文件或Excel文件20%大數(shù)據(jù)清洗與挖掘1、在HDFS上實現(xiàn)上傳、讀取文件等操作2、結(jié)合Spark框架,在IDEA編寫Scala代碼實現(xiàn)數(shù)據(jù)清洗操作3、編寫Scala代碼完成數(shù)據(jù)集DataFrame以csv格式導(dǎo)出至指定路徑20%大數(shù)據(jù)分析與可視化1、運用Python的Pandas、NumPy等庫實現(xiàn)數(shù)據(jù)統(tǒng)計2、運用Python的Matpltlib、Pyecharts等庫繪制指定可視化圖形20%大數(shù)據(jù)建模與評估1、運用Python的Pandas、NumPy等庫完成數(shù)據(jù)處理,如類型轉(zhuǎn)換、特征編碼、數(shù)據(jù)標(biāo)準(zhǔn)化2、運用Python的sklearn庫實現(xiàn)數(shù)據(jù)集劃分3、運用Python的sklearn庫實現(xiàn)模型構(gòu)建與模型評估15%3.評判方法。(1)參賽選手的成績評定由競賽裁判組負(fù)責(zé),裁判長對最終成績簽字確認(rèn)。(2)初賽理論知識競賽由競賽系統(tǒng)自動判分。(3)決賽實際操作競賽由現(xiàn)場裁判組依據(jù)參賽選手的實際操作情況按競賽評分標(biāo)準(zhǔn)集體評判和計分。4.綜合排名。選手最終名次依據(jù)初賽和決賽兩部分成績按比例累加的綜合成績進(jìn)行排名,成績均四舍五入保留兩位小數(shù)點。其中初賽成績占30%、決賽成績占70%,參賽選手賽后綜合成績=初賽成績×30%+決賽成績×70%。當(dāng)綜合成績相同時,以決賽成績高者名次在前,若仍相同時,決賽用時短者名次在前。三、競賽細(xì)則(一)初賽時間地點。時間:2022年9月24日。地點:廣東省深圳市龍崗區(qū)五聯(lián)社區(qū)將軍帽路1號深圳技師學(xué)院。(二)決賽時間地點時間:2022年9月25日。地點:廣東省深圳市龍崗區(qū)五聯(lián)社區(qū)將軍帽路1號深圳技師學(xué)院。(三)理論知識競賽守則1.參賽證由執(zhí)委會于競賽開始前統(tǒng)一核發(fā)。2.參賽選手需提前20分鐘憑有效身份證和參賽證進(jìn)入賽場,對號入座并將身份證和參賽證放在座位左上角明顯位置,以備查驗。遲到20分鐘不得入場,開賽20分鐘后方可交卷離場。3.參賽選手不能攜帶與競賽相關(guān)的文件資料、通訊工具進(jìn)入賽場。在賽場上應(yīng)自覺遵守賽場秩序,保持安靜,競賽進(jìn)行過程中不允許任何形式的交談,更不得大聲喧嘩吵鬧,否則將給予警告直至取消競賽資格。4.冒名頂替、弄虛作假、作弊者,取消競賽資格及成績。5.競賽規(guī)定時間結(jié)束時,參賽選手應(yīng)立即停止答題,有秩序的離開賽場。(四)實際操作競賽賽場守則1.實際操作競賽選手的出場順序和實操臺位置由抽簽決定。2.參賽選手需提前20分鐘憑有效身份證和參賽證進(jìn)入賽場,對競賽工具設(shè)備進(jìn)行檢查。3.開賽遲到30分鐘以上者,按自動棄權(quán)處理。4.參賽選手按賽題完成各競賽項目,并主動配合裁判員評分。5.參賽選手應(yīng)嚴(yán)格遵守賽場紀(jì)律,所有的通訊工具、攝像工具不得帶入競賽現(xiàn)場,對競賽設(shè)施設(shè)備應(yīng)愛護(hù),防止丟失和損壞。6.冒名頂替、弄虛作假、作弊者,取消競賽資格及成績。7.參賽選手須嚴(yán)格遵守安全操作規(guī)程及勞動保護(hù)要求,接受裁判員、現(xiàn)場技術(shù)服務(wù)人員的監(jiān)督和警示,確保設(shè)備及人身安全。8.在實際操作競賽過程中,裁判應(yīng)對每名參賽選手的各道工序認(rèn)真記錄,并填寫評分表。9.競賽過程中如果出現(xiàn)安全事故,裁判員應(yīng)立即中止競賽。如查實事故責(zé)任屬參賽選手,即取消參賽選手競賽資格。(五)賽場規(guī)則1.各類賽務(wù)人員必須統(tǒng)一佩戴由大賽執(zhí)委會簽發(fā)的相應(yīng)證件,著裝整齊。2.各賽場除現(xiàn)場裁判、賽場配備的工作人員以外,其他人員未經(jīng)允許不得進(jìn)入賽場。3.新聞媒體等進(jìn)入賽場必須經(jīng)過大賽執(zhí)委會允許,并且聽從現(xiàn)場工作人員的安排和管理,不能影響競賽進(jìn)行。4.各參賽隊的領(lǐng)隊、指導(dǎo)老師以及隨行人員一律不得進(jìn)入賽場。5.競賽期間,參賽選手未經(jīng)大賽執(zhí)委會批準(zhǔn),不得接受其他單位和個人對競賽相關(guān)內(nèi)容的采訪。6.參賽選手不得私自公布競賽相關(guān)資料和情況。7.競賽過程中,參賽選手必須主動配合裁判工作,服從裁判安排,如果對競賽的裁決有異議,可按規(guī)定以書面形式向執(zhí)委會申訴受理組提出申訴。8.競賽現(xiàn)場必須配備實時監(jiān)控系統(tǒng),對現(xiàn)場賽事進(jìn)行完整的實時監(jiān)控和錄像,并有專人對競賽環(huán)節(jié)進(jìn)行全程錄像。(六)賽事安全要求1.賽場設(shè)有安全防衛(wèi)人員,負(fù)責(zé)競賽期間安全事務(wù)。主要包括檢查競賽場地及其周圍環(huán)境的安全防衛(wèi);制定緊急應(yīng)對方案;督導(dǎo)競賽場地用電等相關(guān)安全問題;監(jiān)督參賽人員食品安全與衛(wèi)生;分析和處理安全突發(fā)事件等工作。賽場配備醫(yī)務(wù)人員及常規(guī)藥品。2.嚴(yán)格按照安全應(yīng)急預(yù)案加強對競賽全過程的動態(tài)管理,確保競賽活動安全有序。(七)申訴與仲裁1.參賽選手認(rèn)為賽場提供的設(shè)備、工具不符合規(guī)定或工作人員存在違規(guī)行為的,均可向執(zhí)委會申訴受理組提出申訴。2.現(xiàn)場申訴最遲應(yīng)在競賽結(jié)束后1小時內(nèi)提出,超過時效將不予受理。申訴時,應(yīng)以書面形式向申訴受理組提出,技術(shù)問題由裁判長與裁判員共同商議解決;非技術(shù)問題由組委會辦公室進(jìn)行調(diào)查、核實、裁決。3.組委會辦公室對違規(guī)行為做出的裁決為最終裁決。參賽選手不得因?qū)χ俨锰幚硪庖姴环V贡荣惢蜃淌?,否則按棄權(quán)處理。4.如競賽出現(xiàn)不可預(yù)見的異常情況,由組委會辦公室與執(zhí)委會商議后,做出處理決定。四、競賽場地、設(shè)施設(shè)備(一)賽場規(guī)格1.初賽。參照計算機類工種職業(yè)技能鑒定要求布置賽場,配備與參賽人數(shù)相適應(yīng)的計算機及競賽答題軟件,保證單人單機并留有一定數(shù)量的備用機。2.決賽。競賽工位:各工位之間設(shè)置隔板,確保每個工位為相對獨立空間,每個工位標(biāo)示編號,并配備電腦桌1張、座椅1把、計算機1臺并安裝了所需軟件。競賽場地光線充足,照明良好;供電供氣設(shè)施正常且安全有保障;場地整潔;場地布置60個工位,備用2個工位。有獨立的裁判室、候賽室、賽務(wù)室、隔離室等區(qū)域。(二)場地布局圖(三)設(shè)施清單1.初賽。本賽項禁止攜帶有存儲功能的設(shè)備,禁止在競賽用PC機上安裝任何軟件,也不允許將賽場提供的參賽設(shè)施帶出賽場。序號名稱型號規(guī)格參數(shù)數(shù)量1高性能PC機主機參數(shù):i7-117008G256GB+1TB集顯操作系統(tǒng):Windows11家庭版顯示器:23.8寸1502鍵盤、鼠標(biāo)標(biāo)準(zhǔn)1503瀏覽器Chrome版本:100或以上2.決賽。本賽項禁止攜帶有存儲功能的設(shè)備,禁止在競賽用PC機上安裝任何軟件,也不允許將賽場提供的參賽設(shè)施帶出賽場。序號名稱型號規(guī)格參數(shù)數(shù)量1高性能PC機主機參數(shù):i7-117008G256GB+1TB集顯操作系統(tǒng):Windows11家庭版顯示器:23.8寸622鍵盤、鼠標(biāo)標(biāo)準(zhǔn)623瀏覽器Chrome版本:100或以上本賽項賽題涉及如下環(huán)境,已在競賽環(huán)境中提前部署。序號賽題編號環(huán)境1賽題1CentOS7.9,火狐瀏覽器2賽題2、4、5Anaconda3(Python3.8.5,JupyterNotebook)、火狐瀏覽器/Chrome瀏覽器pandas==1.1.3、numpy==1.18.5、lxml==4.6.2、requests==2.25.1、selenium==3.4.0、beautifulsoup4==4.9.3、matplotlib==3.3.2、pyecharts==1.9.0、scikit-learn==0.23.23賽題3CentOS7.9,Hadoop3.1.4、IDEA2022.2、Spark3.2.1、Scala2.12.16五、主要參考資料1.《大數(shù)據(jù)工程技術(shù)人員國家職業(yè)技術(shù)技能標(biāo)準(zhǔn)(2021年版)》,職業(yè)編碼:2-02-10-112.張軍,張良均.Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)(第2版)(微課版)[M].北京:人民郵電出版社.2021.3.肖芳,張良均.Spark
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030全球晶圓檢測用物鏡行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國鉆頭修磨機行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球醫(yī)療器械用注塑機行業(yè)調(diào)研及趨勢分析報告
- 主講人鄭長花
- 第06講 我們生活的大洲-亞洲(解析版)
- 2025原料采購合同的模板
- 2025個人保證擔(dān)保借款合同
- 門面房房屋租賃合同范本
- 工地配餐合同協(xié)議書范本
- it運維外包服務(wù)合同
- 畢業(yè)設(shè)計(論文)-液體藥品灌裝機的設(shè)計與制造
- 二年級下冊數(shù)學(xué)教案 -《數(shù)一數(shù)(二)》 北師大版
- 稅收流失論文-我國個人所得稅稅收流失問題及對策研究
- 長榮股份:投資性房地產(chǎn)公允價值評估報告
- 2022年菏澤醫(yī)學(xué)專科學(xué)校單招綜合素質(zhì)試題及答案解析
- 銀行內(nèi)部舉報管理規(guī)定
- 平面幾何強化訓(xùn)練題集:初中分冊數(shù)學(xué)練習(xí)題
- 項目獎金分配獎勵制度和方案完整版
- 支氣管鏡試題
- 送達(dá)地址確認(rèn)書(訴訟類范本)
- 陰道鏡幻燈課件
評論
0/150
提交評論