2023年大數(shù)據(jù)面試寶典_第1頁(yè)
2023年大數(shù)據(jù)面試寶典_第2頁(yè)
2023年大數(shù)據(jù)面試寶典_第3頁(yè)
2023年大數(shù)據(jù)面試寶典_第4頁(yè)
2023年大數(shù)據(jù)面試寶典_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)面試寶典智游大數(shù)據(jù)4期就業(yè)取得了可喜的成績(jī),但是也有拿到offer的同學(xué)表達(dá),在面試的時(shí)候,面對(duì)咄咄逼人的面試官,內(nèi)心是崩潰的(但你還是拿到offer了啊)。所以小智的這篇文章的意義就是定心丸。大數(shù)據(jù)涉及方向較多,本文以大數(shù)據(jù)算法為主。共涉及以下五方面:機(jī)器學(xué)習(xí)、大數(shù)據(jù)相關(guān)崗位的職責(zé)面試問(wèn)題答題思緒準(zhǔn)備建議總結(jié)大數(shù)據(jù)算法相關(guān)崗位的職責(zé)由于各個(gè)公司對(duì)這大數(shù)據(jù)類崗位的命名也許有所不同,比如數(shù)據(jù)挖掘/自然語(yǔ)言解決/機(jī)器學(xué)習(xí)算法工程師,有的簡(jiǎn)稱算法工程師,尚有的稱為搜索/推薦算法工程師等,甚至有的并入后臺(tái)工程師的范疇,所以同學(xué)們?cè)谕逗?jiǎn)歷時(shí)還要視崗位得具體規(guī)定而定。1、平臺(tái)搭建類數(shù)據(jù)計(jì)算平臺(tái)搭建,基礎(chǔ)算法實(shí)現(xiàn),當(dāng)然,規(guī)定支持大樣本量、高維度數(shù)據(jù),所以也許還需要底層開(kāi)發(fā)、并行計(jì)算、分布式計(jì)算等方面的知識(shí);2、算法研究類1)文本挖掘,如領(lǐng)域知識(shí)圖譜構(gòu)建、垃圾短信過(guò)濾等;2)推薦,廣告推薦、APP推薦、題目推薦、新聞推薦等;3)排序,搜索結(jié)果排序、廣告排序等;4)廣告投放效果分析;5)互聯(lián)網(wǎng)信用評(píng)價(jià);6)圖像辨認(rèn)、理解。3、數(shù)據(jù)挖掘類商業(yè)智能,如記錄報(bào)表;用戶體驗(yàn)分析,預(yù)測(cè)流失用戶。下面先介紹一些面試中也許會(huì)碰到的一些問(wèn)題,然后談一談答題思緒和面試心理準(zhǔn)備上的一些建議。面試問(wèn)題1、你在研究/項(xiàng)目/實(shí)習(xí)經(jīng)歷中重要用過(guò)哪些機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘的算法?2、你熟悉的機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘算法重要有哪些?3、你用過(guò)哪些機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘工具或框架?4、基礎(chǔ)知識(shí)A、無(wú)監(jiān)督和有監(jiān)督算法的區(qū)別?B、SVM的推導(dǎo),特性?多分類怎么解決?C、LR的推導(dǎo),特性?D、決策樹(shù)的特性?E、SVM、LR、決策樹(shù)的對(duì)比?F、GBDT和決策森林的區(qū)別?G、如何判斷函數(shù)凸或非凸?H、解釋對(duì)偶的概念。I、如何進(jìn)行特性選擇?J、為什么會(huì)產(chǎn)生過(guò)擬合,有哪些方法可以防止或克服過(guò)擬合?K、介紹卷積神經(jīng)網(wǎng)絡(luò),和DBN有什么區(qū)別?L、采用EM算法求解的模型有哪些,為什么不用牛頓法或梯度下降法?M、用EM算法推導(dǎo)解釋Kmeans。N、用過(guò)哪些聚類算法,解釋密度聚類算法。O、聚類算法中的距離度量有哪些?P、如何進(jìn)行實(shí)體辨認(rèn)?Q、解釋貝葉斯公式和樸素貝葉斯分類。R、寫(xiě)一個(gè)Hadoop版本的wordcount。5、開(kāi)放問(wèn)題A、給你公司內(nèi)部群組的聊天記錄,如何區(qū)分出主管和員工?B、如何評(píng)估網(wǎng)站內(nèi)容的真實(shí)性(針對(duì)代刷、作弊類)?C、深度學(xué)習(xí)在推薦系統(tǒng)上也許有如何的發(fā)揮?D、路段平均車速反映了路況,在道路上布控采集車輛速度,如何對(duì)路況做出合理估計(jì)?

E、采集數(shù)據(jù)中的異常值如何解決?F、如何根據(jù)語(yǔ)料計(jì)算兩個(gè)詞詞義的相似度?G、在百度貼吧里發(fā)布APP廣告,問(wèn)推薦策略?H、如何判斷自己實(shí)現(xiàn)的LR、Kmeans算法是否對(duì)的?I、100億數(shù)字,怎么記錄前100大的?……答題思緒1、用過(guò)什么算法?A、最佳是在項(xiàng)目/實(shí)習(xí)的大數(shù)據(jù)場(chǎng)景里用過(guò),比如推薦里用過(guò)CF、LR,分類里用過(guò)SVM、GBDT;B、一般用法是什么,是不是自己實(shí)現(xiàn)的,有什么比較知名的實(shí)現(xiàn),使用過(guò)程中踩過(guò)哪些坑;C、優(yōu)缺陷分析。2、熟悉的算法有哪些?A、基礎(chǔ)算法要多說(shuō),其它算法要挑熟悉限度高的說(shuō),不光列舉算法,也適當(dāng)說(shuō)說(shuō)應(yīng)用場(chǎng)合;B、面試官和你的研究方向也許不匹配,但是在基礎(chǔ)算法上你們還是有很多共同語(yǔ)言的,你說(shuō)得太高大上也許效果并不好,一方面面試官還是要問(wèn)基礎(chǔ)的,另一方面一旦面試官突發(fā)奇想讓你給他講解高大上的內(nèi)容,而你只是泛泛的了解,那你就懵逼了。3、用過(guò)哪些框架/算法包?A、主流的分布式框架如Hadoop,Spark,Graphlab,ParameterServer等擇一或多使用了解;B、通用算法包,如mahout,scikit,weka等;C、專用算法包,如opencv,theano,torch7,ICTCLAS等。4、基礎(chǔ)知識(shí)A、高頻話題是

SVM、LR、決策樹(shù)(決策森林)和聚類算法,要重點(diǎn)準(zhǔn)備;B、算法要從以下幾個(gè)方面來(lái)掌握a.產(chǎn)生背景,合用場(chǎng)合(數(shù)據(jù)規(guī)模,特性維度,是否有Online算法,離散/連續(xù)特性解決等角度);b.原理推導(dǎo)(最大間隔,軟間隔,對(duì)偶);c.求解方法(隨機(jī)梯度下降、擬牛頓法等優(yōu)化算法);d.優(yōu)缺陷,相關(guān)改善;e.和其他基本方法的對(duì)比;C、不能停留在能看懂的限度,還要f.對(duì)知識(shí)進(jìn)行結(jié)構(gòu)化整理,比如撰寫(xiě)自己的cheetsheet,我覺(jué)得面試是在有限時(shí)間內(nèi)向面試官輸出自己知識(shí)的過(guò)程,假如僅僅是在面試現(xiàn)場(chǎng)才開(kāi)始調(diào)動(dòng)知識(shí)、組織表達(dá),總還是不如系統(tǒng)的梳理準(zhǔn)備;g.從面試官的角度多問(wèn)自己一些問(wèn)題,通過(guò)查找資料總結(jié)出全面的解答,比如如何防止或克服過(guò)擬合。開(kāi)放問(wèn)題A、由于問(wèn)題具有綜合性和開(kāi)放性,所以不僅僅考察對(duì)大數(shù)據(jù)算法的了解,還需要足夠的實(shí)戰(zhàn)經(jīng)驗(yàn)作基礎(chǔ);B、先不要考慮完善性或可實(shí)現(xiàn)性,調(diào)動(dòng)你的一切知識(shí)儲(chǔ)備和經(jīng)驗(yàn)儲(chǔ)備去設(shè)計(jì),有多少說(shuō)多少,想到什么說(shuō)什么,方案都是在你和面試官討論的過(guò)程里逐步完善的,但是面試官有兩種風(fēng)格:引導(dǎo)你思考考慮不周之處or指責(zé)你沒(méi)有考慮到某些情況,碰到后者的話還請(qǐng)注意靈活調(diào)整答題策略;C、和同學(xué)朋友開(kāi)展討論,可以從上一節(jié)列出的問(wèn)題開(kāi)始。心態(tài)建議1、面試過(guò)程中大家是平等的。不要太弱勢(shì)也不要太強(qiáng)勢(shì)。2、把你之前的項(xiàng)目經(jīng)驗(yàn)有條理的表達(dá)出來(lái)。3、面試一些問(wèn)題的時(shí)候,可以想一想,并不是所有的問(wèn)題必須別人一問(wèn)完,立即回答。4、把面試當(dāng)作一種學(xué)習(xí)與經(jīng)歷。關(guān)鍵是從一些面試中你能發(fā)現(xiàn)自己局限性。?。鬷ps1、面試之前花點(diǎn)時(shí)間在面試公司和崗位,了解一下人家公司是干什么,假如你對(duì)這家公司特別感愛(ài)好,去網(wǎng)站上看看,去體驗(yàn)一下人家公司的產(chǎn)品和服務(wù)。會(huì)讓面試的人感覺(jué)到尊重。2、假如有結(jié)識(shí)的人或者通過(guò)一些渠道先了解一下你面試的公司,部門(mén)情況到底是怎么樣的。到底要

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論