百業(yè)務(wù)運(yùn)營(yíng)部數(shù)據(jù)分析崗位分析_第1頁(yè)
百業(yè)務(wù)運(yùn)營(yíng)部數(shù)據(jù)分析崗位分析_第2頁(yè)
百業(yè)務(wù)運(yùn)營(yíng)部數(shù)據(jù)分析崗位分析_第3頁(yè)
百業(yè)務(wù)運(yùn)營(yíng)部數(shù)據(jù)分析崗位分析_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、首先,附上百度業(yè)務(wù)運(yùn)營(yíng)部_數(shù)據(jù)分析師(產(chǎn)品運(yùn)營(yíng))崗位的招聘詳情:      業(yè)務(wù)運(yùn)營(yíng)部_數(shù)據(jù)分析師(產(chǎn)品運(yùn)營(yíng))所屬部門(mén): 百度 工作地點(diǎn): 北京市 招聘人數(shù): 若干公       司: 百度 職位類(lèi)別: 產(chǎn)品 發(fā)布時(shí)間: 2016-04-11工作職責(zé):-對(duì)百度重點(diǎn)行業(yè)的行業(yè)現(xiàn)狀、核心企業(yè)、市場(chǎng)動(dòng)態(tài)、發(fā)展趨勢(shì)、互聯(lián)網(wǎng)營(yíng)銷(xiāo)推廣等做深入分析,形成數(shù)據(jù)研究報(bào)告 -解讀分析報(bào)告,并根據(jù)分

2、析結(jié)論,與運(yùn)營(yíng)一起商討運(yùn)營(yíng)策略 -運(yùn)用數(shù)據(jù)分析手段,對(duì)百度的客戶行業(yè)和屬性形成自己的分類(lèi)方式職責(zé)要求:-大三或者研一、研二在校生,數(shù)學(xué)、計(jì)算機(jī)或者統(tǒng)計(jì)學(xué)專(zhuān)業(yè),對(duì)行業(yè)市場(chǎng)有一定的了解-理解統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘算法原理,了解數(shù)據(jù)倉(cāng)庫(kù)思想,會(huì)寫(xiě)SQL,熟悉spss、sas,R等數(shù)據(jù)挖掘軟件之一-熟練使用EXCEL,能夠處理大量的數(shù)據(jù)-了解決策樹(shù)、聚類(lèi)、邏輯回歸,關(guān)聯(lián)分析、SVM,貝葉斯等數(shù)據(jù)挖掘算法-能夠保證每周至少四個(gè)工作日的實(shí)習(xí)時(shí)間 重點(diǎn)解析這個(gè)崗位中職責(zé)要求里的重點(diǎn)技術(shù)要求:-理解統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘算法原理,了解數(shù)據(jù)倉(cāng)庫(kù)思想,會(huì)寫(xiě)SQL,熟悉spss、sas,R等數(shù)據(jù)挖掘軟件之一

3、-熟練使用EXCEL,能夠處理大量的數(shù)據(jù)-了解決策樹(shù)、聚類(lèi)、邏輯回歸,關(guān)聯(lián)分析、SVM,貝葉斯等數(shù)據(jù)挖掘算法    提取其中的關(guān)鍵詞:統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘算法、數(shù)據(jù)倉(cāng)庫(kù)、SQL、SPSS、SAS、R、excel、決策樹(shù)、聚類(lèi)、邏輯回歸、關(guān)聯(lián)分析、SVM、貝葉斯,然后大致的分類(lèi):一、 數(shù)據(jù)挖掘算法:(百科:)數(shù)據(jù)挖掘:是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專(zhuān)家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。數(shù)據(jù)挖掘算法:是根據(jù)

4、數(shù)據(jù)創(chuàng)建數(shù)據(jù)挖掘模型的一組試探法和計(jì)算。為了創(chuàng)建模型,算法將首先分析您提供的數(shù)據(jù),并查找特定類(lèi)型的模式和趨勢(shì)。算法使用此分析的結(jié)果來(lái)定義用于創(chuàng)建挖掘模型的最佳參數(shù)。然后,這些參數(shù)應(yīng)用于整個(gè)數(shù)據(jù)集,以便提取可行模式和詳細(xì)統(tǒng)計(jì)信息。數(shù)據(jù)挖掘十大算法概念補(bǔ)充:決策樹(shù)算法:決策樹(shù)(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹(shù)來(lái)求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法。所分析的數(shù)據(jù)樣本是集成為一個(gè)樹(shù)根,經(jīng)過(guò)層層分枝,最終形成若干個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)代表一個(gè)結(jié)論。聚類(lèi):將觀察對(duì)象的群體按照相似性和相異性進(jìn)行不同群組的劃分。聚類(lèi)分析的算法有:劃

5、分的方法(K-means)、層次的方法(依次讓最相似的數(shù)據(jù)對(duì)象兩兩合并)、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法。1)C4.5(分類(lèi)算法)C4.5是一個(gè)決策樹(shù)算法,它是決策樹(shù)核心算法ID3的改進(jìn)算法。決策樹(shù)構(gòu)造方法就是每次選擇一個(gè)好的特征以及分裂點(diǎn)作為當(dāng)前節(jié)點(diǎn)的分類(lèi)條件。ID3以信息熵和信息增益度為衡量的標(biāo)準(zhǔn),從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的歸納分類(lèi)。ID3計(jì)算每個(gè)屬性的信息增益,并選取具有最高增益的屬性作為給定的測(cè)試屬性。C4.5克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足。在樹(shù)構(gòu)造過(guò)程中進(jìn)行剪枝,在構(gòu)造決策樹(shù)的時(shí)候,對(duì)于那些掛著幾個(gè)元素的節(jié)點(diǎn),干脆不考慮最好,不然很容易導(dǎo)致overfitt

6、ing。對(duì)非離散數(shù)據(jù)都能處理,這個(gè)其實(shí)就是一個(gè)個(gè)式,看對(duì)于連續(xù)型的值在哪里分裂好。也就是把連續(xù)性的數(shù)據(jù)轉(zhuǎn)化為離散的值進(jìn)行處理。能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理,尋找一個(gè)代替數(shù)據(jù)來(lái)填充。C4.5算法優(yōu)點(diǎn):產(chǎn)生的分類(lèi)易于理解,準(zhǔn)確率高; 缺點(diǎn):a)構(gòu)造樹(shù)過(guò)程中,需對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,導(dǎo)致算法低效; b)只適合于能夠駐留于內(nèi)存的數(shù)據(jù)集,當(dāng)數(shù)據(jù)集大得無(wú)法再內(nèi)存中容納時(shí),程序無(wú)法運(yùn)行。2)CART(Classification and Regression Tree,分類(lèi)與回歸樹(shù))(分類(lèi)算法)CART也是一種決策樹(shù)算法,著眼于總體優(yōu)化。相對(duì)于那些實(shí)現(xiàn)一個(gè)節(jié)點(diǎn)下面有多個(gè)子樹(shù)的多元分類(lèi),CART只是分

7、類(lèi)兩個(gè)子樹(shù),這樣實(shí)現(xiàn)起來(lái)稍稍簡(jiǎn)便些。所以說(shuō)CART算法生成的決策樹(shù)是結(jié)構(gòu)簡(jiǎn)潔的二叉樹(shù)。3)KNN(K Nearest Neighbours,K最鄰近) (分類(lèi)算法)從訓(xùn)練樣本中找出K個(gè)與其最相近的樣本,是Top-K個(gè)訓(xùn)練樣本出來(lái),看這K個(gè)樣本中哪個(gè)類(lèi)別的多些,則待判定的值(或:抽樣)就屬于這個(gè)類(lèi)別。缺點(diǎn):a)K值需要預(yù)先設(shè)定,不能自適應(yīng);b)當(dāng)樣本不平衡時(shí),如某個(gè)類(lèi)的樣本容量很大,而其他類(lèi)樣本量小時(shí),可能導(dǎo)致輸入的新樣本的K個(gè)鄰居中大容量的樣本占多數(shù)。該算法適用于樣本容量較大的類(lèi)域進(jìn)行自動(dòng)分類(lèi)。4)Naive Bayes(樸素貝葉斯NB) (分類(lèi)算法)是基于貝葉斯定理和特征條件獨(dú)立假設(shè)的分類(lèi)方

8、法。它的基礎(chǔ)是概率問(wèn)題。分類(lèi)原理:通過(guò)某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即:該對(duì)象屬于某一類(lèi)的概率,選擇具有最大后驗(yàn)概率的類(lèi)作為該對(duì)象所屬的類(lèi)。5)Support Vector Machine(支持向量機(jī)SVM) (統(tǒng)計(jì)學(xué)習(xí)算法) SVM是基于分類(lèi)邊界的方法。就是想找一個(gè)分類(lèi)得最”好”的分類(lèi)線/分類(lèi)面(最近的一些兩類(lèi)樣本到這個(gè)”線”的距離最遠(yuǎn)),將空間中的點(diǎn)按其分類(lèi)聚集在不同的區(qū)域。常用的工具包是LibSVM、SVMLight、MySVM。原理:將低維空間的點(diǎn)映射到高維空間,使它們成為線性可分,再使用線性劃分原理來(lái)判斷分類(lèi)邊界。6)EM(期望最大化) (統(tǒng)計(jì)學(xué)習(xí)算法)基于模型的

9、聚類(lèi)方法,在概率模型中尋找參數(shù)最大似然估計(jì)的算法,其中概率模型依賴(lài)于無(wú)法觀測(cè)的隱藏變量。例如:假設(shè)數(shù)據(jù)是由幾個(gè)高斯分布組成的,所以最后就是要求幾個(gè)高斯分布的參數(shù)。通過(guò)先假設(shè)幾個(gè)值,然后通過(guò)反復(fù)迭代,以期望得到最好的擬合。優(yōu)點(diǎn):計(jì)算結(jié)果穩(wěn)定、準(zhǔn)確;缺點(diǎn):計(jì)算復(fù)雜、收斂慢,不適合大規(guī)模計(jì)算。7)Apriori(關(guān)聯(lián)分析)一種挖掘關(guān)聯(lián)規(guī)則的算法,用于挖掘其內(nèi)含的、未知的卻又實(shí)際存在的數(shù)據(jù)關(guān)系。不知道為什么,一提高關(guān)聯(lián)規(guī)則我就想到購(gòu)物籃數(shù)據(jù)。核心:基于兩階段頻集思想的遞推算法。兩個(gè)階段:a)尋找頻繁項(xiàng)集;(支持度) b)由頻繁項(xiàng)集找出關(guān)聯(lián)規(guī)則。(可信度)缺點(diǎn):a)在每一步產(chǎn)生候選項(xiàng)集時(shí),循環(huán)產(chǎn)生的組合

10、過(guò)多,沒(méi)有排除不應(yīng)參與組合的元素; b)每次計(jì)算項(xiàng)集的支持度時(shí),都對(duì)數(shù)據(jù)庫(kù)的全部記錄進(jìn)行了一遍掃描比較,需要很大的I/O負(fù)載。8)PageRank(數(shù)據(jù)挖掘)是GOOGLE的頁(yè)面排序算法,基于從許多優(yōu)質(zhì)的網(wǎng)頁(yè)鏈接過(guò)來(lái)的網(wǎng)頁(yè),必定是優(yōu)質(zhì)網(wǎng)頁(yè)的回歸關(guān)系,來(lái)判定網(wǎng)頁(yè)的重要性。例如:如果我指向你(網(wǎng)頁(yè)間的連接)則表示我承認(rèn)你,則在計(jì)算你的重要性的時(shí)候可以加上我的一部分重要性(到底多少,要看我自己有多少和我共承認(rèn)多少個(gè)人)。通過(guò)反復(fù)這樣來(lái),可以求的一個(gè)穩(wěn)定的衡量各個(gè)人(網(wǎng)頁(yè))重要性的值。不過(guò)這里必須要做些限制(一個(gè)人的開(kāi)始默認(rèn)重要性都是1),不然那些值會(huì)越來(lái)越大越來(lái)越大。優(yōu)點(diǎn):完全獨(dú)立于查詢,只依賴(lài)于網(wǎng)

11、頁(yè)鏈接結(jié)構(gòu),可離線計(jì)算;缺點(diǎn):a)忽略了網(wǎng)頁(yè)搜索的時(shí)效性; b)舊網(wǎng)頁(yè)的排序高、存在時(shí)間長(zhǎng),積累了大量的in-links,擁有新資訊的新網(wǎng)頁(yè)排名第,幾乎無(wú)in-links。9)K-Means(聚類(lèi))K-Means是一種最經(jīng)典也是使用最廣泛的聚類(lèi)方法,時(shí)至今日扔然有很多基于其的改進(jìn)模型提出。K-Means的思想很簡(jiǎn)單,對(duì)于一個(gè)聚類(lèi)任務(wù),首先隨機(jī)選擇K個(gè)簇中心,然后反復(fù)計(jì)算下面的過(guò)程直到所有簇中心不改變(簇集合不改變)為止:步驟1:對(duì)于每個(gè)對(duì)象,計(jì)算其與每個(gè)簇中心的相似度,把其歸入與其最相似的那個(gè)簇中。步驟2:更新簇中心,新的簇中心通過(guò)計(jì)算所有屬于該簇的對(duì)象的平均值得到。k-means 算法的工作

12、過(guò)程說(shuō)明如下:首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇k 個(gè)對(duì)象作為初始聚類(lèi)中心;而對(duì)于所剩下其它對(duì)象,則根據(jù)它們與這些聚類(lèi)中心的相似度(距離),分別將它們分配給與其最相似的(聚類(lèi)中心所代表的)聚類(lèi);然后再計(jì)算每個(gè)所獲新聚類(lèi)的聚類(lèi)中心(該聚類(lèi)中所有對(duì)象的均值);不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù). k個(gè)聚類(lèi)具有以下特點(diǎn):各聚類(lèi)本身盡可能的緊湊,而各聚類(lèi)之間盡可能的分開(kāi)。10)AdaBoost(袋裝與分類(lèi))AdaBoost做分類(lèi)的一般知道,它是一種boosting方法。這個(gè)不能說(shuō)是一種算法,應(yīng)該是一種方法,因?yàn)樗梢越⒃谌魏我环N分類(lèi)算法上,可以是決策樹(shù),NB,SVM等。Adaboost是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類(lèi)器(弱分類(lèi)器),然后把這些

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論