版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
適宜用算法解決的決策例子1分類算法應用場景實例1.1O2O優(yōu)惠券使用預測以優(yōu)惠券盤活老用戶或吸引新客戶進店消費是O2O的一種重要營銷方式。然而隨機投放的優(yōu)惠券對多數(shù)用戶造成無意義的干擾。對商家而言,濫發(fā)的優(yōu)惠券可能降低品牌聲譽,同時難以估算營銷成本。個性化投放是提高優(yōu)惠券核銷率的重要技術,它可以讓具有一定偏好的消費者得到真正的實惠,同時賦予商家更強的營銷能力?,F(xiàn)有O2O場景相關的豐富數(shù)據(jù),希望通過分析建模,精準預測用戶是否會在規(guī)定時間內(nèi)使用相應優(yōu)惠券。1.2市民出行選乘公交預測基于海量公交數(shù)據(jù)記錄,希望挖掘市民在公共交通中的行為模式。以市民出行公交線路選乘預測為方向,期望通過分析廣東省部分公交線路的歷史公交卡交易數(shù)據(jù),挖掘固定人群在公共交通中的行為模式,分析推測乘客的出行習慣和偏好,從而建立模型預測人們在未來一周內(nèi)將會搭乘哪些公交線路,為廣大乘客提供信息對稱、安全舒適的出行環(huán)境,用數(shù)據(jù)引領未來城市智慧出行。1.3待測微生物種類判別DNA是多數(shù)生物的遺傳物質(zhì),DNA上的堿基(A,T,C和G)就儲藏了遺傳信息,不同物種的DNA序列在序列長度和堿基組成上差異顯著。所以我們能夠通過DNA序列的比較分析,來判斷DNA序列是來自哪些物種。由于測序技術限制,我們只能得到一定長度的DNA序列片段。通過DNA序列片段與已知的微生物DNA序列進行比較,可以確定DNA片段的來源微生物,進而確定待測微生物種類。期望在相關數(shù)據(jù)基礎上,建立分析方法,在計算資源消耗盡量小的情況下,盡可能快地給出準確的結(jié)果,以滿足臨床診斷需求。1.4基于運營商數(shù)據(jù)的個人征信評估運營商作為網(wǎng)絡服務供應商,積累了大量的用戶基本信息及行為特征數(shù)據(jù),如終端數(shù)據(jù)、套餐消費數(shù)據(jù)、通信數(shù)據(jù)等等。實名制政策保證了運營商用戶數(shù)據(jù)能與用戶真實身份匹配,并真實客觀的反映用戶行為。廣泛覆蓋的網(wǎng)絡基礎設施提供了積累大量實時數(shù)據(jù)的條件,這些用戶數(shù)據(jù)實時反饋著用戶的各個維度的信息及特征。在我國,個人征信評估主要通過引用央行個人征信報告,但對于很多用戶沒有建立個人信用記錄的用戶,金融機構(gòu)想要了解他們的信用記錄成本又較高,傳統(tǒng)征信評估手段難以滿足目前多種多樣的新興需求。金融業(yè)務不同于其他大數(shù)據(jù)業(yè)務,對數(shù)據(jù)的真實性、可信度和時效性要求較高,而這正是運營商數(shù)據(jù)的價值所在。期望利用運營商用戶數(shù)據(jù),提供完善的個人征信評估。1.5商品圖片分類京東含有數(shù)以百萬計的商品圖片,“拍照購”“找同款”等應用必須對用戶提供的商品圖片進行分類。同時,提取商品圖像特征,可以提供給推薦、廣告等系統(tǒng),提高推薦/廣告的效果。希望通過對圖像數(shù)據(jù)進行學習,以達到對圖像進行分類劃分的目的。1.6廣告點擊行為預測用戶在上網(wǎng)瀏覽過程中,可能產(chǎn)生廣告曝光或點擊行為。對廣告點擊進行預測,可以指導廣告主進行定向廣告投放和優(yōu)化,使廣告投入產(chǎn)生最大回報。希望基于100萬名隨機用戶在六個月的時間范圍內(nèi)廣告曝光和點擊日志,包括廣告監(jiān)測點數(shù)據(jù),預測每個用戶在8天內(nèi)是否會在各監(jiān)測點上發(fā)生點擊行為。1.7基于文本內(nèi)容的垃圾短信識別垃圾短信已日益成為困擾運營商和手機用戶的難題,嚴重影響到人們正常生活、侵害到運營商的社會形象以及危害著社會穩(wěn)定。而不法分子運用科技手段不斷更新垃圾短信形式且傳播途徑非常廣泛,傳統(tǒng)的基于策略、關鍵詞等過濾的效果有限,很多垃圾短信“逃脫”過濾,繼續(xù)到達手機終端。希望基于短信文本內(nèi)容,結(jié)合機器學習算法、大數(shù)據(jù)分析挖掘來智能地識別垃圾短信及其變種。1.8中文句子類別精準分析精確的語義分析是大數(shù)據(jù)必備技術,在分析句子時,不同句子類別即使用類似的關鍵詞,表達的含義仍有很大差別,特別是在情感判斷中。希望通過新聞以及微博等文本數(shù)據(jù),對其句子類別進行判斷。1.9P2P網(wǎng)絡借貸平臺的經(jīng)營風險量化分析P2P網(wǎng)絡借貸即點對點信貸,其風險情況始終觸碰著投資人的神經(jīng)。據(jù)網(wǎng)貸之家統(tǒng)計,截止今年9月份,出現(xiàn)問題的網(wǎng)貸平臺一共有1008家,而僅僅今年就有641家平臺出現(xiàn)問題,這說明了隨著我國p2p行業(yè)的迅猛發(fā)展,P2P平臺的風險預測已經(jīng)成為一個至關重要的問題。P2P平臺的風險主要是在運營過程中產(chǎn)生的,與運營數(shù)據(jù)有著密不可分的關系。P2P平臺的風險預測并非無線索可尋,像借款期限和年化收益率等指標,就對P2P平臺的風險預測有很重要的參考意義。希望通過互聯(lián)網(wǎng)數(shù)據(jù),構(gòu)建出P2P網(wǎng)貸平臺的經(jīng)營風險模型,從而能夠比較準確的預測P2P網(wǎng)貸平臺的經(jīng)營風險,促進我國P2P行業(yè)向正規(guī)化方向發(fā)展。1.10國家電網(wǎng)客戶用電異常行為分析社會經(jīng)濟的發(fā)展使得社會用電量逐年增加,受利益驅(qū)使,竊電現(xiàn)象也日益嚴重。竊電行為不僅給供電企業(yè)造成了重大經(jīng)濟損失,也嚴重影響了正常的供用電秩序。根據(jù)國家電網(wǎng)公司統(tǒng)計,近年因竊電導致的損失達上千萬元。近年來,竊電方式也由野蠻竊電發(fā)展到設備智能化、手段專業(yè)化、行為隱蔽化、實施規(guī)?;母呖萍几`電,給反竊電工作進一步增加了很大的難度。隨著電力系統(tǒng)升級,智能電力設備的普及,國家電網(wǎng)公司可以實時收集海量的用戶用電行為數(shù)據(jù)、電力設備監(jiān)測數(shù)據(jù),因此,國家電網(wǎng)公司希望通過大數(shù)據(jù)分析技術,科學的開展防竊電監(jiān)測分析,以提高反竊電工作效率,降低竊電行為分析的時間及成本。希望基于國家電網(wǎng)公司提供的關于用戶用電量、電能表停走、電流失流、計量們打開燈計量異常情況、竊電行為等相關數(shù)據(jù),以及經(jīng)過現(xiàn)場電工人員現(xiàn)場確認的竊電用戶清單,希望參賽者利用大數(shù)據(jù)分析算法與技術,發(fā)現(xiàn)竊電用戶的行為特征,形成竊電用戶行為畫像,準確識別竊電用戶,以幫助系統(tǒng)更快速、準確地識別竊電用戶,提高竊電監(jiān)測效率,降低竊電損失。1.11自動駕駛場景中的交通標志檢測在自動駕駛場景中,交通標志的檢測和識別對行車周圍環(huán)境的理解起著至關重要的作用。例如通過檢測識別限速標志來控制當前車輛的速度等;另一方面,將交通標志嵌入到高精度地圖中,對定位導航也起到關鍵的輔助作用。交通標志的檢測是一項非常有挑戰(zhàn)的任務,精確的檢測對后續(xù)識別,輔助定位導航起著決定性的作用。交通標志的種類眾多,大小、角度不依,本身就很難做到精確檢測,并且在真實的行車環(huán)境中,受到天氣、光照等因素的影響,使得交通標志的檢測更加困難。希望機遇完全真實場景下的圖片數(shù)據(jù)用于訓練和測試,訓練能夠?qū)嶋H應用在自動駕駛中的識別模型。1.12大數(shù)據(jù)精準營銷中搜狗用戶畫像挖掘“物以類聚,人以群分”這句古語不僅揭示了物與人的自組織趨向,更隱含了“聚類”和“人群”之間的內(nèi)在聯(lián)系。在現(xiàn)代數(shù)字廣告投放系統(tǒng)中,以物擬人,以物窺人,才是比任何大數(shù)據(jù)都要更大的前提。在現(xiàn)代廣告投放系統(tǒng)中,多層級成體系的用戶畫像構(gòu)建算法是實現(xiàn)精準廣告投放的基礎技術之一。其中,基于人口屬性的廣告定向技術是普遍適用于品牌展示廣告和精準競價廣告的關鍵性技術。在搜索競價廣告系統(tǒng)中,用戶通過在搜索引擎輸入具體的查詢詞來獲取相關信息。因此,用戶的歷史查詢詞與用戶的基本屬性及潛在需求有密切的關系。希望基于用戶歷史一個月的查詢詞與用戶的人口屬性標簽(包括性別、年齡、學歷)做為訓練數(shù)據(jù),通過機器學習、數(shù)據(jù)挖掘技術構(gòu)建分類算法來對新增用戶的人口屬性進行判定。1.13基于視角的領域情感分析情感分析是網(wǎng)絡輿情分析中必不可少的技術,基于視角的領域情感分析更是情感分析應用于特定領域的關鍵技術。在對句子進行情感分析時,站在不同的視角,同一個句子的情感傾向判斷結(jié)果將有所差別。給定一個句子,如果該句子中包含“視角”詞語,則應針對這一視角進行情感分析;如果句子中包含多個“視角”詞語,則應對不同的視角進行單獨的情感分析;如果句子中不包含視角,則不做情感判別處理。1.14監(jiān)控場景下的行人精細化識別隨著平安中國、平安城市的提出,視頻監(jiān)控被廣泛應用于各種領域,這給維護社會治安帶來了便捷;但同時也帶來了一個問題,即海量的視頻監(jiān)控流使得發(fā)生突發(fā)事故后,需要耗費大量的人力物力去搜索有效信息。行人作為視頻監(jiān)控中的重要目標之一,若能對其進行有效的外觀識別,不僅能提高視頻監(jiān)控工作人員的工作效率,對視頻的檢索、行人行為解析也具有重要意義。希望基于監(jiān)控場景下多張帶有標注信息的行人圖像,在定位(頭部、上身、下身、腳、帽子、包)的基礎上研究行人精細化識別算法,自動識別出行人圖像中行人的屬性特征。標注的行人屬性包括性別、頭發(fā)長度和上下身衣著、鞋子及包的種類和顏色,并提供圖像中行人頭部、上身、下身、腳、帽子、包位置的標注。1.15用戶評分預測個性化推薦已經(jīng)成為各大電子商務網(wǎng)站的必備服務。準確的推薦不僅可以提高商家的產(chǎn)品銷量,更能為顧客提供優(yōu)質(zhì)快速的購物體驗。推薦系統(tǒng)發(fā)展至今,已經(jīng)有許多非常優(yōu)秀的推薦算法,從各種不同的角度來為電子商務大廈添磚加瓦。迄今為止,已經(jīng)有不少研究表明,用戶在短期時間內(nèi)會瀏覽相似的商品,但其興趣可能會隨時間發(fā)生些許變化。希望通過訓練帶有時間標記的用戶打分行為,準確地預測這些用戶對其他商品的打分。1.16貓狗識別大戰(zhàn)有人說,貓與狗上千年歷史的敵對狀態(tài),主要是由于在長期進化過程中迫于對生存資源進行爭奪而造成的殘酷競爭導致的;也有人說,是他們天生的交流方式不同導致的;今天貓狗大戰(zhàn)開始了,為了避免被這些家伙拆房的危險,各位智慧的人類,請速來隔離高冷貓和憨厚狗。希望從訓練集里建立一個模型去識別測試集里的小狗來。1.17微額借款用戶人品預測互聯(lián)網(wǎng)金融近年來異常火熱,大量的資本和人才涌入這個領域發(fā)掘富藏價值。金融領域無論是投資理財還是借貸放款,風險控制永遠是業(yè)務的核心基礎。而在所有的互聯(lián)網(wǎng)金融產(chǎn)品中,微額借款(借款金額500元~1000元)因其主要服務對象的特殊性,被公認為是風險最高的細分領域。希望通過數(shù)據(jù)挖掘來分析”小額微貸“申請借款用戶的信用狀況,以分析其是否逾期。1.18驗證碼識別使用各類驗證碼的訓練集進行學習、編碼與測試,形成驗證碼算法模型。1.19客戶流失率預測我國的移動通信行業(yè)經(jīng)過了前幾年的高速發(fā)展,近一段時間的發(fā)展速度逐漸緩慢下來。注冊用戶常常處于一種動態(tài)變化的狀態(tài),即不斷有老客戶離網(wǎng),又不斷有新客戶入網(wǎng)。大量的低消費客戶和大量老客戶的離網(wǎng)使得移動通信公司無法快速向前發(fā)展。希望建立客戶流失模型,對新老客戶進行分類。1.20汽車4S店郵件營銷方案直郵營銷是直效行銷的一種,是把傳統(tǒng)郵件直接發(fā)送給消費者的營銷方式涉及的行業(yè)主要是大型商場、大賣場、商業(yè)連鎖店鋪、專賣店等。一家汽車4S店,公司擁有完備的客戶歷史消費數(shù)據(jù)庫,現(xiàn)公司準備舉辦一次高端品牌汽車的促銷活動,為配合這次促銷活動,公司計劃為潛在客戶寄去一份精美的汽車銷售材料并附帶一份小禮品。由于資源有限,公司僅有1000份材料和禮品的預算額度。希望根據(jù)與這次促銷活動類似的已經(jīng)舉辦過的促銷活動的歷史消費數(shù)據(jù),用過機器學習算法得到一個分類器,對新客戶進行分類,生成正類客戶的客戶列表,向他們寄出材料和禮品。2回歸算法應用場景實例2.1機場客流量分布預測為了有效利用機場資源,機場正利用大數(shù)據(jù)技術,提升生產(chǎn)運營的效率。機場內(nèi)需要不斷提升運行效率的資源有航站樓內(nèi)的各類燈光電梯設施設備、值機柜臺、商鋪、廣告位、安檢通道、登機口,航站樓外的停機位、廊橋、車輛(擺渡車、清潔車、物流車、能源車),要想提升這些資源的利用率首先需要知道未來一段時間將會有多少旅客或航班會使用這些資源,其次需要精準的調(diào)度系統(tǒng)來調(diào)配這些資源和安排服務人員,幫助機場提升資源利用效率,保障機場安全與服務提升。以海量機場WiFi數(shù)據(jù)及安檢登機值機數(shù)據(jù),希望通過數(shù)據(jù)算法實現(xiàn)機場航站樓客流分析與預測。2.2音樂流行趨勢預測經(jīng)過7年的發(fā)展與沉淀,目前某音樂平臺擁有數(shù)百萬的曲庫資源,每天千萬的用戶活躍在平臺上,擁有數(shù)億人次的用戶試聽、收藏等行為。在原創(chuàng)藝人和作品方面,更是擁有數(shù)萬的獨立音樂人,每月上傳上萬個原創(chuàng)作品,形成超過幾十萬首曲目的原創(chuàng)作品庫,如此龐大的數(shù)據(jù)資源庫對于音樂流行趨勢的把握有著極為重要的指引作用。以某音樂平臺用戶的歷史播放數(shù)據(jù)為基礎,期望通過對藝人的試聽量的預測,挖掘出即將成為潮流的藝人,從而實現(xiàn)對一個時間段內(nèi)音樂流行趨勢的準確把控。2.3需求預測與倉儲規(guī)劃方案擁有海量的買家和賣家交易數(shù)據(jù)的情況下,利用數(shù)據(jù)挖掘技術,我們能對未來的商品需求量進行準確地預測,從而幫助商家自動化很多供應鏈過程中的決策。這些以大數(shù)據(jù)驅(qū)動的供應鏈能夠幫助商家大幅降低運營成本,更精確的需求預測,能夠大大地優(yōu)化運營成本,降低收貨時效,提升整個社會的供應鏈物流效率,朝智能化的供應鏈平臺方向更加邁進一步。高質(zhì)量的商品需求預測是供應鏈管理的基礎和核心功能。以歷史一年海量買家和賣家的數(shù)據(jù)為依據(jù),希望預測某商品在未來二周全國和區(qū)域性需求量。用數(shù)據(jù)挖掘技術和方法精準刻畫商品需求的變動規(guī)律,對未來的全國和區(qū)域性需求量進行預測,同時考慮到未來的不確定性對物流成本的影響,做到全局的最優(yōu)化。2.4新浪微博互動量預測新浪微博作為中國最大的社交媒體平臺,旨在幫助用戶發(fā)布的公開內(nèi)容提供快速傳播互動的通道,提升內(nèi)容和用戶的影響力。希望能夠最快找到有價值微博的方法,然后應用于平臺的內(nèi)容分發(fā)控制策略,對于有價值的內(nèi)容可以增加曝光量,提高內(nèi)容的傳播互動量。對于一條原創(chuàng)博文而言,轉(zhuǎn)發(fā)、評論、贊等互動行為能夠體現(xiàn)出用戶對于博文內(nèi)容的興趣程度,也是對博文進行分發(fā)控制的重要參考指標。希望根據(jù)抽樣用戶的原創(chuàng)博文在發(fā)表一天后的轉(zhuǎn)發(fā)、評論、贊總數(shù),建立博文的互動模型,并預測用戶后續(xù)博文在發(fā)表一天后的互動情況。2.5貨幣基金資金流入流出預測某金融服務機構(gòu)擁有大量會員并且業(yè)務場景中每天都涉及大量的資金流入和流出,面對如此龐大的用戶群,資金管理壓力會非常大。在既保證資金流動性風險最小,又滿足日常業(yè)務運轉(zhuǎn)的情況下,精準地預測資金的流入流出情況變得尤為重要。期望能夠通過用戶基本信息數(shù)據(jù)、用戶申購贖回數(shù)據(jù)、收益率表和銀行間拆借利率等信息,對用戶的申購贖回數(shù)據(jù)的把握,精準預測未來每日的資金流入流出情況。2.6電影票房預測中國是全球第二大電影市場,同時也是增長最快的市場之一;隨著市場的成熟,影響電影票房的因素也越來越多,包括題材、內(nèi)容、導演、演員、編輯、發(fā)行方等等。因此對電影制作公司而言,依靠主觀經(jīng)驗制作一部高票房的電影也越來越困難,而隨著大數(shù)據(jù)技術的發(fā)展,借助大數(shù)據(jù)分析對電影市場進行分析,指導電影制作成為可能。希望依據(jù)歷史票房數(shù)據(jù)、影評數(shù)據(jù)、輿情數(shù)據(jù)等互聯(lián)網(wǎng)公眾數(shù)據(jù),對電影票房進行預測。2.7農(nóng)產(chǎn)品價格預測分析農(nóng)產(chǎn)品價格受市場影響的程度特別大,特別是受農(nóng)產(chǎn)品的供求關系影響較大,同時價格本身又受自然條件、社會和經(jīng)濟條件的影響,特別是國際市場的影響。從價格本身來看,受供求、季節(jié)等發(fā)生波動,受外界各種影響比較多,這就造成了價格預測的困難。但從長期看,農(nóng)產(chǎn)品價格隨著時間的推移仍然呈現(xiàn)一定規(guī)律性。價格預測是大數(shù)據(jù)的精華所在,通過大量的歷史數(shù)據(jù)分析,預測未來的價格走勢,為決策者提供更有力的數(shù)據(jù)支持。希望通過分析價格歷史數(shù)據(jù),對要求預測的農(nóng)產(chǎn)品接下來固定時間的價格進行預測。并盡可能多的使用與價格有影響的其他數(shù)據(jù)以提高預測的準確率。2.8基于多源數(shù)據(jù)的青藏高原湖泊面積預測全球氣候變化對青藏高原的湖泊水儲量有很大影響,因此精確的估計青藏高原湖泊面積變化對于研究氣候變化變得很重要。海量多源異構(gòu)數(shù)據(jù)和大數(shù)據(jù)處理與挖掘技術給湖泊面積變化研究帶來新的解決思路;如何通過多源數(shù)據(jù)對青藏高原的湖泊面積進行預測,將大數(shù)據(jù)技術應用到全球氣候變化研究中來成為一項新的挑戰(zhàn)。希望通過研究青藏高原湖泊面積變化的多種影響因素,構(gòu)建青藏高原湖泊面積預測模型。2.9微博傳播規(guī)模和傳播深度預測近些年,一些研究表明,一條微博發(fā)出以后,只需要觀察其在之后一小段時間內(nèi)的轉(zhuǎn)發(fā)情況,它的傳播規(guī)模便可以被預測。但是不同類型的微博會有不同的傳播方式,比如明星曬一張生活狀態(tài)就能得到眾多粉絲的熱捧,具有較大的傳播廣度,但是往往在傳播深度上稍顯不足;相比之下,一些被廣泛討論的新聞類微博往往具有較深的傳播深度。也有統(tǒng)計結(jié)果顯示,一些謠言往往會得到大規(guī)模的傳播,辟謠類的消息反而得不到廣泛關注。不僅如此,我們在熱門微博中能看到不少正能量的信息,同時也能看到一些話題被持正反兩種不同意見的人掀起討論熱潮。簡而言之,微博初期的傳播速度、用戶關系、信息類型、內(nèi)容情感等特征都是影響微博傳播規(guī)模和深度的重要影響因素。希望基于大約1-3萬條微博及其它們的轉(zhuǎn)發(fā)微博,結(jié)合微博用戶的關注關系、微博的內(nèi)容類型和情感分析以及初期的傳播模式,來預測微博的傳播規(guī)模和傳播深度。2.10鮑魚年齡預測鮑魚,在現(xiàn)代漢語中有多種含義。最常用的是指一種原始的海洋貝類,屬于單殼軟體動物,其只有半面外殼,殼堅厚、扁而寬,鮑魚是中國傳統(tǒng)的名貴食材,位居四大海味之首。直至現(xiàn)今,在人民大會堂舉行的多次國宴及大型宴會中,鮑魚經(jīng)常榜上有名,成為中國經(jīng)典國宴菜之一。被人們稱為“海洋的耳朵”。和古代“用鹽腌制的魚”是兩種東西。鮑魚的優(yōu)劣與年齡相關。一般來說,我們可以數(shù)鮑魚的生長紋來確定鮑魚的年齡,但數(shù)生長紋也是一件挺麻煩的事情。希望利用與鮑魚年齡有關的因素來預測鮑魚的年齡。2.11學生成績排名預測學生的校園行為數(shù)據(jù),可以挖掘用戶作息規(guī)律、興趣愛好等,精準地預測學生之間的相對排名。通過對這些日常行為的建模來預測學生的學業(yè)成績,可以實現(xiàn)提前預警學生的異常情況,并進行適當?shù)母深A,因而對學生的培養(yǎng)、管理工作將會起到極其重要的作用。從某高校的某個學院隨機抽取一定比例學生,提供這些學生在三個學期的圖書館進出記錄、一卡通消費記錄、圖書館借閱記錄、以及綜合成績的相對排名。這一部分數(shù)據(jù)將作為訓練數(shù)據(jù)。我們從另外的某學院隨機抽取一定比例的學生,然后提供他們在三個學期的圖書館進出記錄、一卡通消費記錄、圖書借閱記錄、以及前兩個學期的成績排名。希望通過借助大數(shù)據(jù)相關的挖掘技術和基礎算法,預測第三學期的成績排名。2.12網(wǎng)約車出行流量預測在出行問題上,中國市場人數(shù)多、人口密度大,總體的出行頻率遠高于其他國家,這種情況在大城市尤為明顯。然而,截止目前中國擁有汽車的人口只有不到10%,這也意味著在中國人們的出行更加依賴于出租車、公共交通等市場提供的服務。另一方面,滴滴出行占領了國內(nèi)絕大部分的網(wǎng)絡呼叫出行市場,面對著巨大的數(shù)據(jù)量以及與日俱增的數(shù)據(jù)處理需求。截止目前,滴滴出行平臺每日需處理1100萬訂單,需要分析的數(shù)據(jù)量達到50TB,路徑規(guī)劃服務請求超過90億。面對如此龐雜的數(shù)據(jù),我們需要通過不斷升級、完善與創(chuàng)新背后的云計算與大數(shù)據(jù)技術,從而保證數(shù)據(jù)分析及相關應用的穩(wěn)定,實現(xiàn)高頻出行下的運力均衡。供需預測就是其中的一個關鍵問題。供需預測的目標是準確預測出給定地理區(qū)域在未來某個時間段的出行需求量及需求滿足量。調(diào)研發(fā)現(xiàn),同一地區(qū)不同時間段的訂單密度是不一樣的,例如大型居住區(qū)在早高峰時段的出行需求比較旺盛,而商務區(qū)則在晚高峰時段的出行需求比較旺盛。希望能預測到在未來的一段時間內(nèi)某些地區(qū)的出行需求量比較大,以提前對營運車輛提供一些引導,指向性地提高部分地區(qū)的運力,從而提升乘客的整體出行體驗。2.13紅酒品質(zhì)評分紅酒口感的好壞,受很多因素的影響,例如年份、產(chǎn)地、氣候、釀造的工藝等等。通過一些化學屬性特征就能夠很好地判斷紅酒的品質(zhì)。通過監(jiān)測紅酒中化學成分的含量,可以控制紅酒的品質(zhì)和口感。希望基于紅酒的化學特性,例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等,構(gòu)建機器學習模型,對紅酒品質(zhì)進行評分。2.14搜索引擎的搜索量和股價波動上市公司在互聯(lián)網(wǎng)中搜索量的變化,會顯著影響公司股價的波動和趨勢,即所謂的投資者注意力理論。該理論認為,公司在搜索引擎中的搜索量,代表了該股票被投資者關注的程度。因此,當一只股票的搜索頻數(shù)增加時,說明投資者對該股票的關注度提升,從而使得該股票更容易被個人投資者購買,進一步地導致股票價格上升,帶來正向的股票收益。2.15中國人口增長分析中國從1971年開始全面開展了計劃生育,使中國總和生育率很快從1970年的5.8降到1980年2.24,接近世代更替水平。此后,人口自然增長率很大程度上與經(jīng)濟的發(fā)展等各方面的因素相聯(lián)系,與經(jīng)濟生活息息相關。影響中國人口自然增長率的因素有很多,如經(jīng)濟整體增長、居民消費水平、文化程度、人口分布,以及非農(nóng)業(yè)與農(nóng)業(yè)人口的比率等。希望通過歷史數(shù)據(jù)分析,對未來人口增長率進行預測。2.16農(nóng)村居民收入增長預測“三農(nóng)”問題的核心是農(nóng)村居民收入問題。改革開放以來,農(nóng)村經(jīng)濟蓬勃發(fā)展,農(nóng)村居民收入有了較大幅度的增長,但與城鎮(zhèn)居民的收入相比,卻表現(xiàn)出增長緩慢、差距越來越大的趨勢。希望對影響我國農(nóng)村居民收入的因素進行分析,再運用實證方法對農(nóng)民的經(jīng)濟統(tǒng)計數(shù)據(jù)進行分析,得到了影響農(nóng)村居民純收入的模型。為預測農(nóng)村居民的收入增長趨勢提供工具,為農(nóng)村地區(qū)的政策措施提供參考建議。2.17房地產(chǎn)銷售影響因素分析改革開放以來,我國的經(jīng)濟突飛猛進對城市商品房的價格產(chǎn)生了巨大影響,特別是進入21世紀后,伴隨著商品房價格日益增長,出現(xiàn)了房地產(chǎn)投資過熱。在這種房價居高不下的形勢下,國內(nèi)外諸多專家學者認為我國的房地產(chǎn)市場已經(jīng)出現(xiàn)價格泡沫,在房地產(chǎn)業(yè)對我國國民經(jīng)濟發(fā)展起著積極作用的大環(huán)境下,這種價格泡沫勢必會對我國的經(jīng)濟發(fā)展造成重大影響。年人均收入、新增住房面積及上一年商品房價格等因素對房地產(chǎn)銷售有影響,期望利用歷史數(shù)據(jù)分析測度其對商品房價格的影響,找出了引起房地產(chǎn)價格波動的主要因素當年年人均收入,根據(jù)實證結(jié)論提出了控制房價的建議。2.18股價走勢預測隨著經(jīng)濟社會的發(fā)展,以及人們投資意識的增強,人們越來越多的參與到股票市場的經(jīng)濟活動中,股票投資也已經(jīng)成為人們生活的一個重要組成部分。然而在股票市場中,眾多的指標、眾多的信息,很難找出對股價更為關鍵的因素;其次股市結(jié)構(gòu)極為復雜,影響因素具有多樣性、相關性。這導致了很難找出股市內(nèi)在的模式。希望在盡可能全面的收集股市信息的基礎上,建立股價預測模。2.19全國綜合運輸總量預測以全國同期國民經(jīng)濟主要產(chǎn)品產(chǎn)量,如原煤、原油、生鐵、鋼材、水泥、木材、糧食的歷史數(shù)據(jù),建立數(shù)據(jù)挖掘模型,對全國綜合運輸總運量進行預測。2.20地震預報根據(jù)歷史全球大地震的時空圖,找出與中國大陸大地震有關的14個相關區(qū),對這些相關區(qū)逐一鑒別,選取較優(yōu)的9個,再根據(jù)這9個相關區(qū)發(fā)生的大震來預測中國大陸在未來一年內(nèi)會不會有大震發(fā)生。3聚類算法應用場景實例3.1基于用戶位置信息的商業(yè)選址隨著信息技術的快速發(fā)展,移動設備和移動互聯(lián)網(wǎng)已經(jīng)普及到千家萬戶。在用戶使用移動網(wǎng)絡時,會自然的留下用戶的位置信息。隨著近年來GIS地理信息技術的不斷完善普及,結(jié)合用戶位置和GIS地理信息將帶來創(chuàng)新應用。如百度與萬達進行合作,通過定位用戶的位置,結(jié)合萬達的商戶信息,向用戶推送位置營銷服務,提升商戶效益。希望通過大量移動設備用戶的位置信息,為某連鎖餐飲機構(gòu)提供新店選址。3.2中文地址標準化處理地址是一個涵蓋豐富信息的變量,但長期以來由于中文處理的復雜性、國內(nèi)中文地址命名的不規(guī)范性,使地址中蘊含的豐富信息不能被深度分析挖掘。通過對地址進行標準化的處理,使基于地址的多維度量化挖掘分析成為可能,為不同場景模式下的電子商務應用挖掘提供了更加豐富的方法和手段,因此具有重要的現(xiàn)實意義。3.3國家電網(wǎng)用戶畫像隨著電力體制改革向縱深推進,售電側(cè)逐步向社會資本放開,當下的粗放式經(jīng)營和統(tǒng)一式客戶服務內(nèi)容及模式,難以應對日益增長的個性化、精準化客戶服務體驗要求。如何充分利用現(xiàn)有數(shù)據(jù)資源,深入挖掘客戶潛在需求,改善供電服務質(zhì)量,增強客戶黏性,對公司未來發(fā)展至關重要。對電力服務具有較強敏感度的客戶對于電費計量、供電質(zhì)量、電力營銷等各方面服務的質(zhì)量及方式上往往具備更高的要求,成為各級電力公司關注的重點客戶。經(jīng)過多年的發(fā)展與沉淀,目前國家電網(wǎng)積累了全網(wǎng)4億多客戶檔案數(shù)據(jù)和海量供電服務信息,以及公司營銷、電網(wǎng)生產(chǎn)等數(shù)據(jù),可以有效的支撐海量電力數(shù)據(jù)分析。因此,國家電網(wǎng)公司希望通過大數(shù)據(jù)分析技術,科學的開展電力敏感客戶分析,以準確地識別敏感客戶,并量化敏感程度,進而支撐有針對性的精細化客戶服務策略,控制電力服務人工成本、提升企業(yè)公眾形象。3.4非人惡意流量識別2016年第一季度Facebook發(fā)文稱,其AtlasDSP平臺半年的流量質(zhì)量測試結(jié)果顯示,由機器人模擬和黑IP等手段導致的非人惡意流量高達75%.僅2016上半年,AdMaster反作弊解決方案認定平均每天能有高達28%的作弊流量。低質(zhì)量虛假流量的問題一直存在,這也是過去十年間數(shù)字營銷行業(yè)一直在博弈的問題?;贏dMaster海量監(jiān)測數(shù)據(jù),50%以上的項目均存在作弊嫌疑;不同項目中,作弊流量占廣告投放5%到95%不等;其中垂直類和網(wǎng)盟類媒體的作弊流量占比最高;PC端作弊流量比例顯著高于移動端和智能電視平臺。廣告監(jiān)測行為數(shù)據(jù)被越來越多地用于建模和做決策,例如繪制用戶畫像,跨設備識別對應用戶等。作弊行為,惡意曝光,網(wǎng)絡爬蟲,誤導點擊,甚至是在用戶完全無感知的情況下被控制訪問等產(chǎn)生的不由用戶主觀發(fā)出的行為給數(shù)據(jù)帶來了巨大的噪聲,給模型訓練造成了很大影響。希望基于給定的數(shù)據(jù),建立一個模型來識別和標記作弊流量,去除數(shù)據(jù)的噪聲,從而更好的使用數(shù)據(jù),使得廣告主的利益最大化。3.5求職信息完善有大約10萬分優(yōu)質(zhì)簡歷,其中部分簡歷包含完整的字段,部分簡歷在學歷、公司規(guī)模、薪水、職位名稱等字段有些置空項。希望對數(shù)據(jù)進行學習、編碼與測試,挖掘出職位路徑的走向與規(guī)律,形成算法模型,再對數(shù)據(jù)中置空的信息進行預測。3.6搜索引擎查詢聚類以進行流量推薦在搜索引擎中,很多網(wǎng)民的查詢意圖的比較類似的,對這些查詢進行聚類,一方面可以使用類內(nèi)部的詞進行關鍵詞推薦;另一方面,如果聚類過程實現(xiàn)自動化,則也有助于新話題的發(fā)現(xiàn);同時還有助于減少存儲空間等。3.7生物種群固有結(jié)構(gòu)認知對動植物分類和對基因進行分類,獲取對種群固有結(jié)構(gòu)的認識。3.8保險投保者分組通過一個高的平均消費來鑒定汽車保險單持有者的分組,同時根據(jù)住宅類型,價值,地理位置來鑒定一個城市的房產(chǎn)分組。3.9網(wǎng)站關鍵詞來源聚類整和以領域特征明顯的詞和短語作為聚類對象,在分類系統(tǒng)的大規(guī)模層級分類語料庫中,利用文本分類的特征提取算法進行詞語的領域聚類,通過控制詞語頻率的影響,分別獲取領域通用詞和領域?qū)n愒~。3.10圖像分割圖像分割廣泛應用于醫(yī)學、交通、軍事等領域。圖像分割就是把圖像分成若干個特定的、具有獨特性質(zhì)的區(qū)域并提出感興趣目標的技術和過程。它是由圖像處理到圖像分析的關鍵步驟。聚類算法先將圖像空間中的像素用對應的特征空間點表示,根據(jù)它們在特征空間的聚集對特征空間進行分割,然后將它們映射回原圖像空間,得到分割結(jié)果。4關聯(lián)規(guī)則應用場景實例4.1穿衣搭配推薦穿衣搭配是服飾鞋包導購中非常重要的課題,基于搭配專家和達人生成的搭配組合數(shù)據(jù),百萬級別的商品的文本和圖像數(shù)據(jù),以及用戶的行為數(shù)據(jù)。期待能從以上行為、文本和圖像數(shù)據(jù)中挖掘穿衣搭配模型,為用戶提供個性化、優(yōu)質(zhì)的、專業(yè)的穿衣搭配方案,預測給定商品的搭配商品集合。4.2互聯(lián)網(wǎng)情緒指標和生豬價格的關聯(lián)關系挖掘和預測生豬是畜牧業(yè)的第一大產(chǎn)業(yè),其價格波動的社會反響非常敏感。生豬價格變動的主要原因在于受市場供求關系的影響。然而專家和媒體對于生豬市場前景的判斷、疫情的報道,是否會對養(yǎng)殖戶和消費者的情緒有所影響?情緒上的變化是否會對這些人群的行為產(chǎn)生一定影響,從而影響生豬市場的供求關系?互聯(lián)網(wǎng)作為網(wǎng)民發(fā)聲的第一平臺,在網(wǎng)民情緒的捕捉上具有天然的優(yōu)勢。本次賽題希望參賽者可以基于海量提供的數(shù)據(jù),挖掘出互聯(lián)網(wǎng)情緒指標與生豬價格之間的關聯(lián)關系,從而形成基于互聯(lián)網(wǎng)數(shù)據(jù)的生豬價格預測模型,挖掘互聯(lián)網(wǎng)情緒指標與生豬價格之間的關聯(lián)關系和預測。4.3依據(jù)用戶軌跡的商戶精準營銷隨著用戶訪問移動互聯(lián)網(wǎng)的與日俱增,隨著移動終端的大力發(fā)展,越來越多的用戶選擇使用移動終端訪問網(wǎng)絡,根據(jù)用戶訪問網(wǎng)絡偏好,也形成了相當豐富的用戶網(wǎng)絡標簽和畫像等。如何根據(jù)用戶的畫像對用戶進行精準營銷成為了很多互聯(lián)網(wǎng)和非互聯(lián)網(wǎng)企業(yè)的新發(fā)展方向。如何利用已有的用戶畫像對用戶進行分類,并針對不同分類進行業(yè)務推薦,特別是在用戶身處特定的地點、商戶,如何根據(jù)用戶畫像進行商戶和用戶的匹配,并將相應的優(yōu)惠和廣告信息通過不同渠道進行推送。希望根據(jù)商戶位置及分類數(shù)據(jù)、用戶標簽畫像數(shù)據(jù)提取用戶標簽和商戶分類的關聯(lián)關系,然后根據(jù)用戶在某一段時間內(nèi)的位置數(shù)據(jù),判斷用戶進入該商戶地位范圍300米內(nèi),則對用戶推送符合該用戶畫像的商戶位置和其他優(yōu)惠信息。4.4地點推薦系統(tǒng)隨著移動社交網(wǎng)路的興起,用戶的移動數(shù)據(jù)得到了大量的累積,使得這些移動數(shù)據(jù)能夠基于地點推薦技術幫助人們熟悉周遭環(huán)境,提升地點的影響力等。希望利用用戶的簽到記錄和地點的位置、類別等信息,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 三農(nóng)村義務教育實施方案
- 珠寶鑒定與評估技術作業(yè)指導書
- 居民采暖供用熱合同
- 信息安全防護技術作業(yè)指導書
- 2025年毫州考貨運資格證考試內(nèi)容
- 2025年延安道路運輸從業(yè)資格證考試
- 2025年銀川貨車從業(yè)資格證考試試題
- 2025年襄陽道路客貨運輸從業(yè)資格證模擬考試下載
- 電力資源整合合同(2篇)
- 電力公司勞動合同范本(2篇)
- 基于AI的自動化日志分析與異常檢測
- 浙江省浙南名校聯(lián)盟2023-2024學年高二上學期期中聯(lián)考數(shù)學試題(原卷版)
- 戰(zhàn)略管理與倫理
- 如何構(gòu)建高效課堂課件
- 虛擬化與云計算技術應用實踐項目化教程 教案全套 第1-14周 虛擬化與云計算導論-騰訊云服務
- 徐金桂行政法與行政訴訟法新講義
- 瀝青拌合設備結(jié)構(gòu)認知
- 2023年北京高考政治真題試題及答案
- 復旦中華傳統(tǒng)體育課程講義05木蘭拳基本技術
- 北師大版五年級上冊數(shù)學教學課件第5課時 人民幣兌換
- 工程回訪記錄單
評論
0/150
提交評論