項目申書主要內容8_第1頁
項目申書主要內容8_第2頁
項目申書主要內容8_第3頁
項目申書主要內容8_第4頁
項目申書主要內容8_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、一、項目起止時間2015 年 1 月-2016 年 12 月二、立項依據1.科學研究意義近年來,智能移動終端和移動互聯(lián)網正得到前所未有的普及應用。如圖 1 所示,IC 發(fā)布的 2013 年互聯(lián)網顯示,我國目前的移動互聯(lián)網用戶達到4.6 億。與此同時,日益增長的海量規(guī)模的移動用戶行為數據正在不斷被產生、傳輸和收集,包括、位置信息、WIFI 接入日志、互聯(lián)網瀏覽、移動社交通信、移動支付、移動應用使用等等。這些移動數據體現了用戶的行為模式、關注焦點、日常偏好以及社交關系,具有重要的市場價值和社會價值。充分挖掘移動用戶行為大數據,對社會公共安全管理、分析、市政規(guī)劃、個性化移動服務推廣等方面都有意義。另

2、一方面,移動用戶的隱私數據被會對移動及人身安全嚴重影響,如何在充分保證用戶隱私安全的情況下,對移動大數據進行挖掘,具有重要的科研價值和現實意義。圖 1. 中國移動互聯(lián)網用戶數(來源:)IC第 32 次中國互聯(lián)網絡發(fā)展狀況統(tǒng)計針對移動用戶數據的研究,學術界和業(yè)界已經獲得一定的研究成果,從數據、預處理、挖掘、可視化呈現、應用等多個方面,進行了有益的探討。但總體而言,仍以下幾方面嚴峻的考驗,這些相關的性本研究課題重點突破的目標:移動用戶數據具有海量規(guī)模、多源異構、快速變化、時空相關的特點。(1)如何進行有效的分布式并支持快速的檢索和挖掘是一個有的任務。移動用戶行為數據的來源具有多樣化的特性,包括移動

3、網絡、移動社交網絡、移動支付、移動 APP、無線路由器網關等等。位置數據、GPS 位置數據、的數據的形式多樣,包括、購物、瀏覽、移動應用和使用、以及各類傳感器數據。的數據具有快速的特性,更新頻率較快,產生的數據巨大。移動用戶數據具有模糊、不確定、噪音普遍存在的特點。如何在挖掘算法中(2)引入合理有效的概率模型,并實現高效的過濾噪音的算法,是一個需要迫切解決的任務。模糊、不確定及噪音現象廣泛存在于各種類型來源的移動用戶數據中。例如,移動終端受地面物的干擾,信號強度不能精確反映移動臺和之間的距離,這就導致移動網絡中的基于機定位數據具有模糊不確定性。另一方面,在通話、網頁瀏覽中,存在大量的會話,這些

4、會話可能是來源于騷擾、中介、隱藏窗口流量等,與用戶的個人的及社交關系沒有關聯(lián),是需要過濾的噪音。移動用戶數據呈現度的圖特性。如何針對海量時變的移動用戶數據流設(3)計高效的并行分布式圖挖掘算法是有性的任務。移動用戶數據同時在時間空間、通信關系、社交關系、瀏覽關聯(lián)等多種不同性質的維度上存在豐富密集的關聯(lián)特性。更進一步,基于這種關聯(lián)特性,進而衍生出多種維度的社區(qū)(Community)并存的效應。 移動數據的這種強關聯(lián)、動態(tài)時變、度圖特性,需要更為靈活高效的運算和機制以支持數據挖掘。移動用戶數據具有私密性。如何在通過數據挖掘獲取社會價值及市場價值的(4)同時,又能極大程度的保護移動用戶的隱私不被,是

5、一個亟待解決的問題。移動用戶數據涉足到個人隱私的方方面面:社交圈、通信隱私、消費習慣、喜好偏向、位置、出行模式等。如何設計一個的計算環(huán)境,使得移動用戶的隱私在傳輸、以及運算的過程能被最大限度的保護,防止第三方者或用戶盜取隱私數據,是一個重要的研究方向。綜合以上問題,本課題研究適用于移動用戶大數據的分布式、管理和挖掘體系結構及算法,其中包括:1)適用于異構、海量、時空數據流、度圖的高效分布式和管理方法;2)噪音的模糊序列挖掘與匹配算法;3) 面向度時變圖的分布式并行分析方法;4) 以及面向移動用戶數據的多層次隱私保護策略。目前,在移動時空序列挖掘、聚類算法、隱私保護、分布式計算等相關領域都積累了

6、一定研究基礎,有助于本項目的順利開展。其中,針對真實移動網絡數據進行了分析,在數據庫領域重要會議 DASFAA 上了1。項 3-8,相關論ional Biology目成員老師對集成聚類分析進行了系統(tǒng)而富有成果的研究文在 Pattern Recognition、IEEE/ACM Tranions on Compuand Bioinformatics、Information Science 等數據挖掘領域重要SCI 雜志上。同時,在分布式計算方面了系列文章59-65, 其中包括 Tranions onMultimedia Computing,Communications and Applicati

7、ons、Peer-to-Peer Networking and Applications 等重要 SCI 雜志,以及 ICPP,CIKM 等領域重要學術會議。我們針對隱私保護的通信機制,了系列文章73-75。2.國內外研究現狀和趨勢移動用戶數據的重要性已引起廣泛關注。近年來,國內外業(yè)界及研究界圍繞移動用戶數據挖掘開展了大量研究。與此同時,該研究方向和多個相關研究領域有所交叉,包括時空序列的挖掘、大圖挖掘以及隱私保護等研究領域。下面,我們將從移動用戶數據獲取、時空序列挖掘、大圖挖掘以及隱私保護幾個方面展開調研并給出現狀分析。(1) 移動用戶數據的獲取移動用戶數據的獲取是研究工作開展的重要前提。本

8、課題的研究具有較好的獲取了移動 8 個小時 1 億條 A 口信令數數據環(huán)境優(yōu)勢。前期工作中,據1。同時,項目參與百米生活電子商務公司2在各地超過 20 萬商戶中部署了無線路由器,所到的海量移動用戶上網可用于數據挖掘。目前,國內外相關研究小組的數據來源分為三種類型:網絡端數據、終端數據和模擬仿真數據,分析匯總如下:網絡端數據。華技大學的研究團隊3采用從移動網絡 A-bis 接口獲1)取的測量MR 數據,該數據包括移動端定告的信息。重慶郵電大學團隊4獲取的重慶電信各網元接口的網絡信令、業(yè)務信令、網絡配置數據和話單設備主要接口有 R-P 接口、Radius 接口、A12 接口和Pi 接口等。終端數據

9、。MIT 現實挖掘項目5始于 2004 年,收集了一百余名的2)中的 35 萬小時的情境科學技術大學和諾基亞中國研究院共同開發(fā)了一套移動設備上的情境數據收集6,收集了 50 名機數據。微軟亞洲主導的地理人生項目7,從 2007 年開始,共召集了 160 多名,收集了超過 20的GPS 軌跡數據。模擬仿真數據。在無法獲取真實數據的情況下,研究團隊也可以根據實際數3)據的特征模擬產生一些數據用來驗證算法的有效性。文獻8-10中所采用的數據是通過模擬和仿真來產生?,F狀分析:相對而言,由網絡端的數據規(guī)模較大,也比較具有大數據的特性。在這方面,具有較大的數據資源優(yōu)勢,這是本課題順利開展的有力支撐。(2)

10、 時空序列模式挖掘時空序列區(qū)別于一般的序列在于時序性和空間位置關聯(lián)。根據挖掘的目的,可以劃分為以下幾種類型的研究:1) 周期性模式挖掘。周期性挖掘指的是發(fā)現周期性的運動模式。其中等人在文獻11提出了一種異步周期模式的挖掘方法,在文獻12提出一種帶有間隔的周期模式挖掘方法。文獻13通過結合多個不同周期的行為模式。變換、概率模型來挖掘2) 熱點監(jiān)測。其中文獻14提出一種運動模式的聚類算法,并采用速度信息來推導運動物體的群集程度。文獻15綜合考慮軌跡中的空間和時間信息,提出基于時空密度的序列聚類算法。文獻16提出通過序列聚類來發(fā)現城市不同功能區(qū)域。3) 異常點監(jiān)測。文獻17采用期望最大化算法對歷史的

11、交通流數據進行學習,并應用于實時交通路監(jiān)測中的異常路段檢測。文獻18基于異常事件的時間、空間屬性來構建因果關系樹,從而推導異常事件的內在邏輯關系。4) 用戶情景識別。文獻6對移動用戶的行為數據進行分析,提出基于最小熵優(yōu)化算法、概率模型以及 Bayesian HMM 模型的移動用戶的情景識別與挖掘算法。5) 用戶分析。文獻3 19分析了用戶針對網絡資源的消費,采用模糊c 均值聚類分析用戶消費值和用戶通信行為的關聯(lián)。文獻9 基于移動互聯(lián)網用戶網絡時間、網絡流量及用戶三個維度的數據,采用了一種基于K 近鄰的樣本約簡及密度均衡分類算法對用戶進行分析。6) 頻繁行為序列模式分析。文獻8基于中國移動機地圖

12、業(yè)務, 綜合時間、空間、接入的移動業(yè)務類型,進行頻繁移動序列模式挖掘, 為用戶在當前位置可能感的移動業(yè)務。文獻20 基于對MIT 提供的 100 個真實移動數據的分析,提出基于前綴掃描算法的頻繁移動模式挖掘模型。文獻10針對移動用戶上網,提出基于前綴位置投影位置元組比較的算法來改進頻繁序列模式的挖掘效率。7) 網絡優(yōu)化。文獻3基于行為,進而優(yōu)化移動網絡的的用戶通信數據,分析與用戶移動切換及故障預知服務。文獻21 基于移動通信網絡測量 MR 數據,分析移動通信網絡的度分布、度相關性的穩(wěn)定性以及演化過程。8) 路徑導航。文獻22 采用鏈算法,基于歷史軌跡數據的學習,求解任意兩個給定地點之間的最頻繁

13、路徑。文獻23則更進一步的引入了時間約束,求解兩個地點間在用戶指定的特定時間段內的最頻繁通行路徑。文獻24研究如何根據較低精度級別的歷史軌跡數據,學習最佳導航路徑。文獻25提出一種基于熵的聚類算法來估算任一路徑在不同時段的通行時間,進而為用戶任意兩點間的快速駕駛路徑。文獻26通過對歷史的士軌跡數據進行學習,為的士利潤最大化的最佳停靠位置。此外,為了支持高效時空序列的檢索,近年來提出了一些針對時空序列的索引算法。根據文獻27,這些算法可以分為兩類。第一類是基于數據的劃分方法,包括經典的 R*-Tree28 ,以及引入時間變量的改進算法 TRP-Tree29 和 TPR*-tree 30。第二種類

14、型是根據空間來進行劃分的索引方法,包括基于 B+樹的索引方法27,31和基于網格的索引方法 32, 33?,F狀分析:目前關于時空序列的研究較少考慮序列中的模糊、不確定性的因素以及噪音的干擾問題。同時,目前的研究沒有同時結合時空序列屬性和圖的關聯(lián)屬性來進行分析和挖掘,而這兩類屬性往往會共存在移動用戶時空數據中,且密不可分。(3) 大圖的管理和挖掘如前所述,移動用戶數據背后隱含著在時間空間、通信關系、社交關系、瀏覽關聯(lián)等多種維度上的豐富密集的關聯(lián)特性,這些多種不同維度上的關聯(lián)關系了多個圖。這些圖的規(guī)模往往非常巨大。針對這種大圖的挖掘和計算是一個非常有性的任務。事實上,這種大圖是普遍存在的,例如在社

15、交中的人際交互網絡具有 8 億個頂點,以及超過 1000 億條連邊34。針對圖的挖掘包括查詢處理和離線分析兩種類型35。前者指的是針對圖的較低延遲要求的查詢,例如查找兩個節(jié)點之間是否存在一條長度少于 3 的路徑;后者則是需要對大量甚至全部數據進行較長時間的分析,比如找出圖中所有大小為 4 的全連通子圖。下面列舉一些針對圖挖掘相對成熟度較高的系統(tǒng)。Neo4j 36, HyperGraphDB37 在傳統(tǒng)集中式架構上實現對圖的處理(OLTP),不支持分布式,僅能處理有限規(guī)模的圖。PEGASUS 38 是個基于 Hadoop39 的開源分布式圖挖掘,該模型繼承了 Hadoop 的橫向擴展特性,其底層

16、的多階段處理模式性能比較低下,同時表達圖的方式也不夠直觀。類似的,MapReduce 40實現了圖結構的分布式。由于該系統(tǒng)在計算節(jié)點之間傳遞子圖結構,對節(jié)點間網絡帶寬有較高要求。Pregel 41采用了基于頂點的計算模式,計算節(jié)點之間不傳遞圖的結構,僅傳遞計算的結果,從而較大程度提高計算效率。Trinity42則是由微軟研究的分布式圖處理系統(tǒng),該系統(tǒng)具有與 Pregel41系統(tǒng)類似的基于亞洲頂點的計算模式,支持分布式內存數據處理,借助內存的高效隨機特性大大提高圖的處理速度,同時該系統(tǒng)對節(jié)點間的消息傳輸進行了深度的優(yōu)化。文獻35對目前主流的大圖的管理和挖掘進行了對比和分析?,F狀分析:上述大圖處理

17、系統(tǒng)已經取得長足的進步和發(fā)展,尤其 Trinity 系統(tǒng)42,融合了內存數據庫、塊同步處理模型(BSP)、基于頂點的計算模式等先進特性,適用于處理億級別頂點規(guī)模的圖。考慮本課題研究的移動用戶數據的處理,此類系統(tǒng)有以下:1)沒有考慮時間,沒有圖的時間演化特性;2)沒有考慮多個維度的多圖并存的特性,不支持多圖聯(lián)合查找;3)圖的頂點信息是隨機分布到各個計算節(jié)點,沒有進行自組織優(yōu)化調整,計算節(jié)點間的通信可進一步優(yōu)化。(4) 隱私保護在數據管理和挖掘領域,已有大量研究通過對數據進行再加工處理的方式,達到保護隱私的目的。具體而言可以分為三類:基于擾亂的方式、模糊化處理以及加理?;跀_亂的方式是對數據對象進

18、行擾動,在不影響其統(tǒng)計特征的前提下,避免關聯(lián)分析。其中,文獻43提出了一種對數據進行隨機擾動方法,文獻44通過向原始數據添加噪音而掩蓋原來真實取值。文獻45采用隨機乘法投影矩陣保護分布式數據挖掘中處理的隱私特征?;谀:幚淼碾[私保護方式則是通過降低原始數據的精度達到保護隱私的目的。文獻4647提出了微處理方式,用運算的結果代替原始數據的取值。文獻48標識,使得K-anonymity 系統(tǒng)通過泛化和抑制的方法,模糊無法從大小為k 的集中唯一區(qū)分,后續(xù)l- diversity K-anonimy著同質49系統(tǒng)、 (,k)-anonymity 系統(tǒng)50、t-closeness 51,進一步提高抗

19、屬性的能力。文獻52,基于模糊處理的系統(tǒng)仍可能和背景知識。最后一類,基于加理的方法來保護隱私數據。文獻53提出基于同態(tài)加密算法 Gentry54的數據庫框架,可以保護查詢者的查詢信息隱私。文獻55 提算法 Pailr 算法 56的隱私保護的位置服務。文獻57基于出基于半同態(tài)RSA 乘法同態(tài)加密機制,設計了一種帶有隱私保護的同態(tài)密鑰協(xié)商方案,實現了在數據的發(fā)送、查詢與接收階段用戶數據的私密性保護。文獻58總結了基于同態(tài)加密算法的數據服務系統(tǒng)的和機遇,并提出了針對密文數據實現代數運算查詢的思路?,F狀分析:現有的隱私保護策略缺乏對竊取隱私的用戶的不為進行分類和建模,同時缺少針對移動用戶數據的多個層次

20、隱私保護策略,以滿足不同隱私保護程度的需求。參考文獻:1 Jianming Lv, Haibiao Lin, Zhiwen Yu, Yinhong Chen, and Can, Identify and TraceCriminals in the Crowd Aided by Fast Trajectories Retrieval, In 19thernationalConference on Database Systems for Advanced Applications (DASFAA), 2014.23芙蓉,42013.基于用戶行為的無線通信網絡綜合優(yōu)化研究. 博士. 2011. 華

21、技大學. 導師:王. 數據挖掘在移動用戶行為分析系統(tǒng)中的應用. 現代電信科技. 2.(1) pp.86-89.5 Eagle N, Pentland A. Reality mining: sensing complex sol systems, JournalUbiquitous Computing. 10(4), pp.255 268. 2006.al and6 寶騰飛. 面向移動用戶數據的情境識別與挖掘. 博士2012. 中國科技大學.導師:.7 Zheng Y, Xie X, Ma W. GeoLife a collaborative soand trajectory. IEEE Dat

22、a Eng. pp.32-39. 2010.l netwoking service among user, location8. 基于情景感知的移動接入模式挖掘及. 2009. 移動互聯(lián)網用戶行為分析研究. 移動用戶上網行為分析系統(tǒng)研究.博士.郵電大學.導師:910.研究.郵電大學.導師:. 2012. 導師:. 2014.ime series11 Jiong, Wei Wang, and P.S. Yu. Mining asynchronous p eriodic patternsdata.IEEE Tranions on Knowledge and Data Engineering, 15

23、(3):613628, 2003.12 Jiong, Wei Wang, and P.S. Yu. Infominer+: mining partial periodic patterns withgappenalties. In IEEEernational Conference on Data Mining, ICDM02, pages 725728, 2002.13 Sotiris Brakatsoulas, Dieter Pfoser, Randall Salas, and Carola Wenk. On map-matchingvehicletracking data. In 31s

24、ternational Conference on Very Large Data Bases, VLDB 05, pages853864. VLDB Endowment, 2005.14 Siyuan Liu, Yunhuai Liu, Lionel M. Ni, Jian mobility-based clustering. In 16th ACM SIGKDDFan, and Minglu Li. Towardsernational Conference on KnowledgeDiscovery and DataMining, KDD 10, pages 919928, 2010.15

25、 C-Ta Lu, Po-Ruey Lei, Wen-Chih Peng, and Ing-Jiunn Su. A framework of miningsemregions from trajectories. In Database Systems for Advanced Applications, pages193207, 2011.16 Jing Yuan, Yu Zheng, and Xing Xie. Discovering regions of different functions in a city usinghuman mobility and pois. In 18th

26、 ACM SIGKDDernational Conference on KnowledgeDiscovery and Data Mining, KDD 12, pages 186194, 2012.17 T.ter, R. Herring, P. Abbeel, and A. Bayen. Pand travel time inference from gps probevehicle data. Proc. Neural Information Prosing Systems, 2009.18 Wei Liu, Yu Zheng, Sanjay Chawla, Jing Yuan, and

27、Xie Xing. Discovering spatio-temporalcausaleractions in traffic data streams. In 17th ACM SIGKDDernational Conference onKnowledge Discovery and Data Mining, KDD 11, pages 10101018, 2011.19導師:滕. 聚類分析在移動通信用戶行為分析中的研究與應用. 2013.工業(yè)大學.20 Shafqat Ali Shad. 移動用戶軌跡與行為模式挖掘方法研究. 博士. 中國科技大學. 2013. 移動通信網絡社會行為關聯(lián)優(yōu)化

28、研究. 博士. 華導師:212010.技大學. 導師:.22 Zaiben Chen, Heng Tao Shen, and XiaoZhou. Discovering popular routes fromtrajectories. In 27th IEEE900911, 2011.ernational Conference on Data Engineering, ICDE11, pages23 Wuman Luo, Haoyu Tan, Lei Chen, and Lionel M. Ni. Finding time period-based mostfrequent path in b

29、ig trajectory data. In 2013 ACM SIGMODManagement of Data, SIGMOD 13, pages 713724, 2013.ernational Conference on24 Ling-Yin Wei, Yu Zheng, and Wen-Chih Peng. Constructing popular routes from uncertaintrajectories. In 18CM SIGKDDernational Conference on Knowledge Discovery and DataMining, pages 19520

30、3, 2012.25 Jing Yuan, Yu Zheng, Xing Xie, and Guangzhong Sun. T-drive: Enhancing driving directionswith taxi driverselligence. IEEE Tran25(1):220232, 2013.ions on Knowledge and Data Engineering,26 Jing Yuan, Yu Zheng, Liuhang Zhang, XIng Xie, and Guangzhong Sun. Where to find mynext passenger. In 13

31、thernational conference on Ubiquitous computing, pages 109118, NewYork, NY, USA, 2011. ACM.27 S. Chen, B. Ooi, K. Tan, and M. Nascimento. STB-tree: a self-tunable spatiotemporal b+tree index for moving objects. In SIGMOD, 2008.28 S. Lee, S. C, D. Kim, J. Lee, and C. Cg. Similarity search for multidi

32、menal datasequen. In ICDE, 2000.S. Saltenis, C. Jensen, S. T. Leutenegger, and M. A. Lopez. Indexing the Continuously Moving Objects. In SIGMOD, 2000.Y. Tao, D. Papadias, J. Sun. The TPR*-Tree: An Optimized Spatio-Temporal Acfor Predictive Queries. In VLDB, 2003, 790-801.itionsofs Method31 M. L. Yiu

33、, Y. Tao, and N. Mamoulis. The Bdual-Tree: Indexing Moving Objects by SpaceFilling Curveshe Dual Space. VLDB J., accepted for publication, 2008.32 K. Mouratidis, D. Papadias, and M. Hadjieleftheriou. Conceptual Partitioning: An EfficientMethod for Continuous Nearest Neighbor Monitoring. In SIGMODCon

34、ference, pages 634645, 2005.33 X. Xiong, M. F. Mokbel, and W. G. Aref.N: Scalable Prosing of ContinuousK-Nearest Neighbor Queries in Spatio-temporal Databases. In ICDE, pages 643654, 2005.34 http:/press/info.?sistics.35 Shao B, Wang H, Xiao Y. Managing and mining large graphs: systems and implemenio

35、ns.ACM SIGMOD36ernational Conference on Management of Data. ACM, 2012: 589-592.37 B. Iordanov. Hypergraphdb: a generalized graph database. WAIM 10, pages 2536, 2010.38U. Kang, C. E. Tsourakakis, and C. Faloutsos. Pegasus:ta-scale graph mining systemimplemenion and observations. ICDM 09, pages 229238

36、, Washington, DC, USA, 2009. IEEEComputer Society。39.40J. Dean and S. Ghemawat. Mapreduce: Simplified data propages 137150.sing on large clusters. OSDI 04,41 G. Malewicz, M. H. Austern, A. J. Bik, J. C. Dehnert, I. Horn, N. Leiser, and G. Czajkowski.Pregel: a system for large-scale grarosing. SIGMOD

37、 10.42 B. Shao, H. Wang, and Y. Li. The Trinity graph engine. Technical Report 161291,Research, 2012.432009.基于情景感知的移動接入模式挖掘及研究. 博士.郵電大學.TRAUB a S istical 1984.K. Liu,J.,YEMINIY.,WOZNIAKOWSKIH.,TheSisticalSecurityofDatabase, ACM Tranions on Database Systems, No. 9, Vol. 4, pp. 672-679,H. Kargupta and

38、 J. Ryan, “Random Projection-Based Multiplicative Perturbationfor Privacy-Preserving Distributed Data Mining,” IEEE Tranions on Knowledge and DataEngineering(TKDE), Vol. 18, No. 1, 2006, pp. 92-106.:10.1109/TKDE.2006.1446 DEFAYSD.,NANOPOULOSP.,PanelsofEntrisesandity:TheSmallAggregates Method,Proceed

39、ings of Sistics Canada ,Symium 92 onDesign andysis of Longitudinal Surveys, Ottawa, Canada, pp. 195-204, 1992.47 DOMINGO-FERRER J.,MATEO-SANZJ. , Practical Data-Oriented Microaggregationfor SVol. 48istical Disclosure Control,IEEE Tranions on Knowledge and Data Engineering,14,No. 1, pp.189-201, 2002.

40、P. Samarati and L. Sney, “Protecting Privacy WhenDisclosing Information:k-Anonymity and Its Enforcement through Generalization and SuppresSRI-CSL-98-04, 1998.,” Technical Report49A. Machanavajjhala, J. Gehrke, et al., “l(fā) -Diversity: Privacyk-Anonymity,”Proceeding of ICDE, April 2006.50N. Li, T. Li a

41、nd S. Venkatasubramanian, “t-Closeness: Privacy l-Diversity,” Proceedings of ICDE, 2007, pp. 106-115.k-Anonymity and51R. C. Wong, J. Li, A. W. Fu, et a1., “(,k)-Anonymity:An Enhaned k-Anonymity MforPrivacy-PreservingData Publishing,” In: Proceedings of the 12th ACM SIGKDD, ACM Press, New York, 2006,

42、 pp. 754-759.52 Hamza N, Hefny H A. Attacks on anonymization-based privacy-preserving: a survey for datamining and data publishing. Journal of Information Security, 2013, 4: 101.Gahi Y, Guennoun M, El-Khatib K. A secure database system using homomorphic encryption schemes. DBKDA 2011, pp. 54-58.C.Ge

43、ntry, Computing arbitrary functions of encrypted data, Commun. ACM, Vol. 53, No.3., pp. 97-105, March 2010.55n I T, Lin Y H, Shieh J R, et al. A Novel Privacy Preserving Location-Based ServiceProtocol With Secret Circular Shift for k-NN Search. IEEE Tranand Security, 8(6), pp. 863-873, 2013ions on I

44、nformation Forensics56 P. Pailr. Public-key cryptosystems based on comin Cryptology Eurocrypt, pp. 223238, 1999ite degree residuosity classes. Advan57,. RSA 乘法同態(tài)的數據庫密文檢索實現. 哈爾濱工程大學學報34(5), pp: 641-645, 2013.58 Mani, M., Shah, K., & Gunda, M. Enabling secure database as a service using fullyhomomorph

45、ic encryption: Challenges and opportunities. arXiv preprarXiv:1302.2654. 2013.59 Jianming Lv, Zhiwen Yu, Tieying Zhang, Towards An Immunity Based Distributed Algorithmto Detect Harmful Files Shared in P2P Networks, Peer-to-Peer Networking and Applications.Online:10.1007/s12083-013-0221-7.60 Jianming

46、 Lv, Can, Kaidong Liang. GRACE: A Gradient Distance Based Peer-to-PeerNetwork Supporting Efficient Content-based Retrieval.Techniques and Engineering Application, 2013.ernational Conf. on Soft Computing61 Tieying Zhang, Xueqi Cheng, Jianming Lv, Zhenhua Li and Wiesong Shi, ProvidingHierarchical Look

47、up Service for P2P-VoD Systems, in ACM TranComputing, Communications and Applications (TOMCCAP), Vol. 8, Iions on Multimediae 1, No.15, Feb. 2012.62 Jianming Lv, Zhiwen. Yu, Tieying. Zhang. iDetect: An immunity based algorithm to detectharmful content shared in Peer-to-Peer networks. Inernational Co

48、nference on MachineLearning and Cybernetics (ICMLC), vol.2, pp.926-931, Guilin China, 2011.63 Tieying Zhang, Jianming Lv, Xueqi Cheng. Mediacoop: Hierarchical Lookup for P2P-VoDServi. In 38thernational Conference on Parallel Prosing (ICPP), pp. 486-493, ViennaAustria, 2009.64 Jianming Lv, Xueqi Chen

49、g. CTO: Concept Tree Based SemOverlay for PurePeer-to-Peer Information Retrieval. In 16th ACM Conference on Information and KnowledgeManagement (CIKM ), pp.931-934, Lisbon Portugal, 2007.65 Jianming Lv, Xueqi Cheng, Qing Jiang and etc. LiveBT: Providing-on-demandStreaming Service on BitTorrent Peer-

50、to-Peer Systems. In 8th IEEEernational Conference onParallel and Distributed Computing, Applications and Technologies (PDCAT),pp.501-508,AdelaideAustralia, 2007.66 Haibiao Lin, Jianming Lv, Can, Miaoyi Deng, Kaitao Wang. GPS Trajectory Mining : aSurvey,Journal of Compuional Information Systems, 10(1

51、6), 2014.67 Zhiwen Yu, Le Li, Jiming Liu, Guoqiang Han, Hybriptive Classifier Ensemble, IEEETranions on Cybernetics, 2014.68 Zhiwen Yu, Hongsheng Chen, Jane You, Hau-San Wong, Jiming Liu, Le Li, Guoqiang Han,Double Selection based Semi-Supervised Clustering Ensemble for Tumor Clustering from GeneExp

52、resProfiles, IEEE/ACM Tranions on Compuional Biology and Bioinformatics, vol.11, no. 4, pp. 1-14, 2014.69 Zhiwen Yu, Hantao Chen, Jane You, Guoqiang Han, Le Li, Hybrid Fuzzy Cluster EnsembleFramework for Tumor Clustering from Bio-molecular Data, IEEE/ACM TranCompuional Biology and Bioinformatics, vo

53、l. 10, no. 3, pp. 657-670, 2013.ions on70 Zhiwen Yu, Le Li, Jane You, Guoqiang Han, SC3: Triple spectral clustering based consensusclustering framework for class discovery from cancer gene expresprofiles, IEEE/ACMTranions on Compuional Biology and Bioinformatics, vol.9, no.6, pp.1751-1765, 2012.Zhiw

54、en Yu, Jane You, Hau-San Wong, Guoqiang Han, From Cluster Ensemble to Structure Ensemble, Information Science, vol.168, pp.81-99, 2012.Zhiwen Yu, Hau-San Wong, Jane You, Guoxian Yu, Guoqiang Han, “Hybrid ClusterEnsemble Framework based on the Random Combination of Data Transformation Operators”,Patt

55、ern Recognition, Vol45, Ie 5, pp.1826-1837, 2012.73 Jianming Lv, Tieying Zhang, Zhenhua Li, Xueqi Cheng.: Parasitic AnonymousCommunicationhe BitTorrent Network, under 4th round review of Computer Networks, 2013.74 Jianming Lv, Chaoyun Zhu, Shaohua Tang and Can. Deepflow: Hiding AnonymousCommunicatio

56、n Traffic in P2P Streaming Networks. Accepted by Wuhan University Journal ofNatural Scien, 2014.7.75 Jianming Lv, Jianwen Chen, Can. PACS: Parasitic Anonymous Communication inPeer-to-Peer streaming Network. Journal of Compuional Information Systems. Vol. 10 (3) 2014.76 Jianming Lv. EShrink : An Encr

57、ypted Iterative Shrinkage Algorithm for PrivacyLocation based Servi. (寫作中)77 A. Serjantov, G.Danezis, “Towards an Information Theoretic Metric for Anonymity. Proc. 2thPrivacy Enhancing Technologies Symium (PET02), vol. 2482 of LNCS, pp .41-53, 2002.78 J. Hoffstein, J. Pipher, and J. H. Silverman, “N

58、tru: A ring-based public key cryptosystem,” inANTS, ser. Lecture Notes in Computer Science, J. Buhler, Ed. NewYork, NY, USA: Springer,1998, vol. 1423, pp.267288.3.預期的應用前景。本課題研究的面向移動用戶大數據的、挖掘、隱私保護的機制及,可以應用于各個移動用戶數據相關的企業(yè),包括各大移動網絡運營商、無線路由器運營商、移動互聯(lián)網、移動社交等。該課題產生的可以實現高度橫向擴展功能、查詢及離線挖掘功能,企業(yè)的數據業(yè)務的整體實力。與此同時,該

59、課題所研究的移動用戶數據的本質是兼有時空序列特征及時變度圖特征的數據,因此該課題產生的可以應用于具有以上全部特征或部分特征的大數據的挖掘應用。比如 Web 數據、疾病傳染數據、數據、氣象數據、出租車軌跡數據、海洋傳感器網絡數據等諸多和社會、民生相關聯(lián)的公共大數據的挖據和應用。因此該課題從近期的角度,可以解決合作企業(yè)的實際應用需求,從長遠的角度,具有非常廣闊的應用前景。三、科學研究內容、方法、技術路線1.研究目標。本項目圍繞移動用戶大數據的挖掘及隱私保護機制的研究,包含以下研究目標:1)研究適用于移動用戶大數據的分布式、管理架構。該架構是后續(xù)數據挖掘與分析的關鍵基礎支撐,著重研究適用于帶有時序特

60、征、圖特征、流式數據特征的移動用戶大數據的高效和運算機制,構建具有良好橫向擴展能力、兼具OLTP 和 OLAP 特性的移動用戶大數據分析。2) 研究噪音的模糊序列模式挖掘與匹配算法。針對移動用戶數據中不確定性問題,重點研究模糊時空序列匹配和挖掘的算法。同時數據收集過程中普遍的噪音,研究相應的過濾算法和機制。3) 研究分布式并行多種維度時變圖的處理機制和算法。主要研究如何在分布式的環(huán)境下,高效的處理具有多重維度和時變特征的大圖,重點研究此類大圖的分割機制、索引機制以及調度算法。4)研究移動用戶數據隱私保護機制。主要研究防止移動大數據的隱私信息被者竊取,以及高效的隱私化處理數據快照來進行發(fā)布和共享

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論