




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、TEXEM:一種基于實(shí)體的郵件任務(wù)提取策略張相於,陳繼東,李玉坤,孟小峰中國(guó)人民大學(xué)WAMDM實(shí)驗(yàn)室http:/EMC中國(guó)實(shí)驗(yàn)室演示綱要 研究動(dòng)機(jī) 相關(guān)工作 處理流程 事件提取 基于事件聚類(lèi)的任務(wù)構(gòu)造 任務(wù)空間向量 實(shí)驗(yàn)評(píng)估 總結(jié)&未來(lái)工作演示綱要 研究動(dòng)機(jī)研究動(dòng)機(jī) 相關(guān)工作 處理流程 事件提取 基于事件聚類(lèi)的任務(wù)構(gòu)造 任務(wù)空間向量 實(shí)驗(yàn)評(píng)估 總結(jié)&未來(lái)工作研究動(dòng)機(jī)(1) 電子郵件數(shù)據(jù)量劇增 IDC :5 Exabyte商業(yè)郵件(1 Exabyte = 1 billion Gigabyte),2007四月。 電子郵件作用越來(lái)越豐富 任務(wù)管理任務(wù)管理,協(xié)作管理,存檔管理,聯(lián)系人管
2、理 人們處理郵件的時(shí)間十分有限 現(xiàn)有工具不能滿(mǎn)足需求 Outlook,Gmail 人們?nèi)孕枰止す芾磬]件中的任務(wù)。研究動(dòng)機(jī)(2)dear bhaiya i was making a list of all my contact addresses in USA. could u pls send ur complete address& ph/mobile. i am scheduled to come to US on 25th.regardsgautam5三個(gè)事件:1. Making a list.2. Send your address & number3. Schedu
3、led to come to US on 25th研究動(dòng)機(jī)(3) 我們提出一種基于實(shí)體的郵件任務(wù)提取框架TEXEM。 充分考慮電子郵件中的結(jié)構(gòu)信息。 從郵件中提取屬于不同實(shí)體的任務(wù)。 對(duì)任務(wù)進(jìn)行重要性評(píng)估。 提高用戶(hù)郵件管理的效率。6演示綱要 研究動(dòng)機(jī) 相關(guān)工作相關(guān)工作 處理流程 事件提取 基于事件聚類(lèi)的任務(wù)構(gòu)造 任務(wù)空間向量 實(shí)驗(yàn)評(píng)估 總結(jié)&未來(lái)工作相關(guān)工作(1) Gmail,Hotmail 可以提取形式較為規(guī)范的事件信息。相關(guān)工作(2) 演示綱要 研究動(dòng)機(jī) 相關(guān)工作 處理流程處理流程 事件提取 基于事件聚類(lèi)的任務(wù)構(gòu)造 任務(wù)空間向量 實(shí)驗(yàn)評(píng)估 總結(jié)&未來(lái)工作處理流程事件提取任
4、務(wù)構(gòu)造重要性評(píng)估11演示綱要 研究動(dòng)機(jī) 相關(guān)工作 處理流程 事件提取事件提取 基于事件聚類(lèi)的任務(wù)構(gòu)造 任務(wù)空間向量 實(shí)驗(yàn)評(píng)估 總結(jié)&未來(lái)工作事件提?。?) 每句話(huà)都可能包含一個(gè)事件。 一個(gè)事件具有如下結(jié)構(gòu):Event=O, V, T, L, P, DO:事件所有者V:事件中的動(dòng)詞集合T:事件發(fā)生的時(shí)間L:事件發(fā)生的地點(diǎn)P:事件涉及的人的集合D:事件中的其他關(guān)鍵字事件提?。?)電子郵件詞性標(biāo)注標(biāo)識(shí)實(shí)意動(dòng)詞標(biāo)識(shí)人名標(biāo)識(shí)地名標(biāo)識(shí)時(shí)間事件集合事件提?。?) 事件合并 將不含有實(shí)意動(dòng)詞的句子與離它最近的事件合并:He is busy tomorrow for the meeting. 事件分解
5、如果句子含有and或but等連詞,并且連接的是分句而不是短語(yǔ)或詞。演示綱要 研究動(dòng)機(jī) 相關(guān)工作 處理流程 事件提取 基于事件聚類(lèi)的任務(wù)構(gòu)造基于事件聚類(lèi)的任務(wù)構(gòu)造 任務(wù)空間向量 實(shí)驗(yàn)評(píng)估 總結(jié)&未來(lái)工作基于事件聚類(lèi)的任務(wù)構(gòu)造(1) 實(shí)體識(shí)別 I,We,You。 第三人稱(chēng)實(shí)體。 基于實(shí)體的事件聚類(lèi) 將屬于某個(gè)實(shí)體的事件進(jìn)行聚類(lèi)。基于事件聚類(lèi)的任務(wù)構(gòu)造(2) 實(shí)體識(shí)別 識(shí)別出I,we和you。 識(shí)別出第三人稱(chēng)的名字:人名,組織名。 識(shí)別出第三人稱(chēng)代詞指代的實(shí)體:在該代詞前面,并且離它最近的對(duì)應(yīng)實(shí)體。 Mike is coming tomorrow, and he will bring som
6、e beers.基于事件聚類(lèi)的任務(wù)構(gòu)造(3) 基于實(shí)體的事件聚類(lèi) 基于事件構(gòu)造階段提取出來(lái)的事件所有者,進(jìn)行事件聚類(lèi)。 屬于同一實(shí)體的事件被聚類(lèi)到一起。 所有者為代詞的按照上述方法識(shí)別所有者。 無(wú)法識(shí)別的事件聚到一起。19基于事件聚類(lèi)的任務(wù)構(gòu)造(2)演示綱要 研究動(dòng)機(jī) 相關(guān)工作 處理流程 事件提取 基于事件聚類(lèi)的任務(wù)構(gòu)造 任務(wù)空間向量任務(wù)空間向量 實(shí)驗(yàn)評(píng)估 總結(jié)&未來(lái)工作任務(wù)空間向量(1) 每個(gè)人任務(wù)中的事件具有不同的重要性。 基于TF-IDF對(duì)任務(wù)中的事件進(jìn)行排序: Score(e) = Mean(weight(term in e) Weight(term) = factor*(TF
7、(term)*log(N/DF(term)任務(wù)空間向量(2)演示綱要 研究動(dòng)機(jī) 相關(guān)工作 處理流程 事件提取 基于事件聚類(lèi)的任務(wù)構(gòu)造 任務(wù)空間向量 實(shí)驗(yàn)評(píng)估實(shí)驗(yàn)評(píng)估 總結(jié)&未來(lái)工作實(shí)驗(yàn)評(píng)估(1) 實(shí)驗(yàn)環(huán)境 實(shí)驗(yàn)平臺(tái):Java 數(shù)據(jù)集:Enron郵件數(shù)據(jù)集,1.2GB,150個(gè)用戶(hù)的500 000封郵件。 詞性標(biāo)注:PoSTagger。 實(shí)體標(biāo)注:ANNIE。實(shí)驗(yàn)評(píng)估(2) Enron郵件數(shù)據(jù)集 在安然公司出事后為調(diào)查案件被向公共開(kāi)放。 被MIT的研究者加工整理形成。 已知的最大的真實(shí)郵件數(shù)據(jù)集。26實(shí)驗(yàn)評(píng)估(3)實(shí)驗(yàn)評(píng)估(4)實(shí)驗(yàn)評(píng)估(5) 以人工對(duì)郵件進(jìn)行處理的結(jié)果為基準(zhǔn)值,對(duì)我們的方法從三個(gè)方面進(jìn)行評(píng)估: 任務(wù)提取召回率:能夠提取出多少任務(wù)。 任務(wù)評(píng)估準(zhǔn)確率:事件排序的準(zhǔn)確率。 實(shí)體識(shí)別準(zhǔn)確率:能正確識(shí)別多少實(shí)體。29任務(wù)提取召回率任務(wù)提取召回率73.27%任務(wù)評(píng)估準(zhǔn)確率任務(wù)評(píng)估準(zhǔn)確率54.49%實(shí)體識(shí)別準(zhǔn)確率實(shí)體識(shí)別準(zhǔn)確率66.48%演示綱要 研究動(dòng)機(jī) 相關(guān)工作 處理流程 事件提取 基于事件聚類(lèi)的任務(wù)構(gòu)造 任務(wù)空間向量 實(shí)驗(yàn)評(píng)估 總結(jié)總結(jié)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高效能固態(tài)電池電解質(zhì)大宗采購(gòu)年度協(xié)議
- 旅游交通服務(wù)合作經(jīng)營(yíng)管理協(xié)議
- 教育類(lèi)音頻內(nèi)容版權(quán)收益分成合同
- 非煤礦山開(kāi)采工程安全責(zé)任承包合同
- 財(cái)政風(fēng)險(xiǎn)評(píng)估補(bǔ)充協(xié)議
- 美團(tuán)民宿房源精細(xì)化托管與營(yíng)銷(xiāo)合作協(xié)議
- 美妝品牌購(gòu)物中心美妝專(zhuān)區(qū)委托經(jīng)營(yíng)與品牌孵化合同
- 教師教育質(zhì)量監(jiān)控與改進(jìn)協(xié)議
- 綠色住宅認(rèn)證文件審核執(zhí)行合同
- 梭梭種植項(xiàng)協(xié)議書(shū)
- 擔(dān)任學(xué)生干部證明
- 《國(guó)家電網(wǎng)有限公司電力建設(shè)安全工作規(guī)程第4部分:分布式光伏》知識(shí)培訓(xùn)
- 2024年《13464電腦動(dòng)畫(huà)》自考復(fù)習(xí)題庫(kù)(含答案)
- 【核心素養(yǎng)目標(biāo)】9.3 一元一次不等式組 教案七年級(jí)數(shù)學(xué)下冊(cè)(人教版)
- 保證斷絕關(guān)系的保證書(shū)
- 選拔卷-:2024年小升初數(shù)學(xué)模擬卷三(北師大版)A3版
- 快遞云倉(cāng)合同范本
- 2024年高考語(yǔ)文作文第一輪復(fù)習(xí):掌握常用的寫(xiě)作結(jié)構(gòu)
- DZ∕T 0339-2020 礦床工業(yè)指標(biāo)論證技術(shù)要求(正式版)
- MOOC 市場(chǎng)營(yíng)銷(xiāo)學(xué)-西南財(cái)經(jīng)大學(xué) 中國(guó)大學(xué)慕課答案
- 頜下感染的護(hù)理查房
評(píng)論
0/150
提交評(píng)論