




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、Web中的數(shù)學(xué)(shxu)建模例子 網(wǎng)絡(luò)已經(jīng)(y jing)成為現(xiàn)代人的一種生活方式。在網(wǎng)上,每天有成千上萬的多媒體文件在傳輸(例如,路透社每天收到網(wǎng)上文本文件達(dá)20萬)。試建立數(shù)學(xué)模型,使得可以對這些文件進(jìn)行自動分類,以便人們閱讀和使用。 結(jié)構(gòu)化建模例子共十三頁在線文本(wnbn)自動分析建模原型的目標(biāo): 在線電子文本的計(jì)算機(jī)自動(zdng)分類與輔助理解。理解基于分類,分類是理解的前提。不同的分類目的有不同的分類模型:理解性分類 基于語意、概念層、主題層的細(xì)分類,目的是分析和理解。、建立專業(yè)模型檢索性分類 國際圖書分類法,目的是查詢;共十三頁原型(yunxng)的結(jié)構(gòu)分析文本章節(jié)節(jié)段落(d
2、unlu)語意團(tuán)句或短語詞字符文本的結(jié)構(gòu):原型有兩層結(jié)構(gòu):文本的結(jié)構(gòu); 文本集合的結(jié)構(gòu)。分析:文本集合的結(jié)構(gòu)是原型對應(yīng)目的的主要結(jié)構(gòu); 文本集合的結(jié)構(gòu)依賴于文本的結(jié)構(gòu)(子結(jié)構(gòu)); 文本結(jié)構(gòu)的表示應(yīng)該利于文本集合分類目的。共十三頁文本(wnbn)集的結(jié)構(gòu)分析:聯(lián)想到數(shù)學(xué)中代數(shù)結(jié)構(gòu):集合中定義代數(shù)運(yùn)算,加法(jif)和數(shù)乘,元素間的運(yùn)算關(guān)系 結(jié)構(gòu)相同!兩個文本的合并還是文本一個文本的倍數(shù)仍然是文本分析文本集的結(jié)構(gòu),首先是文本之間的相互關(guān)系:、同構(gòu)分析(數(shù)學(xué)結(jié)構(gòu)與原型結(jié)構(gòu)的聯(lián)系)加法封閉;數(shù)乘封閉!共十三頁同構(gòu):此時問題的原型的結(jié)構(gòu)直接和數(shù)學(xué)結(jié)構(gòu)聯(lián)系(linx)起來!文本的集合應(yīng)該有一個“線性空間(
3、kngjin)”的結(jié)構(gòu);文本的分類是在線性空間中的“向量的分類”! 對于線性代數(shù)的結(jié)構(gòu)有清楚的理解和關(guān)注,則容易發(fā)現(xiàn):共十三頁 因此,每個文本對應(yīng)地定義一個文本向量,用于分類,分量(fn ling)如何定義? 顯然,分量是“分類特征”的具體表示(biosh):從關(guān)鍵詞和檢索中,容易想到基于詞頻的,可用于區(qū)分文本的量化的表示(biosh)!數(shù)學(xué)模型:向量空間的結(jié)構(gòu)+詞頻特征表示。、同構(gòu)表示與數(shù)學(xué)建模建立原型結(jié)構(gòu)的數(shù)學(xué)表示則建立了數(shù)學(xué)模型。 文本集合同構(gòu)于線性空間,文本的分類是線性空間中向量的分類。共十三頁 根據(jù)專業(yè)知識,詞頻及具有分類的特征(tzhng)信息,信息熵!因此可以仿照熵的定義:某詞W
4、(i)在文本d中出現(xiàn)的頻數(shù) log( ) 集合中文本總數(shù)詞W(i)在文本中至少出現(xiàn)一次的文本數(shù) 這里熵的形式,一來用類似信息熵的定義,符合“分類(fn li)”的特征信息的概念;二來,詞頻的作用大于詞在文本集合中出現(xiàn)的作用。注:第一部分表示該詞在d中的權(quán)重;第二部分表示該詞在文本集中的文本d中出現(xiàn)時帶來的信息量大小.當(dāng)文本集中出現(xiàn)該詞的文本數(shù)量越少時第二項(xiàng)的值就越大,而該詞在文本d中出現(xiàn)了,因而該詞提供的信息量就大.共十三頁假設(shè)TF(w(i),dj)是詞w(i)在文本(wnbn)dj中出現(xiàn)的次數(shù),|D|是D中文本總數(shù),DF(w(i)是指在D中至少出現(xiàn)一次w(i)的文本數(shù)。則每一個文本djD,和
5、一個特征詞w(i)存在一量:形式化:記d(i)j =TFIDF(w(i),dj) ,則每一個文本djD,存在一個分量(fn ling)適當(dāng)排序的文本向量。共十三頁文本向量空間(kngjin)模型與文本向量:共十三頁問題的目標(biāo)(mbio):文本集的分類 原型的結(jié)構(gòu)分析:文本集的結(jié)構(gòu)(目標(biāo))+文本的結(jié)構(gòu)(表示的關(guān)鍵) 同構(gòu)分析: 數(shù)學(xué)結(jié)構(gòu)和原型結(jié)構(gòu)的聯(lián)系 文本集的結(jié)構(gòu)線性空間結(jié)構(gòu) 數(shù)學(xué)模型表示:文本向量空間+文本向量(詞頻表示的分量)建模過程(guchng)共十三頁文本自動分類: 理解文本的類屬性,子空間分類.文本自動聚類: 發(fā)現(xiàn)(fxin)文本集合中的新模式,新概念.文本向量: 由文本的實(shí)意詞的
6、特征(tzhng)值或特征(tzhng)模式為分量的向量. 以信息熵的形式構(gòu)造.特征子空間: 具有某種共同意義的分量組成的子空間. 主義 自由 個人文本向量空間: 全部文本向量的高維線性空間.應(yīng)用事例:思想史研究中,“五四” 運(yùn)動的討論的主要思想是什么?發(fā)現(xiàn)在“自由主義”的特征詞所在的子空間中,文本的投影數(shù)量最大!共十三頁例題小結(jié): 本題幾乎沒有(mi yu)人見過類似的問題。這為“引模”帶來了不少困難。 如果有結(jié)構(gòu)化建模的理念,而且(r qi)熟悉線性代數(shù),就比較容易通過一定的思考產(chǎn)生模型的。共十三頁內(nèi)容摘要Web中的數(shù)學(xué)建模例子。原型的目標(biāo): 在線電子文本的計(jì)算機(jī)自動分類與輔助理解。不同的分類目的有不同的分類模型:。文本的集合應(yīng)該有一個“線性空間”的結(jié)構(gòu)。文本的分類是在線性空間中的“向量的分類”。顯然,分量是“分類特征(tzhng)”的具體表示:從關(guān)鍵詞和檢索中,容易想到基于詞頻的,可用于區(qū)分文本的量化的表示。這里熵的形式,一來用類似信息熵的定義,符合“分類”的特征(tzhng)信息的概念。問題的目標(biāo):文本集的分類。文本向量: 由文本的實(shí)意詞的特征(tzhng)值或
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度智能停車解決方案車庫租賃合同
- 二零二五年度崗位股權(quán)激勵與公司財(cái)務(wù)審計(jì)協(xié)議
- 二零二五年度地下室租賃與智能化升級合同
- 二零二五年度物流運(yùn)輸合同履約承諾書范本
- 二零二五年度個人房屋抵押貸款與環(huán)保節(jié)能改造協(xié)議
- 2025年度科研機(jī)構(gòu)研發(fā)人員掛靠合作協(xié)議
- 二零二五年度黨支部聯(lián)建共建科技創(chuàng)新合作協(xié)議
- 二零二五年度超市員工勞動合同(含離職交接流程)
- 2025年度酒店管理合同解除通知范文
- 二零二五年度企業(yè)并購債務(wù)以物抵債協(xié)議法院監(jiān)督
- 國際法學(xué)(山東聯(lián)盟)知到智慧樹章節(jié)測試課后答案2024年秋煙臺大學(xué)
- 四川政采評審專家入庫考試基礎(chǔ)題復(fù)習(xí)測試題
- 挑戰(zhàn)杯-申報書范本
- 超市投標(biāo)書范文
- 《工程合同管理與招投標(biāo)實(shí)訓(xùn)》課程電子教案
- 標(biāo)本溢灑應(yīng)急預(yù)案
- 藥品類體外診斷試劑專項(xiàng)培訓(xùn)課件
- 2024年有關(guān)對外擔(dān)保-股東會決議范本
- 食堂場所及設(shè)施設(shè)備清洗消毒和維修保養(yǎng)制度
- 人民醫(yī)院樣本外送檢測管理制度
- 【電動自行車諧振式無線充電系統(tǒng)設(shè)計(jì)(論文)10000字】
評論
0/150
提交評論