版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
(19)中華人民共和國國家知識(shí)產(chǎn)權(quán)局
(12)發(fā)明專利申請(qǐng)
加(10)申請(qǐng)公布號(hào)CN110162749A
(43)申請(qǐng)公布日2019.08.23
(21)申請(qǐng)?zhí)?01811231847.5
(22)申請(qǐng)日2018.10.22
(71)申請(qǐng)人哈爾濱工業(yè)大學(xué)(深圳)
地址518055廣東省深圳市南山區(qū)桃源街
道深圳大學(xué)城哈爾濱工業(yè)大學(xué)校區(qū)
申請(qǐng)人騰訊科技(深圳)有限公司
(72)發(fā)明人林浚瑋邵軼男陳偉劉婷婷
(74)專利代理機(jī)構(gòu)北京派特恩知識(shí)產(chǎn)權(quán)代理有
限公司11270
代理人徐升升張穎玲
(51)lnt.CI.
G06F77222(2006.01)
G06F77/27(2006.01)
G06F7<5Z?5(2019.01)
G06N3/08(2006.01)
權(quán)利要求書3頁說明書19頁附圖8頁
(54)發(fā)明名稱
信息提取方法、裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)
可讀存儲(chǔ)介質(zhì)
(57)摘要在字符蛾編碼為星中.根據(jù)將提取文本的字符級(jí)信息,進(jìn)行從所述字符級(jí)
信息列字符轉(zhuǎn)任向量.以及從所述字符情衽向量到詞圾特征向量序列的編
本發(fā)明實(shí)施例提供一種信息提取方法、裝碼
置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì),該方法包括:
103
在司級(jí)編碼笈星中,進(jìn)行從所述詢級(jí)特征向量序列時(shí)應(yīng)的網(wǎng)級(jí)信息刊詞特
在字符級(jí)編碼器層中,根據(jù)待提取文本的字符級(jí)征向量,以及從所述詞特征向量到片段特征向量序列的編碼
信息,進(jìn)行從所述字符級(jí)信息到字符特征向量、
105
在條件陵機(jī)場(chǎng)層中接收所述片段特征向量序列并標(biāo)注語義標(biāo)簽,確定滿足
以及從所述字符特征向量到詞級(jí)特征向量序列斷率條件的所述語義標(biāo)簽
的編碼;在詞級(jí)編碼器層中,進(jìn)行從所述詞級(jí)特
征向量序列對(duì)應(yīng)的詞級(jí)信息到詞特征向量,以及
從所述詞特征向量到片段特征向量序列的編碼;
在條件隨機(jī)場(chǎng)層中接收所述片段特征向量序列
并標(biāo)注語義標(biāo)簽,確定滿足概率條件的所述語義
標(biāo)簽。
V
6
m
9
1
。
二
g
CN110162749A權(quán)利要求書1/3頁
1.一種信息提取方法,其特征在于,包括:
在字符級(jí)編碼器層中,根據(jù)待提取文本的字符級(jí)信息,進(jìn)行從所述字符級(jí)信息到字符
特征向量、以及從所述字符特征向量到詞級(jí)特征向量序列的編碼;
在詞級(jí)編碼器層中,進(jìn)行從所述詞級(jí)特征向量序列對(duì)應(yīng)的詞級(jí)信息到詞特征向量,以
及從所述詞特征向量到片段特征向量序列的編碼;
在條件隨機(jī)場(chǎng)層中接收所述片段特征向量序列并標(biāo)注語義標(biāo)簽,確定滿足概率條件的
所述語義標(biāo)簽。
2.如權(quán)利要求1所述的信息提取方法,其特征在于,所述在字符級(jí)編碼器層中,根據(jù)待
提取文本的字符級(jí)信息,進(jìn)行從所述字符級(jí)信息到字符特征向量、以及從所述字符特征向
量到詞級(jí)特征向量序列的編碼,包括:
在字符級(jí)編碼器層中接收待提取文本的字符級(jí)信息,并進(jìn)行編碼得到所述字符級(jí)信息
對(duì)應(yīng)的字符特征向量,以及,
根據(jù)所述字符特征向量及其對(duì)應(yīng)的上下文特征向量進(jìn)行編碼,得到對(duì)應(yīng)的詞級(jí)特征向
量序列。
3.如權(quán)利要求1所述的信息提取方法,其特征在于,所述在詞級(jí)編碼器層中,進(jìn)行從所
述詞級(jí)特征向量序列對(duì)應(yīng)的詞級(jí)信息到詞特征向量,以及從所述詞特征向量到片段特征向
量序列的編碼,包括:
在詞級(jí)編碼器層中接收所述詞級(jí)特征向量序列對(duì)應(yīng)的詞級(jí)信息、,并進(jìn)行編碼得到所述
詞級(jí)信息對(duì)應(yīng)的詞特征向量,以及,
根據(jù)所述詞特征向量及其對(duì)應(yīng)的上下文特征向量進(jìn)行編碼,得到對(duì)應(yīng)的片段特征向量
序列。
4.如權(quán)利要求2所述的信息提取方法,其特征在于,所述進(jìn)行編碼得到所述字符級(jí)信息
對(duì)應(yīng)的字符特征向量,包括:
將所述待提取文本的字符級(jí)信息輸入所述字符級(jí)編碼器層中的第一雙向循環(huán)網(wǎng)絡(luò);
在所述第一雙向循環(huán)網(wǎng)絡(luò)進(jìn)行編碼,得到所述字符級(jí)信息對(duì)應(yīng)的字符特征向量。
5.如權(quán)利要求4所述的信息提取方法,其特征在于,所述根據(jù)輸入的字符級(jí)信息對(duì)應(yīng)字
符特征向量及其對(duì)應(yīng)的上下文特征向量進(jìn)行編碼,得到對(duì)應(yīng)的詞級(jí)特征向量序列,包括:
將所述字符特征向量輸入所述字級(jí)編碼器層中的第一注意力模型,在所述第一注意力
模型中執(zhí)行以下操作:
根據(jù)輸入的字符級(jí)信息對(duì)應(yīng)字符特征向量、及其對(duì)應(yīng)的上下文特征向量的余弦相似
度,確定輸入的字符級(jí)信息對(duì)應(yīng)的字符特征向量的重要性權(quán)值;
根據(jù)所述字符特征向量的重要性權(quán)值進(jìn)行加權(quán)平均,得到詞級(jí)特征向量序列。
6.如權(quán)利要求3所述的信息提取方法,其特征在于,所述進(jìn)行編碼得到所述詞級(jí)信息對(duì)
應(yīng)的詞特征向量,包括:
將所述詞級(jí)特征向量序列對(duì)應(yīng)的詞級(jí)信息輸入所述詞級(jí)編碼器層中的第二雙向循環(huán)
網(wǎng)絡(luò);
在所述第二雙向循環(huán)網(wǎng)絡(luò)中進(jìn)行編碼,得到所述詞級(jí)信息對(duì)應(yīng)的詞特征向量。
7.如權(quán)利要求6所述的信息提取方法,其特征在于,所述根據(jù)輸入的詞級(jí)信息對(duì)應(yīng)的詞
特征向量及其對(duì)應(yīng)的上下文特征向量進(jìn)行編碼,得到片段特征向量序列,包括:
2
CN110162749A權(quán)利要求書2/3頁
將所述詞特征向量輸入所述詞級(jí)編碼器層中的第二注意力模型,在所述第二注意力模
型中執(zhí)行以下操作:
根據(jù)輸入的詞級(jí)信息對(duì)應(yīng)的詞特征向量、及其對(duì)應(yīng)的上下文特征向量的余弦相似度,
確定所述輸入的詞級(jí)信息對(duì)應(yīng)詞特征向量的重要性權(quán)值,以及,
根據(jù)所述詞特征向量的重要性權(quán)值進(jìn)行加權(quán)平均得到所述片段特征向量序列。
8.如權(quán)利要求1所述的信息提取方法,其特征在于,所述在條件隨機(jī)場(chǎng)層中接收所述片
段特征向量序列并標(biāo)注語義標(biāo)簽,確定滿足概率條件的所述語義標(biāo)簽,包括:
在所述條件隨機(jī)場(chǎng)層中對(duì)將所述片段特征向量標(biāo)注語義標(biāo)簽,得到所述片段特征向量
對(duì)應(yīng)的不同標(biāo)注序列;
確定滿足概率條件的標(biāo)注序列中對(duì)應(yīng)所述片段特征向量的語義標(biāo)簽。
9.如權(quán)利要求1至8任一項(xiàng)所述的信息提取方法,其特征在于,所述在字符級(jí)編碼器層
中,根據(jù)待提取文本的字符級(jí)信息,進(jìn)行從所述字符級(jí)信息到字符特征向量、以及從所述字
符特征向量到詞級(jí)特征向量序列的編碼之前,還包括:
在所述字符級(jí)編碼器層中接收訓(xùn)練數(shù)據(jù)集包括的訓(xùn)練文本的字符級(jí)信息,進(jìn)行編碼得
到對(duì)應(yīng)的詞級(jí)特征向量序列;
在所述詞級(jí)編碼器層中接收所述詞級(jí)特征向量序列對(duì)應(yīng)的詞級(jí)信息,進(jìn)行編碼得到對(duì)
應(yīng)的預(yù)訓(xùn)練片段特征向量序列;
根據(jù)所述預(yù)訓(xùn)練片段特征向量序列對(duì)所述條件隨機(jī)場(chǎng)層進(jìn)行訓(xùn)練,直至滿足收斂條
件。
10.如權(quán)利要求9所述的信息提取方法,其特征在于,所述進(jìn)行編碼得到對(duì)應(yīng)的詞級(jí)特
征向量序列,包括:
在所述字符級(jí)編碼器層中的第一雙向循環(huán)神經(jīng)網(wǎng)絡(luò)中接收所述訓(xùn)練數(shù)據(jù)集包括的訓(xùn)
練文本的字符級(jí)信息,進(jìn)行編碼得到對(duì)應(yīng)的預(yù)訓(xùn)練字符特征向量;
在所述字符級(jí)編碼器層中的第一注意力模型中接收所述預(yù)訓(xùn)練字符特征向量以執(zhí)行
以下操作:
根據(jù)輸入的預(yù)訓(xùn)練字符特征向量與其對(duì)應(yīng)的上下文預(yù)訓(xùn)練特征向量的余弦相似度,確
定所述輸入的預(yù)訓(xùn)練字符特征向量的重要性權(quán)值,以及,
將所述預(yù)訓(xùn)練字符特征向量的重要性權(quán)值進(jìn)行加權(quán)平均得到對(duì)應(yīng)的詞級(jí)特征向量序
列。
11.如權(quán)利要求10所述的信息提取方法,其特征在于,所述進(jìn)行編碼得到對(duì)應(yīng)的預(yù)訓(xùn)練
片段特征向量序列,包括:
在所述詞級(jí)編碼器層的第二雙向循環(huán)神經(jīng)網(wǎng)絡(luò)中接收所述詞級(jí)特征向量序列對(duì)應(yīng)的
詞級(jí)信息,進(jìn)行編碼得到對(duì)應(yīng)的預(yù)訓(xùn)練詞特征向量;
在所述詞級(jí)編碼器層的第二注意力模型中接收所述預(yù)訓(xùn)練詞特征向量,以執(zhí)行以下操
作:
根據(jù)輸入的預(yù)訓(xùn)練詞特征向量與其對(duì)應(yīng)的上下文預(yù)訓(xùn)練特征向量的余弦相似度,確定
所述輸入的預(yù)訓(xùn)練詞特征向量的重要性權(quán)值,以及,
根據(jù)所述預(yù)訓(xùn)練詞特征向量的重要性權(quán)值進(jìn)行加權(quán)平均,得到預(yù)訓(xùn)練片段特征向量序
列。
3
CN110162749A權(quán)利要求書3/3頁
12.如權(quán)利要求11所示的信息提取方法,其特征在于,所述根據(jù)所述預(yù)訓(xùn)練片段特征向
量序列對(duì)所述條件隨機(jī)場(chǎng)層進(jìn)行訓(xùn)練,直至滿足收斂條件,包括:
確定所述訓(xùn)練數(shù)據(jù)集中所述訓(xùn)練文本的輸入序列相對(duì)于目標(biāo)輸出序列的條件概率;
迭代更新所述條件概率中對(duì)應(yīng)所述詞級(jí)特征向量序列、以及所述預(yù)訓(xùn)練片段特征向量
序列的權(quán)重因子,直至,
所述條件概率的對(duì)數(shù)似然函數(shù)滿足所述收斂條件。
13.一種信息提取裝置,其特征在于,包括:
字符級(jí)編碼器層,用于根據(jù)待提取文本的字符級(jí)信息,進(jìn)行從所述字符級(jí)信息到字符
特征向量、以及從所述字符特征向量到詞級(jí)特征向量序列的編碼;
詞級(jí)編碼器層,用于進(jìn)行從所述詞級(jí)特征向量序列對(duì)應(yīng)的詞級(jí)信息到詞特征向量,以
及從所述詞特征向量到片段特征向量序列的編碼;
條件隨機(jī)場(chǎng)層,用于在條件隨機(jī)場(chǎng)層中接收所述片段特征向量序列并標(biāo)注語義標(biāo)簽,
確定滿足概率條件的所述語義標(biāo)簽。
14.一種計(jì)算機(jī)設(shè)備,其特征在于,包括處理器和用于存儲(chǔ)能夠在處理器上運(yùn)行的計(jì)算
機(jī)程序的存儲(chǔ)器;其中,
所述處理器用于運(yùn)行所述計(jì)算機(jī)程序時(shí),執(zhí)行如權(quán)利要求1至12中任一項(xiàng)所述的信息
提取方法。
15.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序
被處理器執(zhí)行時(shí),實(shí)現(xiàn)如權(quán)利要求1至12中任一項(xiàng)所述信息提取方法。
4
CN110162749A說明書1/19頁
信息提取方法'裝置'計(jì)算機(jī)設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,特別涉及一種信息提取方法、裝置、計(jì)算機(jī)設(shè)
備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
[0002]隨著互聯(lián)網(wǎng)的迅速擴(kuò)張,許多網(wǎng)絡(luò)購物網(wǎng)站、閱讀應(yīng)用軟件、視頻播放軟件等都提
供了產(chǎn)品評(píng)價(jià)平臺(tái),方便用戶分享產(chǎn)品使用經(jīng)驗(yàn),以及對(duì)產(chǎn)品進(jìn)行評(píng)價(jià),這些評(píng)價(jià)無論對(duì)于
消費(fèi)者還是產(chǎn)品提供者都有重要參考價(jià)值。
[0003]目前,相關(guān)技術(shù)使用觀點(diǎn)挖掘(也稱為評(píng)論挖掘)技術(shù)對(duì)來自產(chǎn)品評(píng)價(jià)平臺(tái)的評(píng)價(jià)
文本(也稱為語料)進(jìn)行分析,以提取出評(píng)價(jià)文本中的結(jié)構(gòu)化知識(shí)信息加以保存,以對(duì)后續(xù)
任務(wù),比如用戶畫像、輿情分析、產(chǎn)品描述生成等都起到了至關(guān)重要的作用。比如在輿情分
析中,網(wǎng)絡(luò)上存在海量的用戶評(píng)論,通過觀點(diǎn)挖掘裝置讓計(jì)算機(jī)自動(dòng)理解評(píng)論內(nèi)容,得到用
戶對(duì)于產(chǎn)品的觀點(diǎn)信息。
[0004]但是測(cè)試證明,相關(guān)的觀點(diǎn)挖掘技術(shù)所得到的用戶觀點(diǎn)信息識(shí)別的性能(例如準(zhǔn)
確率和召回率)較低,從而嚴(yán)重影響后續(xù)任務(wù)的性能表現(xiàn)。
發(fā)明內(nèi)容
[0005]為解決現(xiàn)有存在的技術(shù)問題,本發(fā)明實(shí)施例提供一種信息提取方法、裝置、計(jì)算機(jī)
設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),能夠提升對(duì)文本進(jìn)行信息抽取的性能。
[0006]為達(dá)到上述目的,本發(fā)明實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的:
[0007]第一方面,本發(fā)明實(shí)施例提供一種信息提取方法,包括:在字符級(jí)編碼器層中,根
據(jù)待提取文本的字符級(jí)信息,進(jìn)行從所述字符級(jí)信息到字符特征向量、以及從所述字符特
征向量到詞級(jí)特征向量序列的編碼;在詞級(jí)編碼器層中,進(jìn)行從所述詞級(jí)特征向量序列對(duì)
應(yīng)的詞級(jí)信息到詞特征向量,以及從所述詞特征向量到片段特征向量序列的編碼;在條件
隨機(jī)場(chǎng)層中接收所述片段特征向量序列并標(biāo)注語義標(biāo)簽,確定滿足概率條件的所述語義標(biāo)
簽。
[0008]第二方面,本發(fā)明實(shí)施例提供一種信息提取裝置,該裝置包括:字符級(jí)編碼器層,
用于根據(jù)待提取文本的字符級(jí)信息,進(jìn)行從所述字符級(jí)信息到字符特征向量、以及從所述
字符特征向量到詞級(jí)特征向量序列的編碼;詞級(jí)編碼器層,用于進(jìn)行從所述詞級(jí)特征向量
序列對(duì)應(yīng)的詞級(jí)信息到詞特征向量,以及從所述詞特征向量到片段特征向量序列的編碼;
條件隨機(jī)場(chǎng)層,用于在條件隨機(jī)場(chǎng)層中接收所述片段特征向量序列并標(biāo)注語義標(biāo)簽,確定
滿足概率條件的所述語義標(biāo)簽。
[0009]第三方面,本發(fā)明實(shí)施例提供一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器,用于存儲(chǔ)可執(zhí)行程
序;處理器,用于通過執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的可執(zhí)行程序時(shí),實(shí)現(xiàn)本發(fā)明任一實(shí)施例提供
的信息提取方法。
[0010]第四方面,本發(fā)明實(shí)施例提供一種可讀存儲(chǔ)介質(zhì),存儲(chǔ)有可執(zhí)行程序,所述可執(zhí)行
5
CN110162749A說明書2/19頁
程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明任一實(shí)施例提供的信息提取方法。
[0011]本發(fā)明實(shí)施例具有以下有益效果:
[0012]1)基于字符級(jí)編碼器層和字級(jí)編碼器層結(jié)合,能夠從文本的字符級(jí)信息和詞級(jí)信
息中共同發(fā)現(xiàn)特征并加以利用和識(shí)別,進(jìn)而能夠有效識(shí)別未登錄詞以外的特征,避免了重
要信息的遺漏;
[0013]2)基于字符級(jí)編碼器層從文本的字符級(jí)信息進(jìn)行編碼,從而不需要針對(duì)不同業(yè)務(wù)
場(chǎng)景進(jìn)行特征工程以形成專門的訓(xùn)練數(shù)據(jù),克服了對(duì)特征功能的依賴;
[0014]3)基于字符級(jí)編碼器層和詞級(jí)編碼器共同提取的特征能夠強(qiáng)力表達(dá)文本原始信
息的特性,使得在條件隨機(jī)場(chǎng)層預(yù)測(cè)的語義標(biāo)簽的準(zhǔn)確率和召回率明顯改善,從而可以顯
著地提高魯棒性。
附圖說明
[0015]圖1為本發(fā)明一實(shí)施例中信息提取方法的可選應(yīng)用場(chǎng)景示意圖;
[0016]圖2為本發(fā)明另一實(shí)施例中信息提取方法的可選應(yīng)用場(chǎng)景示意圖;
[0017]圖3為本發(fā)明再一實(shí)施例中信息提取方法的可選應(yīng)用場(chǎng)景示意圖;
[0018]圖4為本發(fā)明一提供的信息提取裝置的示意圖;
[0019]圖5為本發(fā)明一實(shí)施例中信息提取方法的流程示意圖;
[0020]圖6為本發(fā)明一實(shí)施例中循環(huán)神經(jīng)網(wǎng)絡(luò)在時(shí)間上展開的示意圖;
[0021]圖7為本發(fā)明一實(shí)施例中雙向循環(huán)神經(jīng)網(wǎng)絡(luò)沿時(shí)間展開的示意圖;
[0022]圖8為本發(fā)明一實(shí)施例中長(zhǎng)短時(shí)記憶模塊的示意圖;
[0023]圖9為本發(fā)明一實(shí)施例提供的字符級(jí)編碼器層的網(wǎng)絡(luò)層次結(jié)構(gòu)示意圖;
[0024]圖10為本發(fā)明一實(shí)施例提供的詞級(jí)編碼器層的網(wǎng)絡(luò)層次結(jié)構(gòu)示意圖;
[0025]圖11為本發(fā)明另一實(shí)施例提供的信息提取方法的流程示意圖;
[0026]圖12為本發(fā)明一實(shí)施例提供的層次注意力神經(jīng)網(wǎng)絡(luò)半馬爾科夫隨機(jī)場(chǎng)模型的結(jié)
構(gòu)示意圖。
具體實(shí)施方式
[0027]以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的
具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0028]除非另有定義,本文所使用的所有的技術(shù)和科學(xué)術(shù)語與屬于本發(fā)明的技術(shù)領(lǐng)域的
技術(shù)人員通常理解的含義相同。本文中在本發(fā)明的說明書中所使用的術(shù)語只是為了描述具
體的實(shí)施例的目的,不是旨在于限制本發(fā)明。本文所使用的術(shù)語“及/或”包括一個(gè)或多個(gè)相
關(guān)的所列項(xiàng)目的任意的和所有的組合。
[0029]對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明之前,對(duì)本發(fā)明實(shí)施例中涉及的名詞和術(shù)語進(jìn)行說
明,本發(fā)明實(shí)施例中涉及的名詞和術(shù)語適用于如下的解釋。
[0030]1)信息提取,也稱為信息抽取,從非結(jié)構(gòu)化的自然語言的文本提取使用語義標(biāo)簽
標(biāo)注的結(jié)構(gòu)化的知識(shí)的過程,典型的信息提取任務(wù)包括:分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、語
義依存分析和語義角色標(biāo)注等。
[0031]2)特征工程,是指把原始數(shù)據(jù)轉(zhuǎn)變?yōu)槟P偷挠?xùn)練數(shù)據(jù)的過程,它的目的就是獲取
6
CN110162749A說明書3/19頁
更好的訓(xùn)練數(shù)據(jù)特征,使得機(jī)器學(xué)習(xí)模型逼近這個(gè)上限。
[0032]3)條件隨機(jī)場(chǎng),本文中特指在已知目前狀態(tài)(現(xiàn)在)的條件下,未來的演變(將來)
不依賴于它以往的演變(過去)的隨機(jī)場(chǎng),例如,馬爾科夫條件隨機(jī)場(chǎng)。
[0033]4)片段,即文本的字符級(jí)別/字級(jí)別的特征向量序列中連續(xù)的、且具有相同語義標(biāo)
簽的序列。
[0034]5)詞嵌入(wordembedding),將單個(gè)詞在預(yù)定義的向量空間中表示為實(shí)數(shù)向量,
每個(gè)單詞都映射到一個(gè)向量。舉個(gè)例子,比如在一個(gè)文本中包含“貓”“狗”“愛情”等若干單
詞,而這若干單詞映射到向量空間中,“貓”對(duì)應(yīng)的向量為(0.10.20.3)狗”對(duì)應(yīng)的向量
為(0.20.20.4)愛情”對(duì)應(yīng)的映射為(-0.4-0.5-0.2)。像這種將文本X{xl,x2,x3,x4,
x5……xn}映射到多維向量空間Y{yl,y2,y3,y4,y5……yn),這個(gè)映射的過程就叫做詞嵌
入。
[0035]6)準(zhǔn)確率,系統(tǒng)正確提取的結(jié)果占所有提取結(jié)果的比例。其中,所述所有提取結(jié)果
可以是指待提取文本中包含的提取結(jié)果的總數(shù)。準(zhǔn)確率是用于評(píng)價(jià)命名實(shí)體識(shí)別的性能的
主要指標(biāo)之一。
[0036]7)召回率,系統(tǒng)正確提取的結(jié)果占所有可能正確結(jié)果的比例。其中,所述可能正確
結(jié)果可以是指系統(tǒng)找到的提取結(jié)果的總數(shù)。召回率是用于評(píng)價(jià)命名實(shí)體識(shí)別的性能的主要
指標(biāo)之一。
[0037]8)自然語言處理,計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向,它研究能
實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。
[0038]9)語料,語言材料,本文主要是指文本數(shù)據(jù)。
[0039]10)命名實(shí)體(NamedEntityRecognition,NER),識(shí)別文本中具有特定意義的以
名稱為標(biāo)識(shí)的實(shí)體,如人名、公司名、地名等。
[0040]11)神經(jīng)網(wǎng)絡(luò),是指模擬人腦的神經(jīng)網(wǎng)絡(luò)以期能夠?qū)崿F(xiàn)類人工智能的機(jī)器學(xué)習(xí)技
術(shù),其中,機(jī)器學(xué)習(xí)(MachineLearning)是指從訓(xùn)練數(shù)據(jù)集中的訓(xùn)練文本(簡(jiǎn)稱為樣本)包
樣本特征和是否屬于目標(biāo)類別(如命名實(shí)體)的語義標(biāo)簽標(biāo)記,對(duì)分類器進(jìn)行訓(xùn)練,使訓(xùn)練
后的分類器具有對(duì)待提取文本判斷是否屬于目標(biāo)類別的特征詞的性能。
[0041]12)注意力機(jī)制,與人類的選擇性視覺注意力機(jī)制類似,核心目標(biāo)也是從眾多信息
中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息。而人類視覺注意力機(jī)制是人類視覺所特有的大腦
信號(hào)處理機(jī)制。人類視覺通過快速掃描全局圖像,獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,也就是一
般所說的注意力焦點(diǎn),而后對(duì)這一區(qū)域投入更多注意力資源,以獲取更多所需要關(guān)注目標(biāo)
的細(xì)節(jié)信息,而抑制其他無用信息。
[0042]本發(fā)明實(shí)施例提供信息提取方法、實(shí)施信息提取方法的信息提取裝置、實(shí)施信息
提取方法的計(jì)算機(jī)設(shè)備以及存儲(chǔ)用于實(shí)現(xiàn)信息提取方法的可執(zhí)行程序的存儲(chǔ)介質(zhì)。就信息
提取方法的實(shí)施例而言,本發(fā)明實(shí)施例提供終端側(cè)和服務(wù)器側(cè)實(shí)施的方案,將對(duì)信息提取
的示例性實(shí)施場(chǎng)景進(jìn)行說明。
[0043]如圖1所示,為本發(fā)明一實(shí)施例提供的信息提取方法的可選應(yīng)用場(chǎng)景示意圖,用戶
通過在終端100中安裝購物應(yīng)用客戶端購買產(chǎn)品后,通過購物應(yīng)用客戶端提供的產(chǎn)品評(píng)價(jià)
平臺(tái)發(fā)表購物體驗(yàn)、對(duì)產(chǎn)品的評(píng)價(jià)等評(píng)價(jià)文本,終端100將攜帶有用戶身份標(biāo)識(shí)的評(píng)價(jià)文本
發(fā)送至服務(wù)器200。服務(wù)器200獲取到攜帶有用戶身份標(biāo)識(shí)的評(píng)價(jià)文本并存儲(chǔ)至數(shù)據(jù)庫,并
7
CN110162749A說明書4/19頁
通過對(duì)數(shù)據(jù)庫中的評(píng)價(jià)文本進(jìn)行分析,以提取出能夠表征不同用戶分別對(duì)于相應(yīng)產(chǎn)品的觀
點(diǎn)信息,便于后續(xù)任務(wù),如用戶畫像分析,通過提取出其中的命名實(shí)體(如人名、公司名、地
名等),以有效解析出評(píng)價(jià)文本的主體,再結(jié)合句法依存分析算法可分析出主體之間依賴關(guān)
系,使得能夠準(zhǔn)確理解用戶評(píng)論的語義信息并進(jìn)行匯總分析。如,通過用戶畫像分析實(shí)現(xiàn)多
維度用戶分群,洞察目標(biāo)用戶需求,實(shí)現(xiàn)個(gè)性化內(nèi)容推薦。以某公司發(fā)布一款全新的手機(jī)產(chǎn)
品,新產(chǎn)品的發(fā)布帶來了來自不同媒體的相關(guān)報(bào)道,用戶反饋,面對(duì)這些海量數(shù)據(jù),可能希
望了解大家關(guān)注的是這款手機(jī)的哪些特征,通過購買過用戶發(fā)表的對(duì)這款手機(jī)的評(píng)價(jià)如
何、以及哪些用戶發(fā)表評(píng)價(jià)文本表達(dá)了購買的意愿,面對(duì)這些海量評(píng)論文本,可以通過本發(fā)
明實(shí)施例所提供的信息提取方法,以提取出能夠表征不同用戶分別對(duì)于產(chǎn)品的觀點(diǎn)信息,
便于后續(xù)任務(wù)。
[0044]如圖2所示,為本發(fā)明實(shí)施例提供的信息提取方法的另一可選應(yīng)用場(chǎng)景示意圖,用
戶通過在終端100中安裝閱讀應(yīng)用客戶端,在閱讀應(yīng)用客戶端中閱讀書籍/文章,通過閱讀
應(yīng)用客戶端提供的產(chǎn)品評(píng)價(jià)平臺(tái)發(fā)表閱讀評(píng)論,或者通過閱讀應(yīng)用客戶端提供的產(chǎn)品評(píng)價(jià)
平臺(tái)對(duì)其它用戶發(fā)表的閱讀評(píng)論的補(bǔ)充評(píng)論或評(píng)論回復(fù),終端100將攜帶有用戶身份標(biāo)識(shí)
的閱讀評(píng)論、補(bǔ)充評(píng)論和評(píng)論回復(fù)等評(píng)價(jià)文本發(fā)送至服務(wù)器200。服務(wù)器200獲取到攜帶有
用戶身份標(biāo)識(shí)的評(píng)價(jià)文本并存儲(chǔ)至數(shù)據(jù)庫,并通過對(duì)數(shù)據(jù)庫中的評(píng)價(jià)文本進(jìn)行分析,以提
取出能夠表征不同用戶對(duì)于相應(yīng)書籍/文章的觀點(diǎn)信息,便于后續(xù)任務(wù),如產(chǎn)品描述生成分
析,通過產(chǎn)品描述生成分析可以為書籍/文章生成準(zhǔn)確的推薦描述,可以進(jìn)一步結(jié)合用戶畫
像分析,通過用戶畫像分析對(duì)用戶進(jìn)行分類,并將相應(yīng)的攜帶有推薦描述的書籍/文章準(zhǔn)確
地推薦給相同類別的用戶。
[0045]如圖3所示,為本發(fā)明實(shí)施例提供的信息提取方法的另一可選應(yīng)用場(chǎng)景示意圖,用
戶通過在終端100中安裝新聞應(yīng)用客戶端,在新聞應(yīng)用客戶端閱讀服務(wù)器200即時(shí)推送的新
聞,通過新聞應(yīng)用客戶端在對(duì)應(yīng)新聞的評(píng)價(jià)平臺(tái)發(fā)表新聞評(píng)論,或者通過新聞應(yīng)用客戶端
提供的評(píng)價(jià)平臺(tái)對(duì)其它用戶發(fā)表的新聞評(píng)論的補(bǔ)充評(píng)論或評(píng)論回復(fù),終端100將攜帶有用
戶身份標(biāo)識(shí)的新聞評(píng)論、補(bǔ)充評(píng)論和評(píng)論回復(fù)等評(píng)價(jià)文本發(fā)送至服務(wù)器200。服務(wù)器200獲
取到攜帶有用戶身份標(biāo)識(shí)的評(píng)價(jià)文本并存儲(chǔ)至數(shù)據(jù)庫,并通過對(duì)數(shù)據(jù)庫中的評(píng)價(jià)文本進(jìn)行
分析,以提取出能夠表征不同用戶對(duì)于相應(yīng)新聞的觀點(diǎn)信息,便于后續(xù)任務(wù),如輿情分析,
通過輿情分析可以準(zhǔn)確地掌握民眾作為客體的社會(huì)管理者、企業(yè)、個(gè)人及其它各類組織及
其政治、社會(huì)、道德等方面的取向產(chǎn)生和持有的社會(huì)態(tài)度,便于整體把握較多群眾關(guān)于社會(huì)
中各種現(xiàn)象、問題所表達(dá)的信念、態(tài)度、意見和情緒等等表現(xiàn)。
[0046]上述的應(yīng)用場(chǎng)景分別以購物應(yīng)用客戶端、閱讀應(yīng)用客戶端和新聞應(yīng)用客戶端所提
供的產(chǎn)品評(píng)價(jià)平臺(tái)中發(fā)表的評(píng)價(jià)文本作為待提取文本為例,但實(shí)際應(yīng)用中并不局限于此,
其可以是不限于用戶的評(píng)價(jià)文本的其它語料數(shù)據(jù),且對(duì)將語料數(shù)據(jù)作為待提取文本進(jìn)行信
息提取后,進(jìn)行的后續(xù)任務(wù)也不限于如上所述的用戶畫像、輿情分析、產(chǎn)品描述生成等,其
可以是通過提取文本中的結(jié)構(gòu)化知識(shí)信息加以保存,方便后續(xù)各種自然語言處理技術(shù)手段
進(jìn)行文本處理,如,使用信息提取技術(shù)構(gòu)建面向特定任務(wù)的知識(shí)庫(如學(xué)術(shù)論文庫、商品庫、
旅游景點(diǎn)庫、電影庫、音樂庫等等),并在此基礎(chǔ)上實(shí)現(xiàn)智能知識(shí)服務(wù)(如垂直搜索引擎)等。
[0047]接下來,進(jìn)一步對(duì)本發(fā)明實(shí)施例提供的信息提取裝置的實(shí)施進(jìn)行說明,如前所述,
本發(fā)明實(shí)施例所提供的信息提取裝置可以采用服務(wù)器側(cè)實(shí)施,就信息提取裝置的硬件結(jié)構(gòu)
8
CN110162749A說明書5/19頁
而言,請(qǐng)參閱圖4,為本發(fā)明實(shí)施例提供的信息提取裝置的一個(gè)可選的硬件結(jié)構(gòu)示意圖,該
信息提取裝置可以是一種計(jì)算機(jī)設(shè)備,該計(jì)算機(jī)設(shè)備包括:處理器201以及用于存儲(chǔ)在處理
器201上運(yùn)行的計(jì)算機(jī)程序的存儲(chǔ)器203,其中,所述處理器201用于運(yùn)行所述計(jì)算機(jī)程序
時(shí),執(zhí)行本發(fā)明實(shí)施例提供的信息提取方法。這里,處理器201和存儲(chǔ)器203并非指代對(duì)應(yīng)的
數(shù)量為一個(gè),而可以為一個(gè)或者多個(gè)。可以理解的,該計(jì)算機(jī)設(shè)備還可以包括用于將所述處
理器201和存儲(chǔ)器203連接通信的系統(tǒng)總線。
[0048]存儲(chǔ)器203可以是易失性存儲(chǔ)器或非易失性存儲(chǔ)器,也可以包括易失性和非易失
性存儲(chǔ)器兩者。其中,非易失性存儲(chǔ)器可以是只讀存儲(chǔ)器(ROM,ReadOnlyMemory)、可編程
只讀存儲(chǔ)器(PROM,ProgrammableRead-OnlyMemory),其用作外部高速緩存。作為示例性
但不是限制性說明,存儲(chǔ)器203可以是不同形式的RAM,例如,靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM,
StaticRandomAccessMemory)、同步靜態(tài)隨機(jī)存取存儲(chǔ)器(SSRAM,SynchronousStatic
RandomAccessMemory)。本發(fā)明實(shí)施例描述的存儲(chǔ)器203旨在包括但不限于這些和任意其
它適合類別的存儲(chǔ)器。
[0049]本發(fā)明實(shí)施例中的存儲(chǔ)器203用于存儲(chǔ)各種類別的數(shù)據(jù)以支持信息提取裝置的操
作。這些數(shù)據(jù)的示例包括:用于在信息提取裝置上操作的任何可執(zhí)行程序,如操作系統(tǒng)和應(yīng)
用程序;其中,操作系統(tǒng)包含各種系統(tǒng)程序,例如框架層、核心庫層、驅(qū)動(dòng)層等,用于實(shí)現(xiàn)各
種基礎(chǔ)業(yè)務(wù)以及處理基于硬件的任務(wù)。應(yīng)用程序可以包含各種應(yīng)用程序,例如各種購物應(yīng)
用、閱讀應(yīng)用、新聞應(yīng)用、瀏覽器(Browser)等,用于實(shí)現(xiàn)各種應(yīng)用業(yè)務(wù)。實(shí)現(xiàn)本發(fā)明實(shí)施例
信息提取方法可以包含在應(yīng)用程序中。
[0050]本發(fā)明實(shí)施例提供的信息提取方法可以應(yīng)用于處理器201中,或者由處理器201實(shí)
現(xiàn)。處理器201可以是一種集成電路芯片,具有信號(hào)的處理能力。在實(shí)現(xiàn)過程中,上述方法的
各步驟可以通過處理器201中的硬件的集成邏輯電路或者軟件形式的指令完成。處理器201
可以是通用處理器、數(shù)字信號(hào)處理器(DSP,DigitalSignalProcessor),或者其他可編程
邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件等。處理器201還可以實(shí)現(xiàn)或者執(zhí)行
本發(fā)明實(shí)施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者任何
常規(guī)的處理器等。結(jié)合本發(fā)明實(shí)施例所提供信息提取方法的步驟,可以直接體現(xiàn)為硬件譯
碼處理器執(zhí)行完成,或者用譯碼處理器中的硬件及軟件模塊組合執(zhí)行完成。軟件模塊可以
位于存儲(chǔ)介質(zhì)中,該存儲(chǔ)介質(zhì)位于存儲(chǔ)器203,處理器201讀取存儲(chǔ)器203中的信息,結(jié)合其
硬件完成前述方法的步驟。
[0051]該計(jì)算機(jī)設(shè)備還包括網(wǎng)絡(luò)接口202,通過該網(wǎng)絡(luò)接口實(shí)現(xiàn)與終端之間的通信連接。
[0052]在示例性實(shí)施例中,請(qǐng)繼續(xù)參閱圖4,示出了本發(fā)明實(shí)施例提供的應(yīng)用程序的一個(gè)
可選的結(jié)構(gòu)示意圖,包括:字符級(jí)編碼器層11,用于根據(jù)待提取文本的字符級(jí)信息,進(jìn)行從
所述字符級(jí)信息到字符特征向量、以及從所述字符特征向量到詞級(jí)特征向量序列的編碼;
詞級(jí)編碼器層13,用于進(jìn)行從所述詞級(jí)特征向量序列對(duì)應(yīng)的詞級(jí)信息到詞特征向量,以及
從所述詞特征向量到片段特征向量序列的編碼;條件隨機(jī)場(chǎng)層15,用于在條件隨機(jī)場(chǎng)層中
接收所述片段特征向量序列并標(biāo)注語義標(biāo)簽,確定滿足概率條件的語義標(biāo)簽。
[0053]在一個(gè)實(shí)施例中,所述字符級(jí)編碼器層11,具體用于在字符級(jí)編碼器層中接收待
提取文本的字符級(jí)信息,并進(jìn)行編碼得到所述字符級(jí)信息對(duì)應(yīng)的字符特征向量,以及,根據(jù)
所述字符特征向量及其對(duì)應(yīng)的上下文特征向量進(jìn)行編碼,得到對(duì)應(yīng)的詞級(jí)特征向量序列。
9
CN110162749A說明書6/19頁
[0054]在一個(gè)實(shí)施例中,所述詞級(jí)編碼器層13,具體用于在詞級(jí)編碼器層中接收所述詞
級(jí)特征向量序列對(duì)應(yīng)的詞級(jí)信息,并進(jìn)行編碼得到所述詞級(jí)信息對(duì)應(yīng)的詞特征向量,以及,
根據(jù)所述詞特征向量及其對(duì)應(yīng)的上下文特征向量進(jìn)行編碼,得到片段特征向量序列。
[0055]在一個(gè)實(shí)施例中,所述字符級(jí)編碼器層11包括第一雙向循環(huán)神經(jīng)網(wǎng)絡(luò),所述第一
雙向循環(huán)神經(jīng)網(wǎng)絡(luò)具體用于將所述待提取文本的字符級(jí)信息輸入所述字符級(jí)編碼器層中
的第一雙向循環(huán)網(wǎng)絡(luò);在所述第一雙向循環(huán)網(wǎng)絡(luò)進(jìn)行編碼,得到所述字符級(jí)信息對(duì)應(yīng)的字
符特征向量。
[0056]在一個(gè)實(shí)施例中,所述字符級(jí)編碼器層11還包括第一注意力模型,將所述字符特
征向量輸入所述字級(jí)編碼器層中的第一注意力模型,在所述第一注意力模型中執(zhí)行以下操
作:根據(jù)輸入的字符級(jí)信息對(duì)應(yīng)字符特征向量、及其對(duì)應(yīng)的上下文特征向量的余弦相似度,
確定輸入的字符級(jí)信息對(duì)應(yīng)的字符特征向量的重要性權(quán)值;根據(jù)所述字符特征向量的重要
性權(quán)值進(jìn)行加權(quán)平均,得到詞級(jí)特征向量序列。
[0057]在一個(gè)實(shí)施例中,所述詞級(jí)編碼器層13包括第二雙向循環(huán)神經(jīng)網(wǎng)絡(luò),所述第二雙
向循環(huán)神經(jīng)網(wǎng)絡(luò)具體用于將所述詞級(jí)特征向量序列對(duì)應(yīng)的詞級(jí)信息輸入所述詞級(jí)編碼器
層中的第二雙向循環(huán)網(wǎng)絡(luò);在所述第二雙向循環(huán)網(wǎng)絡(luò)中進(jìn)行編碼,得到所述詞級(jí)信息對(duì)應(yīng)
的詞特征向量。
[0058]在一個(gè)實(shí)施例中,所述詞級(jí)編碼器層13還包括第二注意力模型,將所述詞特征向
量輸入所述詞級(jí)編碼器層中的第二注意力模型,在所述第二注意力模型中執(zhí)行以下操作:
根據(jù)輸入的詞級(jí)信息對(duì)應(yīng)的詞特征向量、及其對(duì)應(yīng)的上下文特征向量的余弦相似度,確定
所述輸入的詞級(jí)信息對(duì)應(yīng)詞特征向量的重要性權(quán)值,以及,根據(jù)所述詞特征向量的重要性
權(quán)值進(jìn)行加權(quán)平均得到所述片段特征向量序列。
[0059]在一個(gè)實(shí)施例中,所述條件隨機(jī)場(chǎng)層15,具體用于在所述條件隨機(jī)場(chǎng)層中對(duì)將所
述片段特征向量標(biāo)注語義標(biāo)簽,得到所述片段特征向量對(duì)應(yīng)的不同標(biāo)注序列;確定滿足概
率條件的標(biāo)注序列中對(duì)應(yīng)所述片段特征向量的語義標(biāo)簽。
[0060]在一個(gè)實(shí)施例中,所述信息提取裝置還包括訓(xùn)練模塊,所述字符級(jí)編碼器層11,還
用于在所述字符級(jí)編碼器層中接收訓(xùn)練數(shù)據(jù)集包括的訓(xùn)練文本的字符級(jí)信息,進(jìn)行編碼得
到對(duì)應(yīng)的詞級(jí)特征向量序列;所述詞級(jí)編碼器層13,還用于在所述詞級(jí)編碼器層中接收所
述詞級(jí)特征向量序列對(duì)應(yīng)的詞級(jí)信息,進(jìn)行編碼得到對(duì)應(yīng)的預(yù)訓(xùn)練片段特征向量序列;所
述訓(xùn)練模塊,用于根據(jù)所述預(yù)訓(xùn)練片段特征向量序列對(duì)所述條件隨機(jī)場(chǎng)層進(jìn)行訓(xùn)練,直至
滿足收斂條件。
[0061]在一個(gè)實(shí)施例中,所述字符級(jí)編碼器層11,具體用于在所述字符級(jí)編碼器層中的
第一雙向循環(huán)神經(jīng)網(wǎng)絡(luò)中接收所述訓(xùn)練數(shù)據(jù)集包括的訓(xùn)練文本的字符級(jí)信息,進(jìn)行編碼得
到對(duì)應(yīng)的預(yù)訓(xùn)練字符特征向量;在所述字符級(jí)編碼器層中的第一注意力模型中接收所述預(yù)
訓(xùn)練字符特征向量以執(zhí)行以下操作:根據(jù)輸入的預(yù)訓(xùn)練字符特征向量與其對(duì)應(yīng)的上下文預(yù)
訓(xùn)練特征向量的余弦相似度,確定所述輸入的預(yù)訓(xùn)練字符特征向量的重要性權(quán)值,以及,將
所述預(yù)訓(xùn)練字符特征向量的重要性權(quán)值進(jìn)行加權(quán)平均得到對(duì)應(yīng)的詞級(jí)特征向量序列。
[0062]在一個(gè)實(shí)施例中,所述詞級(jí)編碼器層13,具體用于在所述詞級(jí)編碼器層的第二雙
向循環(huán)神經(jīng)網(wǎng)絡(luò)中接收所述詞級(jí)特征向量序列對(duì)應(yīng)的詞級(jí)信息,進(jìn)行編碼得到對(duì)應(yīng)的預(yù)訓(xùn)
練詞特征向量;在所述詞級(jí)編碼器層的第二注意力模型中接收所述預(yù)訓(xùn)練詞特征向量,以
10
CN110162749A說明書7/19頁
執(zhí)行以下操作:根據(jù)輸入的預(yù)訓(xùn)練詞特征向量與其對(duì)應(yīng)的上下文預(yù)訓(xùn)練特征向量的余弦相
似度,確定所述輸入的預(yù)訓(xùn)練詞特征向量的重要性權(quán)值,以及,根據(jù)所述預(yù)訓(xùn)練詞特征向量
的重要性權(quán)值進(jìn)行加權(quán)平均,得到預(yù)訓(xùn)練片段特征向量序列。
[0063]在一個(gè)實(shí)施例中,所述訓(xùn)練模塊,具體用于確定所述訓(xùn)練數(shù)據(jù)集中所述訓(xùn)練文本
的輸入序列相對(duì)于目標(biāo)輸出序列的條件概率;迭代更新所述條件概率中對(duì)應(yīng)所述詞級(jí)特征
向量序列、以及所述預(yù)訓(xùn)練片段特征向量序列的權(quán)重因子,直至,所述條件概率的對(duì)數(shù)似然
函數(shù)滿足所述收斂條件。
[0064]在示例性實(shí)施例中,本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),如圖4所示
的包括可執(zhí)行程序的存儲(chǔ)器203,上述可執(zhí)行程序可由處理器201執(zhí)行,以完成前述信息提
取方法所述步驟??勺x存儲(chǔ)介質(zhì)可以是FRAM、ROMPROM、EPROM、EEPROM、FlashMemory,磁表
面存儲(chǔ)器、光盤、或CD-ROM等存儲(chǔ)器;也可以是包括上述存儲(chǔ)器之一或任意組合的各種設(shè)
備,如計(jì)算機(jī)設(shè)備。
[0065]如圖5所示,為本發(fā)明一實(shí)施例提供的信息提取方法的可選的流程示意圖,可應(yīng)用
于圖1?圖3中所示的服務(wù)器側(cè),該方法包括如下步驟:
[0066]步驟101,在字符級(jí)編碼器層中,根據(jù)待提取文本的字符級(jí)信息,進(jìn)行從所述字符
級(jí)信息到字符特征向量、以及從所述字符特征向量到詞級(jí)特征向量序列的編碼。
[0067]這里,待提取文本是指用于通過本發(fā)明實(shí)施例所提供的信息提取方法對(duì)其進(jìn)行分
析以得到目標(biāo)語義標(biāo)簽序列的文本數(shù)據(jù)。字符級(jí)信息是指表示數(shù)據(jù)或信息的單個(gè)的字母、
數(shù)字或文字。以待提取文本為“KobeBathwillg?!睘槔?,與該待提取文本對(duì)應(yīng)的字符級(jí)信
息為“KobeBathwi11g。",此時(shí),將該待提取文本的字符級(jí)信息作為字符級(jí)編
碼器層的輸入*=值,0R,6出聲/,11二,1,1,1,8,0};又以待提取文本為“長(zhǎng)沙是中國美麗
的城市”,與該待提取文本對(duì)應(yīng)的字符級(jí)信息為“長(zhǎng)沙是中國美麗的城市”,此時(shí),將該待提
取文本的字符級(jí)信息作為字符級(jí)編碼器層的輸入X={長(zhǎng),沙,是,中,國,美,麗,的,城,市}。
以對(duì)待提取文本的中文命名實(shí)體識(shí)別為例,中文命名實(shí)體識(shí)別的本質(zhì)是進(jìn)行序列標(biāo)注,假
設(shè)用三種標(biāo)注符號(hào)B、I、N來表示每個(gè)輸入單元分別代表指定命名實(shí)體的實(shí)體開始、實(shí)體中
間、其它。在字一級(jí)的識(shí)別任務(wù)中,對(duì)于人名、地名、公司名三種命名實(shí)體,可以定義七種標(biāo)
記的集合,L={B-PERJ-PER,B-LOC.I-LOC,B-ORG,I-ORG,N},分別表示人名、地名、公司名
的首部、內(nèi)部和其它。
[0068]在一些實(shí)施例中,所述步驟101,具體包括:在字符級(jí)編碼器層中接收待提取文本
的字符級(jí)信息,并進(jìn)行編碼得到所述字符級(jí)信息對(duì)應(yīng)的字符特征向量,以及,根據(jù)所述字符
特征向量及其對(duì)應(yīng)的上下文特征向量進(jìn)行編碼,得到對(duì)應(yīng)的詞級(jí)特征向量序列。
[0069]這里,上下文特征可以只考慮語料中的字本身,也就是輸入序列本身。例如,以待
提取文本“KobeBathwillgo”為例,這句話可以標(biāo)注為:K/B-PERo/I-PERb/I-PERe/I-
PERB/B-PERa/I-PERt/I-PERh/I-PERw/Ni/N1/N1/Ng/No/N,通過以每個(gè)字符級(jí)
信息對(duì)應(yīng)的字符特征向量及其對(duì)應(yīng)的上下文的字符級(jí)信息對(duì)應(yīng)的上下文特征向量,可以獲
取上下文特征,從而得到特征函數(shù)。
[0070]在采用CRF進(jìn)行命名實(shí)體識(shí)別中,特征函數(shù)f(yiT,yi,x,i)各占一定權(quán)重,且權(quán)重
值可以從訓(xùn)練文本中獲取得到,通常只能取0或取1兩個(gè)值。假設(shè)觀察函數(shù)用b(x,i)表示,特
征函數(shù)的取值可以由b(x,i)決定的。對(duì)于同一時(shí)亥!Ji的觀察值,需要考慮這個(gè)時(shí)刻的幾個(gè)窗
11
CN110162749A說明書8/19頁
口的值,也就是說,時(shí)亥心的特征函數(shù)是由幾個(gè)連續(xù)的窗口的觀察值來確定,假如考慮前后2
個(gè)窗口,那個(gè)特征函數(shù)就是i-2i+1,i+2這幾個(gè)窗口決定。假設(shè)特征函數(shù)的表達(dá)式為
{ytT=Ll,yt=L2,Xw=C},此時(shí),t和tT分別表示這個(gè)時(shí)刻和上一時(shí)刻,yt表示的當(dāng)前標(biāo)
記,yt-1表示的是前一個(gè)標(biāo)記,LI,L2G{B-PER,1-PER,B-LOCJ-LOC,B-ORG,I-ORG,N},W表
示考察的位置,We{-2,-1,0,+1,+2),C表示對(duì)應(yīng)W位置的內(nèi)容。與轉(zhuǎn)移特征函數(shù)一樣,狀態(tài)
函數(shù)的表達(dá)式可以為{Sk(yi,x,i)},由于狀態(tài)函數(shù)通常不考慮前面的標(biāo)簽標(biāo)注,所以在下
文中可以用然”來代表前一標(biāo)簽標(biāo)注。
[0071]仍以待提取文本為“KobeBathwillgo”為例而言,假設(shè)i=3,當(dāng)i=3時(shí)字面的觀
察特征有:b(X-2="K",i=3)、b(xT="o",i=3)、b(x0="b",i=3)、b(x+l="e",i=3)、b
(x+2="B",i=3),此時(shí)上下文特征表示可以如下表一所示:
[0072]表一字符級(jí)信息上下文特征表示示例
[0073]
轉(zhuǎn)移特征函數(shù)狀態(tài)特征函數(shù)
{yt-l=0,yt=0,x-2="K”}{ytT=#,yt=0,x-2="K"}
{yt-l=0,yt=0,x-1="o”}{ytT=#,yt=0,xT="o"}
{yt-l=0,yt=0,x0="b"}{yt-l=#,yt=0,x0="b"}
{yt-l=0,yt=0,xl="e"}{ytT=#,yt=0,xl="e"}
{yt-l=0,yt=0,x2="B"}{ytT=#,yt=0,x2="B"}
[0074]又例如,對(duì)待提取文本“長(zhǎng)沙是中國美麗的城市”為例而言,該待提取文本可以標(biāo)
注為:長(zhǎng)/B-LOC沙/I-LOC是/N中/B-LOC國/I-L0C美/N麗/N的/N城/N市/N,通過以每個(gè)字符
級(jí)信息對(duì)應(yīng)的字符特征向量及其上下文字符級(jí)信息對(duì)應(yīng)的上下文字符特征向量,可以獲取
上下文特征,從而得到相應(yīng)特征函數(shù)。假設(shè)i=5,當(dāng)i=5時(shí)字面的觀察特征有:b(x-2=
"是",i=5)、b(x-l="中",i=5)、b(x0="國",i=5)、b(x+l="美",i=5)、b(x+2="麗",i
=5),此時(shí)上下文特征表可以如下表所示:
[0075]表二字符級(jí)信息上下文特征表示示例
[0076]
轉(zhuǎn)移特征函數(shù)狀態(tài)特征函數(shù)
{yt-1=O,yt=O,x-2="是"}{yt-l=#,yt=O,x-2="是”}
{yt-l=O,yt=O,x-l="中”}{yt-l=#,yt=O,x-l="中”}
{yt-l=0,yt=0,xO="國”}{yt-1=#,yt=O,x0="國"}
[0077]
{yt-l=O,yt=O,xl=“美”}{yt-l=#,yt=O,xl="美"}
{yt-l=0,yt=0,x2="麗"}{yt-l斗,yt=O,x2="麗"}
[0078]通過根據(jù)當(dāng)前字符特征向量及其上下文字符特征向量,根據(jù)觀察詞性信息從而可
12
CN110162749A說明書9/19頁
以得到詞級(jí)特征向量序列,實(shí)現(xiàn)對(duì)待提取文本的分詞。采用字符級(jí)信息作為輸入可以對(duì)詞
匯外(OutOfVocabulary,00V)詞進(jìn)行建模,采用字符級(jí)信息還可以提供單詞字符的外部
形態(tài)信息,比如英文中的“ing“,“ed”這樣的后綴是詞性標(biāo)簽中形容詞的重要標(biāo)志,英文中
的大寫字母是詞性標(biāo)簽中的人名、地名等實(shí)體名詞的重要標(biāo)志,中文中常用的姓氏詞是詞
性標(biāo)簽中的人名的重要標(biāo)志等,從而對(duì)于組織或個(gè)人這樣的實(shí)體,常常是出現(xiàn)頻率稀疏的
單詞或詞,也可以做到有效識(shí)別。
[0079]步驟103,在詞級(jí)編碼器層中,進(jìn)行從所述詞級(jí)特征向量序列對(duì)應(yīng)的詞級(jí)信息到詞
特征向量,以及從所述詞特征向量到片段特征向量序列的編碼;
[0080]通過字符級(jí)編碼器層得到的詞級(jí)特征向量序列,將詞級(jí)特征向量對(duì)應(yīng)的詞級(jí)信息
作為詞級(jí)編碼器層的輸入,可以實(shí)現(xiàn)將字符級(jí)編碼器層得到的分詞結(jié)果作為詞級(jí)編碼器層
的輸入。其中,詞級(jí)信息是指表示數(shù)據(jù)或信息的單詞、詞組及整個(gè)詞匯,是文字組成語句文
章的最小組詞結(jié)構(gòu)形式。
[0081]在一些實(shí)施例中,所述步驟103,具體包括:在詞級(jí)編碼器層中接收所述詞級(jí)特征
向量序列對(duì)應(yīng)的詞級(jí)信息,并進(jìn)行編碼得到所述詞級(jí)信息對(duì)應(yīng)的詞特征向量,以及,根據(jù)所
述詞特征向量及其對(duì)應(yīng)的上下文特征向量進(jìn)行編碼,得到片段特征向量序列。
[0082]這里,將字符級(jí)編碼器層基于各字符級(jí)信息對(duì)應(yīng)的字符特征向量及其對(duì)應(yīng)的上下
文字符級(jí)信息所對(duì)應(yīng)的上下文特征向量得到的詞級(jí)特征向量序列,將詞級(jí)特征向量對(duì)應(yīng)的
詞級(jí)信息作為詞級(jí)編碼器層的輸入,從而實(shí)現(xiàn)將字符級(jí)編碼器層得到的分詞結(jié)果作為詞級(jí)
編碼器層的輸入。該字符級(jí)編碼器層和詞級(jí)編碼器層可以分別是基于注意力機(jī)制的神經(jīng)網(wǎng)
絡(luò),為了便于描述,將該字符級(jí)編碼器層對(duì)應(yīng)的基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)稱為第一注意
力機(jī)制的神經(jīng)網(wǎng)絡(luò),將該詞級(jí)編碼器層對(duì)應(yīng)的基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)稱為第二注意力
機(jī)制的神經(jīng)網(wǎng)絡(luò)。通過基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)基于各字符級(jí)信息對(duì)應(yīng)的字符特征向量
及其對(duì)應(yīng)的上下文特征向量得到的詞級(jí)特征向量序列,可以實(shí)現(xiàn)將基于第一注意力機(jī)制的
神經(jīng)網(wǎng)絡(luò)基于字符級(jí)信息得到的分詞結(jié)果作為第二基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)的輸入。
[0083]仍以待提取文本為“KobeBathwillg?!睘槔c該待提取文本對(duì)應(yīng)的詞級(jí)信息
為“KobeBathwillg。",此時(shí),將該待提取文本的詞級(jí)信息作為詞級(jí)編碼器層的輸入x=
{Kobe,Bath,will,go};又以待提取文本為“長(zhǎng)沙是中國美麗的城市”為例,將該待提取文本
的詞級(jí)信息作為詞級(jí)編碼器層的輸入x={長(zhǎng)沙,是,中國,美麗,的,城市}。詞級(jí)編碼器層與
字符級(jí)編碼器層的實(shí)現(xiàn)原理相似。仍然以標(biāo)注符號(hào)B、I、N來表示每個(gè)輸入單元,分別代表實(shí)
體命名的實(shí)體開始、實(shí)體中間、其它。在詞一級(jí)的識(shí)別任務(wù)中,對(duì)于待提取文本“KobeBath
willgo”,這句話可以標(biāo)注為“Kobe/B-PERBath/I-PERwill/Ngo/N”,上下文特征可以指
輸入序列中的詞本身,通過以分詞結(jié)果中的詞級(jí)信息對(duì)應(yīng)的詞特征向量及其上下文詞級(jí)信
息對(duì)應(yīng)的上下文特征向量,可以獲取上下文特征,從而得到特征函數(shù)。
[0084]以待提取文本為“KobeBathwillgo”而言,以i=2為例,當(dāng)i=2時(shí)詞面的觀察特
征有:b(x-1="Kobe",i=2)、b(x0="Bath",i=2)、b(x+1="will",i=2)、b(x+2="go”,i
=2),此時(shí)上下文特征表可以如下表三所示:
[0085]表三詞級(jí)信息上下文特征表示示例
13
CN110162749A說明書10/19頁
[0086]
轉(zhuǎn)移特征函數(shù)狀態(tài)特征函數(shù)
{yt-l=O,yt=O,x-l="Kobe"}{yt-l=#,yt=O,x-2="Kobe"}
{yt-l=0,yt=0,xO="Bath”}{yt-W,yt=0,xO="Bath”}
{yt-l=O,yt=O,xl="will"}{yt-l=#,yt=O,xl="will"}
[0087]
{yt-l=0,yt=0,x2="go"}{yt-l=#,yt=0,x2="go"}
[0088]在詞一級(jí)的識(shí)別任務(wù)中,對(duì)于待提取文本“長(zhǎng)沙是中國美麗的城市”,這句話可以
標(biāo)注為“長(zhǎng)沙/B-L0C是/N中國/「L0C美麗/N的/N城市/N”,通過以詞級(jí)信息對(duì)應(yīng)的詞特征向
量及其上下文詞級(jí)信息對(duì)應(yīng)的上下文特征向量,可以獲取上下文特征,從而得到特征函數(shù)。
以i=3為例,當(dāng)i=3時(shí),詞面的觀察特征有:b(x-2="長(zhǎng)沙”,i=3)、b(xT=9",i=3)、b
(x0=“中國”,i=3)、b(x+l="美麗”,i=3)、b(x+2="的",i=3),此時(shí)上下文特征表示可
以如下表四所示:
[0089]表四詞級(jí)信息上下文特征表示示例
[0090]
轉(zhuǎn)移特征函數(shù)狀態(tài)特征函數(shù)
{yt-1=0,yt=0,x-2="長(zhǎng)沙"}{yt-l=#,yt=0,x-2="長(zhǎng)沙"}
{ytT=0,yt=0,xT="是"}{yt-1=#,yt=0,xT="是"}
{yt-1=0,yt=0,x0="中國”}{yt-1=#,yt=0,x0="中國”}
{yt-l=0,yt=0,xl="美麗"}{yt-l=#,yt=0,xl="美麗"}
{yt-1=0,yt=0,x2="的"}{yt-1=#,yt=0,x2="的"}
[0091]通過根據(jù)當(dāng)前詞特征向量及其上下文詞特征向量,根據(jù)觀察詞性標(biāo)簽轉(zhuǎn)換特征從
而可以得到片段特征向量序列,實(shí)現(xiàn)對(duì)待提取文本的分句或分語段。對(duì)于一句話或一個(gè)語
段中的詞,并不是每個(gè)詞都對(duì)分類任務(wù)有用,為了能夠使得詞級(jí)編碼器層能夠自動(dòng)將注意
力放在這些詞匯上,可以通過基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò),根據(jù)當(dāng)前詞級(jí)信息對(duì)應(yīng)的詞特
征向量及其上下文詞級(jí)信息對(duì)應(yīng)的詞特征向量,可以計(jì)算出詞的重要性,最后根據(jù)詞級(jí)信
息及其對(duì)應(yīng)的重要性權(quán)值進(jìn)行計(jì)算,得到對(duì)應(yīng)的片段特征向量序列。
[0092]其中,通過字符級(jí)編碼器層和詞級(jí)編碼器層分別從字符級(jí)信息和詞級(jí)信息中共同
發(fā)現(xiàn)特征,加以利用與識(shí)別,可以處理日常應(yīng)用中許多在訓(xùn)練集合中未出現(xiàn)的詞語(未登錄
詞),使得不做任何特征工程的情況下,能夠有效適用于目標(biāo)詞性類型的語義標(biāo)簽序列的標(biāo)
注任務(wù)。
[0093]步驟105,在條件隨機(jī)場(chǎng)層中接收所述片段特征向量序列并標(biāo)注語義標(biāo)簽,確定滿
足概率條件的語義標(biāo)簽。
[0094]條件隨機(jī)場(chǎng)(conditionalrandomfield,CRF)是指給定一組輸入隨機(jī)變量條件
下另一組輸出隨機(jī)變量的條件概率分布模型,其特點(diǎn)是假設(shè)輸出隨機(jī)變量構(gòu)成馬爾科夫隨
14
CN110162749A說明書11/19頁
機(jī)場(chǎng),本發(fā)明實(shí)施例中,CFR是指用于根據(jù)一系列的特征去預(yù)測(cè)每個(gè)詞的語義標(biāo)簽。馬爾科
夫隨機(jī)場(chǎng)(Markov)是指,若隨機(jī)變量Y的聯(lián)合概率分布P(Y)代表的無向圖G=(V,E)的每個(gè)
節(jié)點(diǎn)均滿足馬爾科夫性,則G是一個(gè)馬爾科夫隨機(jī)場(chǎng)。
[0095]在一個(gè)實(shí)施例中,所述條件隨機(jī)場(chǎng)為半馬爾科夫條件隨機(jī)場(chǎng)(Semi-MarkovCRFs)。
其中,半馬爾科夫條件隨機(jī)場(chǎng)是指輸入特征向量之間遵循馬爾科夫規(guī)則,而輸入特征向量
內(nèi)之間可以被靈活的賦予各種規(guī)則。以輸入序列x為字符級(jí)信息,s為目標(biāo)語義標(biāo)簽序列為
例,半馬爾科夫條件隨機(jī)場(chǎng)通過建立輸入序列x上的可能輸出序列s的條件概率模型,通過
訓(xùn)練文本對(duì)基于半馬爾科夫條件隨機(jī)場(chǎng)層的條件概率模型進(jìn)行訓(xùn)練,直至滿足收斂條件。
如此,通過將字符級(jí)編碼器層和詞級(jí)編碼器層對(duì)應(yīng)的基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)與半馬爾
科夫條件隨機(jī)場(chǎng)層的條件概率模型結(jié)合,將待提取文本輸入神經(jīng)網(wǎng)絡(luò)通過深度學(xué)習(xí)得到特
征函數(shù),再將特征函數(shù)輸入半馬爾科夫條件隨機(jī)場(chǎng)層的條件概率模型進(jìn)行應(yīng)用,從而實(shí)現(xiàn)
實(shí)體命名的識(shí)別。
[0096]本發(fā)明實(shí)施例所提供的信息提取方法,通過分別基于字符級(jí)編碼器層和字級(jí)編碼
器層結(jié)合,可以從待提取文本的字符級(jí)信息和詞級(jí)信息中共同發(fā)現(xiàn)特征并加以利用和識(shí)
別,從而能夠有效解決未登錄詞的識(shí)別問題,提升信息提取能力,在不同的信息提取任務(wù)
中,可以通過提供相應(yīng)訓(xùn)練數(shù)據(jù)即可,無需任何特征工程;將字符級(jí)編碼器層和詞級(jí)編碼器
層結(jié)合提取的特征,輸入條件隨機(jī)場(chǎng)層中,使得條件隨機(jī)場(chǎng)層可以利用字符級(jí)編碼器層和
詞級(jí)編碼器共同提取的強(qiáng)特征,根據(jù)觀察詞性標(biāo)簽轉(zhuǎn)換特征,比如,在片段特征向量序列
中,“動(dòng)詞”前面通常是為名詞等詞性標(biāo)簽的標(biāo)識(shí),“連詞”前后通常均為相同詞性標(biāo)簽的詞
的標(biāo)識(shí)等完成目標(biāo)語義標(biāo)簽的序列標(biāo)注任務(wù),從而可以顯著地提高魯棒性。
[0097]在一個(gè)實(shí)施例中,所述在字符級(jí)編碼器層中,根據(jù)待提取文本的字符級(jí)信息,進(jìn)行
從所述字符級(jí)信息到字符特征向量、以及從所述字符特征向量到詞級(jí)特征向量序列的編碼
之前,還包括:
[0098]在所述字符級(jí)編碼器層中接收訓(xùn)練數(shù)據(jù)集包括的訓(xùn)練文本的字符級(jí)信息,進(jìn)行編
碼得到對(duì)應(yīng)的詞級(jí)特征向量序列;
[0099]在所述詞級(jí)編碼器層中接收所述詞級(jí)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024餐廳桌椅采購合同范本
- Unit 1 Good morning(同步練習(xí))-2021-2022學(xué)年二年級(jí)英語上冊(cè)-滬教牛津版(深圳用)(含答案)
- 2024葵花出售合同范本
- 2024版預(yù)算單位公務(wù)卡代理運(yùn)營協(xié)議3篇
- 2024年三季度報(bào)北京地區(qū)A股應(yīng)交稅費(fèi)排名前十大上市公司
- 2024旅游業(yè)務(wù)合作與股權(quán)轉(zhuǎn)讓合同
- 2024飼料運(yùn)輸安全責(zé)任保險(xiǎn)合同3篇
- 2024物流標(biāo)準(zhǔn)化、質(zhì)量認(rèn)證合同
- 2024版細(xì)化第三方交易協(xié)議樣式版B版
- 2024版食堂服務(wù)采購合同書
- 2024江蘇泗陽縣交通產(chǎn)業(yè)集團(tuán)招聘第一線操作人員招聘39人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- GB 19272-2024室外健身器材的安全通用要求
- 北師大版五年級(jí)數(shù)學(xué)下冊(cè)第3單元第3課時(shí)分?jǐn)?shù)乘法(三)課件
- 2025新外研社版英語七年級(jí)下單詞默寫表
- 2024年演出經(jīng)紀(jì)人資格《思想政治與法律基礎(chǔ)》考前必刷必練題庫500題(含真題、必會(huì)題)
- 麻醉與舒適醫(yī)療
- 全國林草行業(yè)森林消防員技能競(jìng)賽理論知識(shí)考試題及答案
- 《中小學(xué)校園食品安全和膳食經(jīng)費(fèi)管理工作指引》專題培訓(xùn)
- 2022年山東省公務(wù)員錄用考試《申論》真題(A類)及答案解析
- 2024年治安保衛(wèi)部規(guī)章制度(2篇)
- 2024年保密知識(shí)測(cè)試試題附答案(綜合卷)
評(píng)論
0/150
提交評(píng)論