![聊天式數(shù)據(jù)查詢的技術(shù)方案探討獲獎科研報告_第1頁](http://file4.renrendoc.com/view/72190cfa29fa6b9363fd172e4fe63f9e/72190cfa29fa6b9363fd172e4fe63f9e1.gif)
![聊天式數(shù)據(jù)查詢的技術(shù)方案探討獲獎科研報告_第2頁](http://file4.renrendoc.com/view/72190cfa29fa6b9363fd172e4fe63f9e/72190cfa29fa6b9363fd172e4fe63f9e2.gif)
![聊天式數(shù)據(jù)查詢的技術(shù)方案探討獲獎科研報告_第3頁](http://file4.renrendoc.com/view/72190cfa29fa6b9363fd172e4fe63f9e/72190cfa29fa6b9363fd172e4fe63f9e3.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
聊天式數(shù)據(jù)查詢的技術(shù)方案探討獲獎科研報告摘要:人工智能領(lǐng)域近年發(fā)展十分迅猛,其中自然語言處理(NLP)領(lǐng)域從2016年起進(jìn)入高速發(fā)展期,以BERT為代表的各種新模型層出不窮,解決了文本數(shù)據(jù)分析和信息提取的問題。其中有一個子領(lǐng)域,即NL2SQL領(lǐng)域,是解決如何用自然語言問句進(jìn)行數(shù)據(jù)庫查詢的問題。具體方案是通過語義解析,將自然語言問句翻譯成SQL,再送到數(shù)據(jù)庫中進(jìn)行查詢,大大降低了數(shù)據(jù)查詢的難度,提升了交互友好度和查詢效率。本文探討具體的技術(shù)解決方案。
正文
NL2SQL領(lǐng)域目前的數(shù)據(jù)集英文以WikiSQL和Spider為主,中文有追一科技提供的競賽數(shù)據(jù)集。WikiSQL數(shù)據(jù)集支持單表、單列、多Where子句查詢,現(xiàn)有模型可以較好地支持。而耶魯大學(xué)提供的Spider數(shù)據(jù)集要求支持GroupBy、OrderBy、Having,還需要Join不同表,這更貼近于真實(shí)場景,也帶來了更大的難度。追一科技的競賽數(shù)據(jù)集的難度介于兩者之間,要求支持多列查詢,支持多Where子句間不同操作符操作。本文以追一科技數(shù)據(jù)集的難度為準(zhǔn),探討解決方案。
1.主流模型
目前業(yè)內(nèi)的三大技術(shù)解決方案依次是SQLnet,SQLova和X-SQL,其中X-SQL在WikiSQL數(shù)據(jù)集上測試效果最好,但仍然滿足不了追一科技數(shù)據(jù)集的要求。我們主要參考后兩個模型,提出我們的解決方案。
2.方案思路
解決此問題有兩大思路,增強(qiáng)學(xué)習(xí)和解耦任務(wù)。增強(qiáng)學(xué)習(xí)是端到端的解決方案,比較先進(jìn),但實(shí)際應(yīng)用尚不成熟,達(dá)不到準(zhǔn)確率的要求。因此解耦任務(wù)的思路成為首選。解耦的思路是將任務(wù)拆解為8個子任務(wù),分別是
Select-Number:選擇幾列
Select-Column:選擇哪一列
Select-Aggregation:使用什么聚合函數(shù)
Where-Number:有幾個條件
Where-Column:篩選條件是針對哪幾列
Where-Operator:各個條件的操作符
Where-Value:各個條件的條件值
Where-Operator:各個條件之間的關(guān)系。
為了將整體準(zhǔn)確度提升到80%以上,需要8個子任務(wù)的平均準(zhǔn)確度達(dá)到97.5%,這對方案提出了非常高的要求。
整體解決方案分為三部分:語義解析模塊、執(zhí)行引導(dǎo)模塊和SQL增強(qiáng)模塊。以下分別加以說明。
3.語義解析模塊
語義解析模塊是整個解決方案最重要的部分,共分為三個層次:編碼層、語義增強(qiáng)層和輸出層。
編碼層采用2019年7月由Facebook公司推出的RoBERTa作為基礎(chǔ)預(yù)訓(xùn)練模型。和2018年10月谷歌公司推出的BERT相比,此模型在CoLA和SST-2兩項(xiàng)任務(wù)中分別領(lǐng)先16個百分點(diǎn)和3個百分點(diǎn)。而這兩個任務(wù)是評判文本語義解析能力的重要指標(biāo)。RoBERTa已經(jīng)有支持中文的版本。
我們也考慮了其它的可能性,例如MT-DNN,XLnet,ERNIE2.0和DistilBERT,經(jīng)過對可行性的分析和對性能的比較,最終選用RoBERTa。
語義增強(qiáng)層的思路是將問題的文本表示和組成數(shù)據(jù)列的token的文本表示進(jìn)行融合,將融合后的結(jié)果結(jié)合注意力機(jī)制,然后進(jìn)行數(shù)學(xué)相加,最后再加上問題的文本表示,以得到數(shù)據(jù)列的文本表示。
其中將問題與token進(jìn)行融合的時候,加入兩個多維訓(xùn)練參數(shù)(m*d),以構(gòu)成神經(jīng)網(wǎng)絡(luò)層。那么數(shù)學(xué)上,兩個多維表示如何變成一個注意力參數(shù)的呢?問題和token都是((m*d)*(d*1)),點(diǎn)積后成為(m*1)向量,再次轉(zhuǎn)制和點(diǎn)積后成為(1*1)向量,即一個注意力參數(shù)。
最后再次加上問題的文本表示,是為了增強(qiáng)問題表示的比重,將問題和toke比重由1:1改為2:1,以增強(qiáng)最終效果。此處問題權(quán)重設(shè)為0.5。
到此已經(jīng)增加了一層神經(jīng)網(wǎng)絡(luò)層。在輸出層為所有的子任務(wù)還要再增加一層神經(jīng)網(wǎng)絡(luò)層,以WhereNumber子任務(wù)為例進(jìn)行說明。這個子任務(wù)是二分類模型,可選值為1或2,而是否有Where子句由emptycolumn指定。此子任務(wù)增加一層MLP層。其余子任務(wù)由不同的公式加上神經(jīng)網(wǎng)絡(luò)參數(shù)計算。所有輸出層的損失函數(shù)都是交叉熵?fù)p失函數(shù)。
這些子任務(wù)并不是每個獨(dú)立進(jìn)行訓(xùn)練,在每一個batchsize里,所有子任務(wù)按順序依次正向傳播,然后計算損失函數(shù),按照梯度下降原理,進(jìn)行整體反向傳播,更新參數(shù),使整體損失函數(shù)值最低。
4.執(zhí)行引導(dǎo)模塊
執(zhí)行引導(dǎo)模塊參考/abs/1807.03100直接進(jìn)行增強(qiáng),可有效提升執(zhí)行準(zhǔn)確率2%左右。
SQL增強(qiáng)模塊
SQL增強(qiáng)模塊在把生成的SQL送到數(shù)據(jù)庫之前,進(jìn)行調(diào)整如下:
●對于表中的類別型列數(shù)據(jù),需要將生成的列值與數(shù)據(jù)庫里的此列的類別值進(jìn)行相似度匹配,以替換成正確值。例如解析后的WhereValue為“黃蜂”,而數(shù)據(jù)庫里的數(shù)據(jù)為“大黃蜂”,則修改為“大黃蜂”。
●如果兩個Where子句的列名相同,要檢查兩個WhereValue是否相同,相同的話將其中一個替換為相似度最高的另一個值。
●如果WhereValue里包含中文“和”字,則拆成兩個值
●如果問題中有中文“或
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年全球電子廢棄物回收與處理合作協(xié)議
- 2025年時尚健身會館會員卡服務(wù)策劃合同
- 2025年代理銷售策劃雙方合同樣本
- 2025年農(nóng)村集體資產(chǎn)出租策劃統(tǒng)一合同模板
- 2025年醫(yī)療器械產(chǎn)品技術(shù)協(xié)助協(xié)議
- 2025年短視頻制作與授權(quán)合同示例
- 2025年物資處置策劃協(xié)議
- 股東權(quán)益明確簡易轉(zhuǎn)讓協(xié)議
- 2025年農(nóng)村信用社農(nóng)戶種植貸款策劃合同協(xié)議
- 2025年雙邊設(shè)備購買合同示例
- 考古繪圖基礎(chǔ)
- GB/T 32574-2016抽水蓄能電站檢修導(dǎo)則
- 《社會主義市場經(jīng)濟(jì)理論(第三版)》第十三章社會主義市場經(jīng)濟(jì)標(biāo)準(zhǔn)論
- 變更索賠案例分析
- 過敏性休克的急救及處理流程教材課件(28張)
- 《花婆婆》兒童繪本故事
- DB44∕T 2149-2018 森林資源規(guī)劃設(shè)計調(diào)查技術(shù)規(guī)程
- 數(shù)據(jù)結(jié)構(gòu)英文教學(xué)課件:chapter10 Hashing
- 機(jī)動車牌證申請表格模板(完整版)
- 部編版小學(xué)語文三年級(下冊)學(xué)期課程綱要
- 《國家電網(wǎng)公司十八項(xiàng)電網(wǎng)反事故措施(試行)》實(shí)施細(xì)則
評論
0/150
提交評論