研究生開題報告-基于圖神經(jīng)網(wǎng)絡(luò)的text-to-sql研究_第1頁
研究生開題報告-基于圖神經(jīng)網(wǎng)絡(luò)的text-to-sql研究_第2頁
研究生開題報告-基于圖神經(jīng)網(wǎng)絡(luò)的text-to-sql研究_第3頁
研究生開題報告-基于圖神經(jīng)網(wǎng)絡(luò)的text-to-sql研究_第4頁
研究生開題報告-基于圖神經(jīng)網(wǎng)絡(luò)的text-to-sql研究_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

碩士研究生學(xué)位論文選題報告學(xué)號:姓名:導(dǎo)師:論文題目:基于圖神經(jīng)網(wǎng)絡(luò)的text-to-sql分析與研究學(xué)科專業(yè):軟件工程學(xué)院:軟件學(xué)院填寫時間:2020年06月24日

論文題目:基于relation-awareself-attention機制的text-to-sql分析與研究論文類型:(1)基礎(chǔ)研究;(2)應(yīng)用基礎(chǔ)研究;(3)應(yīng)用研究;(4)其它課題來源:(1)縱向課題;(2)橫向課題;(3)自選課題;(4)其它一、選題的科學(xué)依據(jù)(1、選題背景;2、理論意義和應(yīng)用價值;3、國內(nèi)外研究現(xiàn)狀及發(fā)展趨勢。附主要參考文獻)1、選題背景當(dāng)前,大量信息存儲在結(jié)構(gòu)化和半結(jié)構(gòu)化知識庫中,如數(shù)據(jù)庫。對于這類數(shù)據(jù)的分析和獲取需要通過SQL等編程語言與數(shù)據(jù)庫進行交互操作,SQL的使用難度限制了非技術(shù)用戶,給數(shù)據(jù)分析和使用帶來了較高的門檻。人們迫切需要技術(shù)或工具完成自然語言與數(shù)據(jù)庫的交互,因此誕生了Text-to-SQL任務(wù)。。2、理論價值和應(yīng)用價值在現(xiàn)實生活中,有許許多多的數(shù)據(jù)庫,存儲著各行各業(yè)的信息,比如學(xué)校的選課信息、成績信息,公司的賬務(wù)信息、人員流動。SQL是一種數(shù)據(jù)庫查詢語言,具有極大的靈活性和強大的功能,然而對于普通人來說,SQL學(xué)習(xí)門檻比較高。即使對于計算機從業(yè)者來說,想要針對不同的數(shù)據(jù)庫和應(yīng)用場景,編寫大量的并保證正確率的SQL語句,也比較麻煩。如果我們能夠有一個工具,自動地把我們的描述轉(zhuǎn)化為SQL查詢語句,再交給計算機去執(zhí)行,就能方便地對數(shù)據(jù)庫進行查詢,那就大大提高了我們的生活和工作效率。Text-to-SQL就是這樣一項轉(zhuǎn)化自然語言描述為SQL查詢語句的技術(shù)。舉個例子:當(dāng)我們詢問智能助手“賈樟柯導(dǎo)演是在哪出生的?。俊?,Text-to-SQL模型就會先根據(jù)問句解析出SQL語句“SELECTbirth_cityFROMdirectorWHEREname="賈樟柯"”,再對數(shù)據(jù)庫執(zhí)行該命令,最后向用戶返回查詢結(jié)果“山西省汾陽市”。目前這個研究問題引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,有著很多的比賽和標(biāo)注數(shù)據(jù)集,其中比較有名的,包括有關(guān)機票訂閱的ATIS數(shù)據(jù)集、有關(guān)地理信息查詢的GeoQuery、基于維基百科的WikiSQL以及目前最復(fù)雜的多領(lǐng)域數(shù)據(jù)集Spider。在中文Text-to-SQL任務(wù)方面,西湖大學(xué)日前公布了CSpider數(shù)據(jù)集,追一科技在天池數(shù)據(jù)平臺舉行了第一屆中文text2sql挑戰(zhàn)賽。在這里,我們給出Text-to-SQL任務(wù)一個相對正式的定義:在給定關(guān)系型數(shù)據(jù)庫(或表)的前提下,由用戶的提問生成相應(yīng)的SQL查詢語句。下圖是一個具體的實例,問題為:有哪些系的教員平均工資高于總體平均值,請返回這些系的名字以及他們的平均工資值??梢钥吹皆搯栴}對應(yīng)的SQL語句是很復(fù)雜的,并且有嵌套關(guān)系。3、國內(nèi)外研究現(xiàn)狀及發(fā)展趨勢SyntaxSQLNet(Yuetal.,2018):第一個針對Spider任務(wù)設(shè)計的模型。在decoder階段,生成一棵對應(yīng)SQL語言特點的語法樹。RCSQL(Lee,2019):針對不同的SQL語句來創(chuàng)建decoder;使用seq2seq而不是seq2set的方法進行列名預(yù)測;使用循環(huán)遞歸的方法來生成子查詢。GNN(Boginetal.,2019):將關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)用圖神經(jīng)網(wǎng)絡(luò)表示,以此來提升數(shù)據(jù)庫信息的利用效率。并將GNN結(jié)構(gòu)用于輔助后續(xù)的編碼和解碼過程。IRNet(GuoandZhanetal.,2019):分三個階段進行,首先,將所提問題和數(shù)據(jù)庫的關(guān)系結(jié)構(gòu)做schemalinking。然后,用基于語法規(guī)則的神經(jīng)網(wǎng)絡(luò)構(gòu)造一個SemQLquery。最后,基于SemQL構(gòu)造不同場景下的SQLquery。4、參考文獻[1].BenBogin,JonathanBerant,andMattGardner.2019a.Representingschemastructurewithgraphneuralnetworksfortext-to-SQLparsing.InProceedingsofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics,pages4560–4565.[2].GinoBrunner,YangLiu,DamianPascual,OliverRichter,MassimilianoCiaramita,andRogerWattenhofer.2020.Onidenti?abilityinTransformers.InInternationalConferenceonLearningRepresentations.[3].TianzeShi,KedarTatwawadi,KaushikChakrabarti,YiMao,OleksandrPolozov,andWeizhuChen.2018.IncSQL:TrainingIncrementalText-to-SQLParserswithNon-DeterministicOracles.arXiv:1809.05054[cs].[4].AshishVaswani,NoamShazeer,NikiParmar,JakobUszkoreit,LlionJones,AidanNGomez,?ukaszKaiser,andIlliaPolosukhin.2017.AttentionisAllyouNeed.InAdvancesinNeuralInformationProcessingSystems30,pages5998–6008.[5].TaoYu,MichihiroYasunaga,KaiYang,RuiZhang,DongxuWang,ZifanLi,andDragomirRadev.2018a.SyntaxSQLNet:SyntaxTreeNetworksforComplexandCross-DomainText-to-SQLTask.InProceedingsofthe2018ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,pages1653–1663.[6].TaoYu,RuiZhang,KaiYang,MichihiroYasunaga,DongxuWang,ZifanLi,JamesMa,IreneLi,QingningYao,ShanelleRoman,ZilinZhang,andDragomirRadev.2018b.Spider:ALarge-ScaleHuman-LabeledDatasetforComplexandCrossDomainSemanticParsingandText-to-SQLTask.InProceedingsofthe2018ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,pages3911–3921.二、主要研究內(nèi)容和方案1、圖構(gòu)建為了更好的利用關(guān)系型數(shù)據(jù)庫的結(jié)構(gòu)信息,使用圖網(wǎng)絡(luò)來建模表格名和列名。如下圖所示:圓圈加粗的結(jié)點代表表格,不加粗的結(jié)點代表列名;雙向邊代表表格和列名的從屬關(guān)系;紅虛邊和藍(lán)虛邊代表主外鍵關(guān)系。橙色節(jié)點代表與問題有關(guān)的結(jié)果,淡色為無關(guān)。2、全局信息重排例如:我們不知道name到底指向的是singer還是song,但是我們可以觀察到nation只在singer中出現(xiàn),所以應(yīng)該是。這樣做globalreasoning,就能減小歧義性。3、構(gòu)建GNN模型三、研究計劃及預(yù)期進展時間研究內(nèi)容預(yù)期效果2020.7-2020.82020.8-2020.92020.9-2020.9.302020.10-2020.122021.1-2021.3閱讀文獻,初定想法設(shè)計實驗,并完成實驗撰寫小論文,投稿優(yōu)化算法,反復(fù)測試,觀察實驗結(jié)果整理工作,論文撰寫了解相關(guān)技術(shù),確定研究課題了解已實現(xiàn)算法,并思考優(yōu)化方案論文投稿優(yōu)化出性能較高的負(fù)載均衡算法完成畢業(yè)論文四、指導(dǎo)教師意見簽名:日期:年月日五、選題報告會記錄(著重記錄評審專家的質(zhì)疑問題與研究生的回答要點,以及專家對選題的具體修改意見)六、論文選題評價結(jié)果(請評審專家

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論