




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
導(dǎo)論01-11月-221自然語言處理工具目錄自然語言處理概述2NLP的開發(fā)環(huán)境3自然語言處理(NaturalLanguageProcessing,NLP)是指利用計(jì)算機(jī)對(duì)自然語言的形、音、義等信息進(jìn)行處理,即對(duì)字、詞、句、篇章的輸入、輸出、識(shí)別、分析、理解、生成等進(jìn)行操作和加工的過程。NLP是計(jì)算機(jī)科學(xué)領(lǐng)域以及人工智能領(lǐng)域的一個(gè)重要的研究方向,是一門融語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)于一體的科學(xué)。NLP的具體表現(xiàn)形式包括機(jī)器翻譯、文本摘要、文本分類、文本校對(duì)、信息抽取、語音合成、語音識(shí)別等。NLP機(jī)制涉及兩個(gè)流程,自然語言理解和自然語言生成。自然語言理解研究的是計(jì)算機(jī)如何理解自然語言文本中包含的意義。自然語言生成研究的是計(jì)算機(jī)如何生成自然語言文本表達(dá)給定的意圖、思想等。因?yàn)镹LP的目的是為了讓計(jì)算機(jī)“理解”自然語言,所以NLP有時(shí)又被稱為自然語言理解(NaturalLanguageUnderstanding,NLU)。自然語言處理概述1946年世界上第一臺(tái)計(jì)算機(jī)誕生時(shí),英國人布思(A.D.Booth)和美國人韋弗(W.Weaver)就提出了利用計(jì)算機(jī)進(jìn)行機(jī)器翻譯。從這個(gè)時(shí)間點(diǎn)開始算起,NLP技術(shù)已經(jīng)歷70多年的發(fā)展歷程。NLP的整個(gè)發(fā)展歷程歸納為3個(gè)歷史階段。“萌芽期”“發(fā)展期”“繁榮期”發(fā)展歷程二十世紀(jì)40年代到50年代之間,除了當(dāng)時(shí)給世界帶來極大震撼的計(jì)算機(jī)技術(shù)外,在美國還有兩個(gè)人在進(jìn)行著重要的研究工作。其中一位是喬姆斯基,他的主要工作為對(duì)形式語言的研究,另一位是香農(nóng),他的主要工作是基于概率和信息論模型的研究。香農(nóng)的信息論在概率統(tǒng)計(jì)的基礎(chǔ)上對(duì)語言和計(jì)算機(jī)語言進(jìn)行研究。1956年,喬姆斯基提出了上下文無關(guān)語法,并將它運(yùn)用到NLP中。他們的工作直接引起了基于規(guī)則和基于概率這兩種不同的NLP技術(shù)的產(chǎn)生。而這兩種不同的NLP方法,又引發(fā)了數(shù)十年有關(guān)基于規(guī)則方法和基于概率方法孰優(yōu)孰劣的爭執(zhí)。發(fā)展歷程1.萌芽期(1956年以前)二十世紀(jì)60年代,法國格勒諾布爾理工大學(xué)的著名數(shù)學(xué)家沃古瓦開始了自動(dòng)翻譯系統(tǒng)的研制。在這一時(shí)期,不同的國家和組織對(duì)機(jī)器翻譯都投入了大量的人力,物力和財(cái)力。人類歷史上第一次可以通過計(jì)算機(jī)技術(shù)嘗試打通不同語言之間隔閡,大部分人對(duì)此抱著很大的希望與憧憬。然而在機(jī)器翻譯系統(tǒng)的研制過程中,遇到了各種各樣的問題,并且這些問題的復(fù)雜度遠(yuǎn)遠(yuǎn)超過了原來的預(yù)期。為了解決這些問題,產(chǎn)生了各種各樣的模型和解決方案。雖然最后的結(jié)果并不是都盡如人意,但是卻為后來的各個(gè)相關(guān)分支領(lǐng)域的發(fā)展奠定了基礎(chǔ),如統(tǒng)計(jì)學(xué)、邏輯學(xué)、語言學(xué)等。發(fā)展歷程2.發(fā)展期(1980年~1999年)90年代后,在計(jì)算機(jī)技術(shù)的快速發(fā)展下,基于統(tǒng)計(jì)的NLP取得了相當(dāng)程度的成果,開始在不同的領(lǐng)域里大放異彩。如在機(jī)器翻譯領(lǐng)域,由于引入了許多基于語料庫的方法,因此率先取得了突破。1990年,第13屆計(jì)算機(jī)語言學(xué)會(huì)的主題是“處理大規(guī)模真實(shí)文本的理論、方法與工具”,研究的重心開始轉(zhuǎn)向大規(guī)模真實(shí)文本,傳統(tǒng)的基于語言規(guī)則的NLP開始顯得力不從心。20世紀(jì)90年代中期,有兩件事促進(jìn)了NLP研究的復(fù)蘇與發(fā)展。一件事是計(jì)算機(jī)的運(yùn)行速度和存儲(chǔ)量大幅增加,為NLP改善了物質(zhì)基礎(chǔ),使得語音、語言處理的商品化開發(fā)成為可能;另一件事是1994年萬維網(wǎng)協(xié)會(huì)成立,在互聯(lián)網(wǎng)的沖擊下,產(chǎn)生了很多原來沒有的計(jì)算模型,大數(shù)據(jù)和各種統(tǒng)計(jì)模型應(yīng)運(yùn)而生。這段時(shí)間,在大數(shù)據(jù)和概率統(tǒng)計(jì)模型的影響下,NLP得到了飛速的發(fā)展。發(fā)展歷程21世紀(jì)之后,一大批互聯(lián)網(wǎng)公司的產(chǎn)生對(duì)NLP的發(fā)展起到了不同的推動(dòng)作用。如早期的雅虎搜索,后來的谷歌,中國的百度以及大量的基于萬維網(wǎng)的應(yīng)用和各種社交工具,在不同的方面促進(jìn)了NLP的發(fā)展進(jìn)步。在這個(gè)過程中,各種數(shù)學(xué)算法和計(jì)算模型越來越顯示重要性。最近剛興起不久的機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等技術(shù),都在不斷的消除人與機(jī)器之間交流的限制。特別是深度學(xué)習(xí)技術(shù)將會(huì)在NLP領(lǐng)域發(fā)揮越來越重要的作用。也許在不久的將來,在互聯(lián)網(wǎng)的基礎(chǔ)上,現(xiàn)今NLP中遇到的問題將不再是問題。不同語言的人們可以暢通無阻地溝通交流,人與機(jī)器之間的溝通也可以沒有阻礙。發(fā)展歷程3.繁榮期(2000年至今)NLP研究內(nèi)容包括很多的分支領(lǐng)域,如文本分類、信息抽取、自動(dòng)摘要、智能問答、話題推薦、機(jī)器翻譯、主題詞識(shí)別、知識(shí)庫構(gòu)建、深度文本表示、命名實(shí)體識(shí)別、文本生成、文本分析(詞法、句法、語法)、語音識(shí)別與合成等。部分常見的NLP分支領(lǐng)域的簡介如下。(1)機(jī)器翻譯機(jī)器翻譯又稱為自動(dòng)翻譯,是利用計(jì)算機(jī)將一種自然語言轉(zhuǎn)換為另一種自然語言的過程。機(jī)器翻譯是計(jì)算語言學(xué)的一個(gè)分支,是人工智能的終極目標(biāo)之一,具有重要的科學(xué)研究價(jià)值。(2)信息檢索信息檢索又稱情報(bào)檢索,是利用計(jì)算機(jī)系統(tǒng)從海量文檔中找到符合用戶需要的相關(guān)信息。狹義的信息檢索僅指信息查詢,廣義的信息檢索是信息按一定的方式進(jìn)行加工、整理、組織并存儲(chǔ)起來,再根據(jù)信息用戶特定的需要將相關(guān)信息準(zhǔn)確的查找出來的過程。研究任務(wù)(3)文本分類文本分類又稱文檔分類或信息分類,其目的是利用計(jì)算機(jī)系統(tǒng)對(duì)大量的文檔按照一定的標(biāo)準(zhǔn)進(jìn)行分類。文本分類技術(shù)擁有廣泛的用途,公司可以利用該技術(shù)了解用戶對(duì)產(chǎn)品的評(píng)價(jià),政府部門也可以通過分析網(wǎng)民對(duì)某一事件、政策法規(guī)或社會(huì)現(xiàn)象的評(píng)論,實(shí)時(shí)了解百姓的態(tài)度。(4)智能問答智能問答是指問答系統(tǒng)能以一問一答的形式,正確回答用戶提出的問題。智能問答可以精確的定位用戶所提問知識(shí),通過與用戶進(jìn)行交互,為用戶提供個(gè)性化的信息服務(wù)。(5)信息過濾信息過濾是指信息過濾系統(tǒng)對(duì)網(wǎng)站信息發(fā)布、公眾信息公開申請(qǐng)和網(wǎng)站留言等內(nèi)容實(shí)現(xiàn)提交時(shí)的自動(dòng)過濾處理。如發(fā)現(xiàn)謾罵、誹謗等非法言論或有害信息時(shí)可以實(shí)現(xiàn)自動(dòng)過濾,并給用戶友好的提示,同時(shí)向管理員提交報(bào)告。信息過濾技術(shù)目前主要用于信息安全防護(hù)、網(wǎng)絡(luò)內(nèi)容管理等。研究任務(wù)(6)自動(dòng)文摘文摘是指能夠全面準(zhǔn)確地反映某一文獻(xiàn)中心內(nèi)容的簡單連貫的短文,自動(dòng)文摘就是利用計(jì)算機(jī)自動(dòng)地從原始文獻(xiàn)中提取文摘,自動(dòng)文摘是NLP研究內(nèi)容之一?;ヂ?lián)網(wǎng)每天產(chǎn)生大量的文本數(shù)據(jù),文摘是文本的主要內(nèi)容,用戶想查詢和了解關(guān)注的話題需要花費(fèi)大量時(shí)間和精力進(jìn)行選擇和閱讀,單靠人工進(jìn)行文摘是很難實(shí)現(xiàn)的。為了應(yīng)對(duì)這種狀況,學(xué)術(shù)界嘗試使用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)對(duì)文獻(xiàn)的自動(dòng)處理。自動(dòng)文摘主要應(yīng)用于Web搜索引擎、問答系統(tǒng)的知識(shí)融合和輿情監(jiān)督系統(tǒng)的熱點(diǎn)和專題追蹤。(7)信息抽取信息抽取,是指從文本中抽取出特定的事件或事實(shí)信息。例如,從時(shí)事新聞報(bào)道中抽取出某一恐怖事件的基本信息,如時(shí)間、地點(diǎn)、事件制造者、受害人、襲擊目標(biāo)、傷亡人數(shù)等。信息抽取與信息檢索有著密切的關(guān)系,信息抽取系統(tǒng)通常以信息檢索系統(tǒng)的輸出作為輸入,并且信息抽取技術(shù)可以用于提高信息檢索的性能。研究任務(wù)(8)輿情分析輿情分析是指根據(jù)特定問題的需要,對(duì)輿情進(jìn)行深層次的思維加工和分析研究,得到相關(guān)結(jié)論的過程。網(wǎng)絡(luò)環(huán)境下輿情信息的主要來源有新聞評(píng)論、網(wǎng)絡(luò)論壇、聊天室、博客、新浪微博、聚合新聞和QQ等社交網(wǎng)站。由于網(wǎng)上的信息量十分巨大,僅僅依靠人工的方法難以應(yīng)對(duì)海量信息的收集和處理,需要加強(qiáng)相關(guān)信息技術(shù)的研究,形成一套自動(dòng)化的網(wǎng)絡(luò)輿情分析系統(tǒng),及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)輿情,由被動(dòng)防堵變?yōu)橹鲃?dòng)梳理、引導(dǎo)。輿情分析是一項(xiàng)十分復(fù)雜、涉及問題眾多的綜合性技術(shù),同時(shí)也涉及網(wǎng)絡(luò)文本挖掘、觀點(diǎn)挖掘等各方面的問題。研究任務(wù)(9)語音識(shí)別語音識(shí)別又稱自動(dòng)語音識(shí)別,是指對(duì)輸入計(jì)算機(jī)的語音信號(hào)進(jìn)行識(shí)別并轉(zhuǎn)換成書面語言表示出來。語音識(shí)別技術(shù)所涉及的領(lǐng)域眾多,其中包括信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等。(10)自動(dòng)校對(duì)自動(dòng)校對(duì)是對(duì)文字拼寫、用詞、語法或文檔格式等進(jìn)行自動(dòng)檢查、校對(duì)和編排的過程。電子信息的形成可通過多種途徑,最通常的方法是用鍵盤輸入,因而不免會(huì)造成一些輸入錯(cuò)誤,由此產(chǎn)生了利用計(jì)算機(jī)進(jìn)行文本自動(dòng)校對(duì)的研究。自動(dòng)校對(duì)系統(tǒng)可應(yīng)用于報(bào)刊、出版社、打字業(yè)等需要進(jìn)行文本校對(duì)的行業(yè)。研究任務(wù)眾所周知,新聞包括于傳播之中,而傳播是更為廣義的概念,除了新聞之外還有廣告、公關(guān)、傳播心理等等方面。新聞行業(yè)是從公元十五、六世紀(jì)地中海沿岸的“手抄小報(bào)”正式形成的,而傳播的發(fā)展則伴隨了整個(gè)人類歷史。所以我們說,新聞僅僅是傳播的一類。在新聞工作和日常生活中,存在著并行不悖的兩種新聞定義。一是新聞是新近發(fā)生事實(shí)的報(bào)道。二是新聞是新近事實(shí)變動(dòng)的信息。這兩個(gè)定義的共同點(diǎn)是:它們都概括或反映了新聞的“真”和“新”這兩個(gè)基本特點(diǎn)。兩者區(qū)別在于,一個(gè)指新聞是報(bào)道;一個(gè)指新聞是信息。自然語言處理與新聞傳媒1.新聞傳播的定義(側(cè)重從信息的角度)新聞是報(bào)道,表達(dá)了新聞的形式。新聞是信息,表達(dá)了新聞的實(shí)質(zhì)。兩者對(duì)于新聞而言,互為表里,在不同場合各有不同的內(nèi)涵。人們從事新聞活動(dòng),無論是口頭的、書信的,還是讀報(bào)、聽廣播、看電視、上網(wǎng)絡(luò),根本目的還在于獲取外界變動(dòng)的信息。信息是整個(gè)新聞活動(dòng)的一根主軸,它能夠而且必須消除人們的隨機(jī)不確定性,必然包含新的情況、新的知識(shí)、新的內(nèi)容。自然語言處理研究主要是圍繞實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效信息傳播的各種理論和方法,主要面向有效信息傳播對(duì)新聞中語言進(jìn)行信息處理。從這個(gè)角度看,新聞媒介必須致力于消除讀者的不確定性,一切宣傳功能必須建立在提供信息的基礎(chǔ)上。如果新聞不能提供足夠的事實(shí)來消除讀者不確定性,而是首先考慮如何教育讀者,向讀者灌輸某一種思想,那么,不但新聞失敗,宣傳也失敗。自然語言處理與新聞傳媒新聞與生俱來的基本特點(diǎn)是真實(shí)和新鮮,由此延伸出新聞傳播應(yīng)迅速及時(shí)。在現(xiàn)代社會(huì),新聞?wù)鎸?shí)、迅速的要求決定了新聞的工作方向,塑造了新聞媒介的品格,決定了媒介的形式和技術(shù)的采用。人類社會(huì)的新聞傳播工作經(jīng)歷了口頭新聞、書信新聞、新聞書、新聞周刊、日?qǐng)?bào)、電臺(tái)、電視臺(tái)再到網(wǎng)絡(luò)、多媒體這樣一個(gè)演變過程,也可以說是從人體器官到印刷媒介再到電子媒體的過程。人類對(duì)傳播工具的選擇歸根到底是由新聞的特性所決定的,“適者生存”這一進(jìn)化論觀點(diǎn)恰好也是新聞選擇傳播工具演進(jìn)過程的描述。一切適合新聞特定的傳播工具都可以被人們采用,并且經(jīng)久不衰。新聞傳播與自然語言有著千絲萬縷的聯(lián)系。隨著自然語言處理各個(gè)分支技術(shù)的發(fā)展,自然語言處理開始在潛移默化中不斷改變新聞傳播行業(yè)整體生態(tài)的發(fā)展。自然語言處理與新聞傳媒近年來,自然語言處理技術(shù)得到了以計(jì)算機(jī)科學(xué)為代表的自然科學(xué)領(lǐng)域到社會(huì)科學(xué)領(lǐng)域的廣泛關(guān)注,并且在新聞理解、新聞傳播、輿論管理、觀點(diǎn)分析等社會(huì)傳播學(xué)問題中展示了不容忽視的價(jià)值,二者的融合研究正成為新的趨勢(shì)。一方面,自然語言處理技術(shù)能迅速處理社交媒體中的海量內(nèi)容和知識(shí),加速傳播學(xué)的研究進(jìn)展,所生成的知識(shí)圖譜也能被用于提升自然語言處理技術(shù)的推理能力。另一方面,自然語言處理能夠輔助治理互聯(lián)網(wǎng)中的傳播亂象,避免謠言、攻擊性話語的泛濫,促進(jìn)正向傳播。隨著二者結(jié)合的深入,新聞傳播領(lǐng)域的大量非規(guī)范文本和精細(xì)化知識(shí)對(duì)自然語言處理技術(shù)提出了越來越高的要求,傳播學(xué)領(lǐng)域相對(duì)完善的理論框架也為自然語言處理突破常規(guī)應(yīng)用帶來了機(jī)遇。自然語言處理與新聞傳媒2.自然語言處理技術(shù)和新聞傳播的相互影響受信息全球化趨勢(shì)的影響,以電視、報(bào)紙、廣播、雜志為代表的傳統(tǒng)媒介所壟斷的信息發(fā)布渠道正在被顛覆,以互聯(lián)網(wǎng)為媒介的新聞傳播突破了時(shí)間和空間的限制,已經(jīng)成為傳播學(xué)領(lǐng)域的新趨勢(shì)。媒體內(nèi)容生產(chǎn)從傳統(tǒng)的“報(bào)道式新聞”演變?yōu)樾滦汀敖换ナ叫侣劇?,官方媒體報(bào)道轉(zhuǎn)變?yōu)閺V泛參與的公民報(bào)道,并由此產(chǎn)生了海量的網(wǎng)絡(luò)傳播數(shù)據(jù)。海量數(shù)據(jù)帶來的影響具有兩面性。一方面,公民在網(wǎng)絡(luò)空間的觀點(diǎn)表達(dá)和信息分享,創(chuàng)造了新的知識(shí)、內(nèi)容、觀點(diǎn)、意見等,人們可以從多個(gè)視角解讀社會(huì)事件。另一方面,網(wǎng)絡(luò)空間中的數(shù)據(jù)充斥著與事件不相關(guān)的噪音和大量同質(zhì)化的冗余信息,對(duì)新聞傳播提出了如下新挑戰(zhàn)。自然語言處理與新聞傳媒(1)如何高效收集、整合數(shù)據(jù),并進(jìn)行信息的提取與利用。當(dāng)前網(wǎng)絡(luò)數(shù)據(jù)渠道主要為門戶網(wǎng)站的新聞、搜索引擎的檢索結(jié)果、問答社區(qū)的討論、微博互動(dòng)等。平臺(tái)的多樣性使得成員構(gòu)成、交流形式、討論深度等各不相同,數(shù)據(jù)形式涵蓋文字、圖片、表情、視頻等多種格式。面對(duì)海量數(shù)據(jù),人工方式很難進(jìn)行處理,需要借助自動(dòng)化工具來實(shí)現(xiàn)新聞主題提取、內(nèi)容理解、體裁歸類等工作。自然語言處理技術(shù)能夠?qū)崿F(xiàn)異構(gòu)數(shù)據(jù)的迅速整合、關(guān)鍵信息的提取及熱點(diǎn)追蹤等,輔助研究人員進(jìn)行高效的文本分析和內(nèi)容理解。因此,熟悉各種自然語言處理工具正逐漸成為新聞傳播學(xué)研究者的必備技能。自然語言處理與新聞傳媒(2)如何對(duì)清洗后的數(shù)據(jù)進(jìn)行深層次分析,以發(fā)現(xiàn)同類事件的共性規(guī)律和差異化特征,深入解剖參與者的群體和個(gè)體特征。新聞傳播的根本目的是透過表面的內(nèi)容看到事件的深層次動(dòng)機(jī)、目的、發(fā)展規(guī)律,更好地解釋社會(huì)生活中的自我、他人及世界的關(guān)系。其所涉及的學(xué)科門派眾多,不同理論框架對(duì)問題的解釋不同,得出的結(jié)論也不盡相同,需要從數(shù)據(jù)中找出群體思維演變規(guī)律,亦或找出關(guān)系內(nèi)部沖突以及關(guān)系外部群體沖突來解釋事件演變規(guī)律。自然語言處理技術(shù)的發(fā)展以及語料庫的豐富程度已經(jīng)能夠解決上述問題的一些子問題,如內(nèi)容分類、觀點(diǎn)凝練、情感分析等,但其還無法滿足更為系統(tǒng)和深入的智能化傳播分析的要求。這就對(duì)自然語言處理技術(shù)與傳播學(xué)理論的深度融合提出了要求。自然語言處理與新聞傳媒在新聞傳播領(lǐng)域,自然語言處理過去的貢獻(xiàn)集中在內(nèi)容分類、文本摘要、主題模型、上下文提取、情感分析、文本-語音轉(zhuǎn)換、機(jī)器翻譯等,主要應(yīng)用形式也多種多樣,進(jìn)展也多有不同。(1)假新聞檢測(cè)假新聞是指社交媒體中錯(cuò)誤的、誤導(dǎo)讀者的或未經(jīng)證實(shí)的新聞消息。假新聞檢測(cè)旨在通過人工智能技術(shù)來核查新聞報(bào)道,識(shí)別社會(huì)欺詐與虛假信息。從2016年美國選舉開始,假新聞檢測(cè)突然得到了廣泛的關(guān)注,正成為近幾年新聞傳播和自然語言處理領(lǐng)域的熱點(diǎn)議題。自然語言處理與新聞傳媒3.新聞傳播領(lǐng)域前沿自然語言處理的技術(shù)應(yīng)用常見的4類假新聞分別為:“惡作劇型”、“誘導(dǎo)點(diǎn)擊型”、“廣告宣傳型”、“諷刺型”。假新聞檢測(cè)的原始數(shù)據(jù)主要從開放式的在線社交媒體獲取,隨后通過假新聞在線校驗(yàn)網(wǎng)進(jìn)行評(píng)分,得到新聞的可信度和對(duì)應(yīng)標(biāo)簽。還通過消息源的口碑,為其發(fā)布的新聞貼上對(duì)應(yīng)標(biāo)簽。例如,政府網(wǎng)站、公認(rèn)的權(quán)威媒體發(fā)布的新聞可默認(rèn)為“真實(shí)”,辟謠網(wǎng)站鑒定的謠言、臭名昭著的媒體渠道發(fā)布的文章則默認(rèn)為“虛假”。當(dāng)前主流的假新聞檢測(cè)技術(shù)可分為4類:基于機(jī)器學(xué)習(xí)的檢測(cè)技術(shù)、基于深度學(xué)習(xí)的檢測(cè)技術(shù)、基于自然語言處理的檢測(cè)技術(shù)、基于圖理論和數(shù)據(jù)挖掘的檢測(cè)技術(shù)。這4類技術(shù)常常共現(xiàn)于同一模型中,例如語言注入的神經(jīng)網(wǎng)絡(luò)模型、基于圖理論的深度馬爾可夫鏈推理模型、基于自然語言處理的語義信息和用戶行為的雙層卷積神經(jīng)網(wǎng)絡(luò)模型等。針對(duì)謠言識(shí)別任務(wù),假新聞傳播檢測(cè)一般分為4項(xiàng)途徑,即新話題檢測(cè)、話題追蹤、用戶立場檢測(cè)、話題類別判斷等。自然語言處理與新聞傳媒在假新聞檢測(cè)方面,特別是中文假新聞檢測(cè)方面,技術(shù)發(fā)展相對(duì)充分,在研究題多樣性和數(shù)據(jù)集方面仍有提升空間。目前主要存在以下問題。一是中文假新聞檢測(cè)的研究內(nèi)容還局限于“謠言”,而對(duì)“半真半假”“標(biāo)題和內(nèi)容不一致”“事實(shí)錯(cuò)位”“諷刺性文章”等復(fù)雜情況的檢測(cè)研究相對(duì)較少;二是中文研究數(shù)據(jù)主要來自于微博,且受隱私保護(hù)影響,多數(shù)不予公開,其他來源(如公眾號(hào)文章、時(shí)政評(píng)論、辟謠平臺(tái)文章)的中文數(shù)據(jù)也相對(duì)較少;三是中文假新聞檢測(cè)的平臺(tái)建設(shè)尚處于起步階段。雖然果殼網(wǎng)的謠言粉碎機(jī)、微信的自動(dòng)辟謠等功能值得稱贊,但前者的假新聞相對(duì)陳舊,無法及時(shí)發(fā)現(xiàn)并辟謠實(shí)時(shí)出現(xiàn)的假新聞;后者局限于微信平臺(tái)內(nèi)部文章的辟謠,無法識(shí)別和處理整個(gè)網(wǎng)絡(luò)中出現(xiàn)的假新聞。因此,為實(shí)現(xiàn)和諧的網(wǎng)絡(luò)傳播生態(tài),建立面向多源頭、多渠道的假新聞實(shí)時(shí)辟謠平臺(tái)仍任重道遠(yuǎn)。自然語言處理與新聞傳媒(2)常識(shí)推理常識(shí)推理是機(jī)器閱讀理解領(lǐng)域的熱門話題。從早期的文本傳播任務(wù)到需要全面了解公民日常生活與社會(huì)常識(shí)的任務(wù),越來越多的致力于從現(xiàn)有網(wǎng)絡(luò)數(shù)據(jù)中提取常識(shí)性知識(shí)。例如,共指性問題是自然語言理解中的一個(gè)難題,即文本中的多個(gè)指稱都指向同一個(gè)實(shí)體。共指消解過程極易受到數(shù)據(jù)偏差的困擾,即使借助語料庫或知識(shí)圖譜,這個(gè)問題仍難徹底解決。類似的難題還有職業(yè)名詞中的性別偏差。而加入常識(shí)性知識(shí),有助于消除共指問題中的歧義。近年來,計(jì)算機(jī)視覺、機(jī)器人學(xué)以及語言、視覺和機(jī)器人學(xué)之間的交叉等其他相關(guān)學(xué)科也取得了越來越多的成果,涌現(xiàn)了大量旨在通過不斷增長的基準(zhǔn)任務(wù)來解決常識(shí)推理活動(dòng)的研究。常識(shí)推理方法也從早期的符號(hào)和統(tǒng)計(jì)方法發(fā)展到基于深度神經(jīng)網(wǎng)絡(luò)的推理模型等。這些模型通常會(huì)增加外部數(shù)據(jù)或知識(shí)資源,如情感信息,并由此產(chǎn)生了許多知識(shí)庫。除了由領(lǐng)域?qū)<摇ordNet、眾包方式創(chuàng)建的知識(shí)庫外,通過自然語言處理自動(dòng)提取信息(如事實(shí)和關(guān)系)及建立知識(shí)圖譜正成為常識(shí)推理研究的熱門課題。自然語言處理與新聞傳媒(3)自動(dòng)化新聞數(shù)字新聞報(bào)道正在沖擊傳統(tǒng)新聞報(bào)道的地位,并由此帶來了三個(gè)方面的問題:一是如何自動(dòng)分析新聞結(jié)構(gòu)、主題及敘事規(guī)則(新聞理解);二是如何從海量數(shù)據(jù)中提取指定主題的新聞(新聞歸類和檢索);三是如何優(yōu)化自動(dòng)新聞寫作(新聞生成)。針對(duì)以上問題,Carlson等于2015年提出了“自動(dòng)化新聞(AutomatedJournalism)”的概念,探索了如何在無人為干擾的情況下,通過新聞話題的自動(dòng)檢索、分析、處理,自動(dòng)地生成新聞報(bào)道。由于語義是對(duì)數(shù)據(jù)對(duì)應(yīng)的現(xiàn)實(shí)世界中的事物所蘊(yùn)含意義的解釋,理解語義是發(fā)揮新聞數(shù)據(jù)功能的必要前提,因此自然語言語義分析成為了自動(dòng)化新聞研究中不可或缺的技術(shù)。此外,基于自然語言生成(NaturalLanguageGeneration,NLG)技術(shù),可進(jìn)一步建立自動(dòng)化新聞生成系統(tǒng)。自然語言處理與新聞傳媒在新聞理解的研究中,新聞主題提取是基礎(chǔ)問題,其研究相對(duì)成熟和豐富。最常用的主題模型是隱含狄利克雷分布與層次狄利克雷過程等?;谶@些模型,可構(gòu)建語義框架及事件名詞詞典,實(shí)現(xiàn)從文本信息中自動(dòng)提取新事件的主題。敘事規(guī)則分析和故事生成是自動(dòng)化新聞研究最具潛力的研究方向,然而目前的研究仍局限于用傳統(tǒng)的認(rèn)知語言學(xué)模型來分析新聞的敘事話語,或通過設(shè)計(jì)敘事原型數(shù)據(jù)庫來將新聞知識(shí)編碼為結(jié)構(gòu)化的敘事,自然語言處理技術(shù)的應(yīng)用研究相對(duì)稀缺。新聞?lì)}材自動(dòng)歸類是新聞檢索研究中的基礎(chǔ)課題。傳統(tǒng)的新聞?lì)}材歸類往往基于簡單的規(guī)則,如按主題聚類、按元素存檔、按作分類等。自然語言處理與新聞傳媒近年來,通過內(nèi)容組織結(jié)構(gòu)進(jìn)行歸類,并創(chuàng)建新聞結(jié)構(gòu)和敘事元素的數(shù)據(jù)集,有助于基于自然語言處理的新聞體裁自動(dòng)歸類。自然語言生成技術(shù)盡管在過去幾年發(fā)展迅速,但仍然不足以實(shí)現(xiàn)通用的、智能化的新聞生成系統(tǒng)。一方面,相對(duì)成熟的新聞自動(dòng)生成系統(tǒng)大多是服務(wù)于商業(yè)的或?yàn)樗饺斯舅?,具體架構(gòu)和操作并不對(duì)外開放,各系統(tǒng)之間存在技術(shù)屏障。另一方面,目前公開的自動(dòng)新聞生成系統(tǒng)高度依賴于規(guī)則和模板,并不智能化。此外,多數(shù)自然語言生成系統(tǒng)只有在結(jié)構(gòu)化數(shù)據(jù)充足、領(lǐng)域知識(shí)被充分理解的情況下才有效,這對(duì)知識(shí)數(shù)據(jù)庫的建立提出了較大的挑戰(zhàn)。自然語言處理與新聞傳媒(4)攻擊性話語界定社交媒體和交互式信息發(fā)布平臺(tái)為大眾表達(dá)不同觀點(diǎn)和態(tài)度提供了渠道,也為新聞發(fā)布者獲取公眾反饋提供了便利。然而,個(gè)人攻擊、網(wǎng)絡(luò)謾罵、種族主義、反社會(huì)言論等是新聞評(píng)論管理所面臨的突出問題。網(wǎng)絡(luò)上的攻擊性言論會(huì)對(duì)使用者的心理健康產(chǎn)生極為負(fù)面的影響,很多人因此停止使用互聯(lián)網(wǎng)的一些服務(wù)。快速檢測(cè)網(wǎng)絡(luò)上的攻擊性話語成為了社會(huì)傳播和自然語言處理的共同任務(wù),該任務(wù)主要面臨兩方面的挑戰(zhàn)。自然語言處理與新聞傳媒其一,網(wǎng)絡(luò)上對(duì)攻擊性話語的界定并不明晰。不同的網(wǎng)絡(luò)社區(qū)對(duì)所發(fā)布內(nèi)容的寬容度也有所不同。在社會(huì)科學(xué)研究領(lǐng)域,這類話語往往被稱為仇恨言論、褻瀆性語言或貶低性話語。對(duì)自然語言處理研究來說,常常將之看作一個(gè)包含不同類型的細(xì)粒度否定表達(dá)式的術(shù)語。如果僅通過表達(dá)方式確定其范圍,否定表達(dá)的篩選并不難,但對(duì)一些模棱兩可的隱喻和反諷的篩選就比較困難了。近期的研究顯示,融合個(gè)人屬性和社交網(wǎng)絡(luò)結(jié)構(gòu)開展研究能顯著提高判別水平。然而,如何有效區(qū)分一般語言與諷刺性/幽默性話語仍是待解決的問題。自然語言處理與新聞傳媒其二,隨著時(shí)間的推移和主題的轉(zhuǎn)移,會(huì)有新的攻擊性話語產(chǎn)生。原來的話語情境和主題性質(zhì)若發(fā)生變化,檢測(cè)方法學(xué)習(xí)的內(nèi)容特征將隨著時(shí)間的推移變得不相關(guān)。這一問題也存在于跨領(lǐng)域的攻擊性話語檢測(cè)中。跨領(lǐng)域檢測(cè)方案在對(duì)抗性多任務(wù)學(xué)習(xí)方法方面有一些實(shí)驗(yàn)性的成果。近年來,攻擊性話語數(shù)據(jù)集方面已經(jīng)有了很多的成果積累可用于分類模型的訓(xùn)練,如維基百科數(shù)據(jù)、推特?cái)?shù)據(jù)等,但如何選擇合適的數(shù)據(jù)集進(jìn)行分類器訓(xùn)練,以及如何收錄新出現(xiàn)的攻擊性話語,仍有待深入研究。自然語言處理與新聞傳媒(5)情感計(jì)算情感計(jì)算,也被稱為情緒感知、意見挖掘,主要探究人們對(duì)新聞報(bào)道、熱點(diǎn)話題、突發(fā)事件的情感傾向(積極、中性、消極等粗粒度劃分,或喜、怒、哀、樂等細(xì)粒度劃分),以及由此產(chǎn)生的對(duì)特定主題的態(tài)度(支持、觀望、反對(duì)等)。態(tài)度反映認(rèn)知,認(rèn)知決定行動(dòng),探究社會(huì)傳播中用戶的情感意見,對(duì)于預(yù)測(cè)輿情趨勢(shì)有著重要價(jià)值。隨著人工智能領(lǐng)域內(nèi)研究者們的持續(xù)探索,基于自然用語言處理的情感分析框架已經(jīng)日趨成熟,基本形成了兩個(gè)步驟。自然語言處理與新聞傳媒一是“自頂向下”的情感編碼技術(shù)。通過計(jì)算機(jī)的識(shí)別、理解及表達(dá)人的情感體驗(yàn),形成通用的或目標(biāo)主題適應(yīng)的情感字典。研究內(nèi)容包括人工標(biāo)注的情感字典、基于自然語言處理的個(gè)性化情感字典兩種類型。目前,國際應(yīng)用最廣泛的人工情感字典有HowNet知網(wǎng)情感詞典、臺(tái)灣大學(xué)簡體中文情感極性詞典(NYUSD)、英文詞典庫LIWC等。相比人工標(biāo)注詞典,基于自然語言處理的個(gè)性化情感字典能針對(duì)不同問題做出調(diào)整,更具研究價(jià)值。同時(shí),依賴于非文本信息的情感推理網(wǎng)絡(luò)成為了一種新的情感編碼方式,如用戶與文本鏈接關(guān)系、文本與文本鏈接關(guān)系、用戶互動(dòng)網(wǎng)絡(luò)、用戶社交網(wǎng)絡(luò)等。研究者繼而借助網(wǎng)絡(luò)聚類與推理算法界定單個(gè)文本的情感性質(zhì),隨后通過NLP技術(shù)輔助驗(yàn)證推理網(wǎng)絡(luò)的有效性。自然語言處理與新聞傳媒二是“自底向上”的情感推理技術(shù)。情感推理技術(shù)可分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)三種類型。三種分類技術(shù)都依賴于NLP生成文本情感特征。基于自然語言處理的情感計(jì)算已經(jīng)成為大數(shù)據(jù)時(shí)代新聞傳播學(xué)領(lǐng)域的重要研究工具,被廣泛應(yīng)用于政治、經(jīng)濟(jì)、社會(huì)問題的分析。它使得新聞事件中的發(fā)布者、傳播者、評(píng)論者的情感能夠得到精細(xì)化度量,輔助推動(dòng)新聞傳播學(xué)從經(jīng)驗(yàn)性分析過渡到實(shí)證性分析。未來,探索更為復(fù)雜的情感類別,并提升復(fù)雜類別下的情感劃分準(zhǔn)確度,是具有極大社會(huì)學(xué)意義的課題。自然語言處理與新聞傳媒雖然人工智能研究領(lǐng)域的自然語言處理研究已經(jīng)相對(duì)豐富,但其在社會(huì)傳播領(lǐng)域的應(yīng)用仍局限于文本分析、情感歸類、主題詞提取等基礎(chǔ)數(shù)據(jù)分析工作,兩個(gè)領(lǐng)域的結(jié)合只是基礎(chǔ)、外圍和淺層的。事實(shí)上,新聞傳播學(xué)作為研究新聞信息闡釋和互動(dòng)關(guān)系的學(xué)科,與自然語言處理一樣,都強(qiáng)調(diào)信息意義的建立和闡釋。因此,新聞傳播學(xué)領(lǐng)域眾多實(shí)證性或闡釋性理論分析框架,有助于拓寬自然語言處理的應(yīng)用領(lǐng)域,同時(shí)促進(jìn)理論本身的發(fā)展。自然語言處理與新聞傳媒1自然語言處理工具目錄自然語言處理概述2NLP的開發(fā)環(huán)境3NLP常用的處理工具包括編程語言和在線工具,包括R語言、Python、JAVA等多種編程語言,以及騰訊、哈工大、百度等多種在線工具,重點(diǎn)介紹Python常見的自然語言處理庫在自然語言處理中的應(yīng)用。(1)RR是用于統(tǒng)計(jì)分析、繪圖的語言和操作環(huán)境。R是屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開放的軟件,它是一個(gè)用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀工具。R在自然語言處理中的可以使用Snowball包對(duì)英文進(jìn)行詞干化處理,使用rmmseg4j包進(jìn)行中文分詞處理,以及使用tm包進(jìn)行文本挖掘處理等。常見的自然語言處理工具1.編程語言(2)PythonPython語言以其清晰簡潔的語法、易用和可擴(kuò)展性以及豐富龐大的庫深受廣大開發(fā)者喜愛。其內(nèi)置的非常強(qiáng)大的機(jī)器學(xué)習(xí)代碼庫和數(shù)學(xué)庫,使Python理所當(dāng)然成為NLP的開發(fā)工具。同時(shí)Python是開源且免費(fèi)的,這意味著開發(fā)人員不需要花費(fèi)資金即可進(jìn)行開發(fā)。(3)JavaJava是一門面向?qū)ο缶幊陶Z言,不僅吸收了C++語言的各種優(yōu)點(diǎn),還摒棄了C++里難以理解的多繼承、指針等概念,因此Java語言具有功能強(qiáng)大和簡單易用兩個(gè)特征。Java語言作為靜態(tài)面向?qū)ο缶幊陶Z言的代表,極好地實(shí)現(xiàn)了面向?qū)ο罄碚摚试S程序員以優(yōu)雅的思維方式進(jìn)行復(fù)雜的編程。LingPipe是一個(gè)自然語言處理的Java開源工具包。LingPipe目前已有很豐富的功能,包括主題分類、命名實(shí)體識(shí)別、詞性標(biāo)注、句題檢測(cè)、查詢拼寫檢查、興趣短語檢測(cè)、聚類、字符語言建模、醫(yī)學(xué)文獻(xiàn)下載/解析/索引、數(shù)據(jù)庫文本挖掘、中文分詞、情感分析、語言辨別等API。常見的自然語言處理工具(1)騰訊騰訊云自然語言處理,深度整合了騰訊內(nèi)部(包括AILab、信息安全團(tuán)隊(duì)和知文團(tuán)隊(duì)等)頂級(jí)的NLP前沿技術(shù),依托于海量中文語料累積,全面覆蓋了從基礎(chǔ)到高級(jí)的智能文本處理能力。主要應(yīng)用有,社交媒體上的用戶言論,可以使用騰訊云NLP的情感分析接口,來做用戶的情感傾向分析,動(dòng)態(tài)監(jiān)測(cè)海量用戶的輿情變化,為相關(guān)的輿情監(jiān)控或內(nèi)容社區(qū)的運(yùn)營提供數(shù)據(jù)支持。新聞網(wǎng)站或App信息流,可以使用騰訊云NLP的敏感信息識(shí)別接口,實(shí)時(shí)識(shí)別出是否含敏感信息,為文本數(shù)據(jù)的合法合規(guī)保駕護(hù)航,為流動(dòng)信息的質(zhì)量提供保障。銀行、保險(xiǎn)、證券、政務(wù)等領(lǐng)域,經(jīng)常有大量的文檔需要投入人力進(jìn)行整理、提煉和歸檔,可以使用騰訊云NLP的關(guān)鍵詞提取和文本分類接口,快捷、高效地完成結(jié)構(gòu)化抽取,有效輔助人工,降低人力參與成本。常見的自然語言處理工具2.在線工具(2)哈工大語言技術(shù)平臺(tái)(LanguageTechnologyPlatform,LTP)是哈工大社會(huì)計(jì)算與信息檢索研究中心歷時(shí)十年開發(fā)的一整套中文語言處理系統(tǒng)。LTP制定了基于XML的語言處理結(jié)果表示,并在此基礎(chǔ)上提供了一整套自底向上的豐富而且高效的中文語言處理模塊(包括詞法、句法、語義等6項(xiàng)中文處理核心技術(shù)),以及基于動(dòng)態(tài)鏈接庫(DynamicLinkLibrary,DLL)的應(yīng)用程序接口,可視化工具,依存樹庫等語料資源,并且能夠以網(wǎng)絡(luò)服務(wù)(WebService)的形式進(jìn)行使用。從2006年9月5日開始該平臺(tái)對(duì)外免費(fèi)共享目標(biāo)代碼,截止目前,已經(jīng)有國內(nèi)外400多家研究單位共享了LTP,也有國內(nèi)外多家商業(yè)公司購買了LTP,用于實(shí)際的商業(yè)項(xiàng)目中。2010年12月獲得中國中文信息學(xué)會(huì)頒發(fā)的行業(yè)最高獎(jiǎng)項(xiàng):"錢偉長中文信息處理科學(xué)技術(shù)獎(jiǎng)"一等獎(jiǎng)。2011年6月1日,為了與業(yè)界同行共同研究和開發(fā)中文信息處理核心技術(shù),正式將LTP的源代碼對(duì)外共享,LTP由C++語言開發(fā),可運(yùn)行于Windows和Linux操作系統(tǒng)。常見的自然語言處理工具(3)百度百度也可用于自然語言處理,百度自然語言處理技術(shù)包括語言處理基礎(chǔ)技術(shù)和語言處理應(yīng)用技術(shù)。語言處理基礎(chǔ)技術(shù)包括,詞法分析、詞法分析(定制版)、詞向量表示、詞義相似度、短文本相似度、依存句法分析、DNN語言模型。語言處理應(yīng)用技術(shù)包括,情感傾向分析、情感傾向分析(定制版)、評(píng)論觀點(diǎn)抽取、評(píng)論觀點(diǎn)抽?。ǘㄖ瓢妫?、對(duì)話情緒識(shí)別、文本糾錯(cuò)、文章分類、文章標(biāo)簽。常見的自然語言處理工具Python中常見的自然語言處理庫,如表所示。Python與自然語言處理庫名說明NLTK庫NLTK是一個(gè)用于構(gòu)建處理自然語言數(shù)據(jù)的Python應(yīng)用開源平臺(tái),也是基于Python編程語言實(shí)現(xiàn)的NLP庫。jieba庫jieba庫提供三種分詞模式:精確模式、全模式、搜索引擎模式。sklearn-crfsuite庫sklearn-crfsuite是基于CRFsuite庫的一款輕量級(jí)的CRF庫。sklearn-crfsuite不僅提供了條件隨機(jī)場的訓(xùn)練和預(yù)測(cè)方法還提供了評(píng)測(cè)方法Python中常見的自然語言處理庫,如表所示。Python與自然語言處理庫名說明joblib庫joblib是一組在Python中提供輕量級(jí)管道的工具。特別是:函數(shù)的透明磁盤緩存和延遲重新計(jì)算(記憶模式);簡單并行計(jì)算。gensim庫gensim是一款開源的第三方Python工具包,用于從原始的非結(jié)構(gòu)化的文本中,無監(jiān)督地學(xué)習(xí)到文本隱層的主題向量表達(dá)。它支持包括TF-IDF,LSA,LDA,和word2vec在內(nèi)的多種主題模型算法,支持流式訓(xùn)練,并提供了諸如相似度計(jì)算,信息檢索等一些常用任務(wù)的API接口imageio它提供了一個(gè)簡單的接口來讀取和寫入大量的圖像數(shù)據(jù),包括動(dòng)畫圖像、體積數(shù)據(jù)和科學(xué)格式。1自然語言處理工具目錄自然語言處理概述2NLP的開發(fā)環(huán)境3采用Python進(jìn)行NLP是再好不過的選擇。這種強(qiáng)大的編程軟件對(duì)初學(xué)者來說往往會(huì)遇到設(shè)置環(huán)境變量的困擾,為此推薦已經(jīng)集成了Python開發(fā)環(huán)境且自帶了多種常用數(shù)據(jù)科學(xué)庫的軟件Anaconda。Anaconda是一個(gè)開源的Python發(fā)行版本,其包含了conda、Python等180多個(gè)科學(xué)包及其依賴項(xiàng)。Anaconda可以應(yīng)用于多種系統(tǒng),不管是Windows、Linux還是MacOSX,都可以找到對(duì)應(yīng)系統(tǒng)類型的版本。Anaconda可以同時(shí)管理不同版本的Python環(huán)境,包括Python2和Python3兩個(gè)版本。本書推薦使用Python3版本,因?yàn)镻ython2已停止更新維護(hù),并且本書中所有的程序代碼都是基于Python3版本進(jìn)行編寫的。Anaconda安裝在Windows環(huán)境下,Anaconda的安裝比較簡單。安裝按照默認(rèn)選項(xiàng)進(jìn)行安裝,在選擇完路徑后,可勾選所示的“AddAnaconda3tothesystemPATHenvironmentvariable”(添加Anaconda至系統(tǒng)環(huán)境變量路徑中)復(fù)選項(xiàng),如圖所示。勾選此選項(xiàng)的好處是方便后續(xù)創(chuàng)建多種版本的Python,壞處是可能會(huì)影響到其他程序的使用。Anaconda安裝Anaconda安裝完成后在開始菜單欄中會(huì)出現(xiàn)幾個(gè)應(yīng)用,分別為AnacondaNavigtor、AnacondaPrompt、JupyterNotebook和Spyder。AnacondaNavigator是Anaconda發(fā)行包中包含的桌面圖形界面,可以在不需要使用命令的條件下,方便的啟動(dòng)應(yīng)用程序,管理conda包、環(huán)境和頻道。單擊AnacondaNavigator后會(huì)啟動(dòng)網(wǎng)頁,網(wǎng)頁上會(huì)出現(xiàn)CMD.exePrompt、JupyterLab、JupyterNotebook、PowershellPrompt、QtConsole、Spyder、Glueviz、Orange3、RStudio等應(yīng)用。Anaconda應(yīng)用介紹1.AnacondaNavigatorAnacondaPrompt相當(dāng)于命令提示符CMD,與CMD不同的是Prompt已經(jīng)配置好環(huán)境變量。初次安裝Anaconda的包一般比較舊,為了避免之后使用報(bào)錯(cuò),可以先單擊AnacondaPrompt,然后輸入“condaupdate–all”命令,更新所有包的版本,在提示是否更新的時(shí)候輸入“y”(即Yes),然后等待更新完成即可。(1)創(chuàng)建NLP的虛擬環(huán)境在開發(fā)過程中,很多時(shí)候不同的項(xiàng)目會(huì)需要用的不同版本的包,甚至是不同版本的Python,使用虛擬環(huán)境即可輕松解決這些問題。虛擬環(huán)境通過創(chuàng)建一個(gè)全新的Python開發(fā)環(huán)境,從而實(shí)現(xiàn)不同項(xiàng)目間的隔離。打開AnacondaPrompt后,可以利用Anaconda自帶的conda包管理不同的Python環(huán)境。剛開始學(xué)習(xí)NLP的讀者,可以利用conda包創(chuàng)建一個(gè)自然處理的虛擬環(huán)境。先查看Python版本,然后創(chuàng)建一個(gè)名為“NLP”的虛擬環(huán)境,并且指定Python版本。Anaconda應(yīng)用介紹2.AnacondaPrompt(2)進(jìn)入NLP虛擬環(huán)境創(chuàng)建虛擬環(huán)境完成之后,使用activate命令進(jìn)入這個(gè)虛擬環(huán)境,并在NLP虛擬環(huán)境中查看配置的編譯環(huán)境信息,創(chuàng)建NLP虛擬環(huán)境的結(jié)果如圖所示。圖中展示了剛創(chuàng)建的NLP虛擬環(huán)境的所在路徑,路徑顯示該環(huán)境位于Anaconda安裝路徑下的envs文件夾中。在剛創(chuàng)建好的虛擬環(huán)境中,除了Python自帶的包之外,沒有其他的包。Anaconda應(yīng)用介紹(3)在NLP虛擬環(huán)境中安裝或卸載程序包在學(xué)習(xí)過程,可以根據(jù)需要安裝不同的程序包。可通過pip命令或者conda命令兩種方式安裝程序包,即“pipinstallpackage_name”和“condainstallpackage_name”,其中“package_name”是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 防風(fēng)防雷施工方案
- 破除馬路施工方案
- 水合物動(dòng)力學(xué)抑制劑的制備及性能研究
- 光調(diào)控下不同粒徑藻-菌顆粒的糖原代謝特征與機(jī)制
- 廣義的謝爾模脈沖光束的傳輸特性研究
- 景嘉微股權(quán)激勵(lì)的動(dòng)因及實(shí)施效果研究
- 基于半監(jiān)督學(xué)習(xí)和領(lǐng)域自適應(yīng)的小樣本輻射源個(gè)體識(shí)別
- 基于仿生設(shè)計(jì)原理的漢代燈具研究
- 話語標(biāo)記“行吧”研究
- 柔性減影CE-boost技術(shù)在頭頸部CT血管成像中的應(yīng)用研究
- 2024年內(nèi)蒙古師范大學(xué)招聘事業(yè)編制人員考試真題
- (二模)2025年河南省五市高三第二次聯(lián)考?xì)v史試卷(含答案)
- 飛行員勞動(dòng)合同模板及條款
- 《勞動(dòng)項(xiàng)目五:煮雞蛋》(教案)-2024-2025學(xué)年人教版勞動(dòng)三年級(jí)上冊(cè)
- 第中西藝術(shù)時(shí)空對(duì)話 課件 2024-2025學(xué)年嶺南美版(2024) 初中美術(shù)七年級(jí)下冊(cè)
- 2025-2030檢測(cè)設(shè)備行業(yè)行業(yè)風(fēng)險(xiǎn)投資發(fā)展分析及投資融資策略研究報(bào)告
- (三模)廣西2025屆高中畢業(yè)班4月份適應(yīng)性測(cè)試 英語試卷(含答案解析)
- (四調(diào))武漢市2025屆高中畢業(yè)生四月調(diào)研考試 物理試卷(含答案)
- 中級(jí)財(cái)務(wù)會(huì)計(jì)課件第四章 金融資產(chǎn)學(xué)習(xí)資料
- 2025年濟(jì)南市中區(qū)九年級(jí)中考數(shù)學(xué)一??荚囋囶}(含答案)
- 中國印楝素市場調(diào)查報(bào)告
評(píng)論
0/150
提交評(píng)論