




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
人工智能數(shù)據(jù)標(biāo)注羅堅劉帥代建華主編專項職業(yè)能力教材電子工業(yè)出版社CONTENTS項目一
認(rèn)識數(shù)據(jù)標(biāo)注項目三語音標(biāo)注項目二圖像標(biāo)注項目四文本標(biāo)注項目一認(rèn)識數(shù)據(jù)標(biāo)注概述本書按照整體項目、任務(wù)設(shè)計和完成過程展開,主要包括:圖像標(biāo)注、語音標(biāo)注和文本標(biāo)注三大項目,每一個項目里面由若干個任務(wù)構(gòu)成。為了能夠順利地完成各項標(biāo)注任務(wù),本書以“必需、夠用”為目標(biāo),在講解操作任務(wù)之前,安排了相關(guān)的輔助任務(wù)。本書內(nèi)容關(guān)系,如圖所示。數(shù)據(jù)標(biāo)注的知識和原則數(shù)據(jù)標(biāo)注的定義數(shù)據(jù)標(biāo)注是借助標(biāo)注軟件,對人工智能學(xué)習(xí)數(shù)據(jù)進(jìn)行加工和運用的行為。數(shù)據(jù)標(biāo)注工程師和人工智能產(chǎn)品訓(xùn)練師都需要收集數(shù)據(jù)用來形成知識庫,進(jìn)而完成數(shù)據(jù)標(biāo)注。根據(jù)標(biāo)注對象的不同,標(biāo)注的分類也不相同,一般可分為圖像標(biāo)注、語音標(biāo)注和文本標(biāo)注。典型的圖像標(biāo)注,如圖所示。圖(a)為人物原圖,圖(b)為標(biāo)注后的圖像。(a)人物原圖(b)標(biāo)注后的圖像數(shù)據(jù)標(biāo)注的知識和原則圖像標(biāo)注隨著科技的進(jìn)步,圖像作為信息傳播的重要媒介,在智能監(jiān)測、智能搜索引擎、無人駕駛、醫(yī)學(xué)影像分析、航天、遙感等多個領(lǐng)域得到了廣泛的研究,并在社會和經(jīng)濟(jì)生活中承擔(dān)著越來越重要的角色。人們不斷深入研究圖像,促進(jìn)了計算機(jī)視覺的發(fā)展。圖像的基本概念如下。(1)像素。圖像可以用矩陣來表示,矩陣中的一個元素代表圖像空間中的一個點,稱為像素(Pixel)。像素的大小與圖像的分辨率有關(guān),分辨率越高,圖像就越清晰。(2)分辨率。分辨率是衡量圖像細(xì)節(jié)表現(xiàn)力的技術(shù)參數(shù)。分辨率分為顯示分辨率、圖像分辨率和輸出分辨率三種。通常所說的圖像大小指的是圖像的顯示分辨率的大小。比如1K圖像的分辨率為1920×1080,2K圖像的分辨率為2048×1080,4K圖像的分辨率為4096×2160。圖像的分辨率越大,需要的存儲空間也越大。(3)像素坐標(biāo)系。像素坐標(biāo)系u-v中,左上角的原點O對應(yīng)坐標(biāo)為(0,0),橫坐標(biāo)u和縱坐標(biāo)v分別是圖像所在的行和列。在視覺處理庫OpenCV中,u坐標(biāo)對應(yīng)x坐標(biāo),v坐標(biāo)對應(yīng)y坐標(biāo)。像素坐標(biāo)系所示。(4)灰度圖像。灰度圖像是對彩色圖像進(jìn)行灰度化處理后的圖像。由于很多模型對圖像顏色的依賴性不高,通??梢韵葘Σ噬珗D像進(jìn)行灰度化預(yù)處理用來去除彩色信息。這不僅能提高圖像處理的魯棒性,還可以提高圖像處理的速度。灰度圖像的每個像素信息是由一個量化的灰度級來描述的,沒有彩色信息;而彩色圖像(如RGB圖像)中的每個像素信息則是由RGB三原色構(gòu)成的,分別通過三個不同的灰度級來描述?;叶葓D像。(5)二值圖像。二值圖像的數(shù)據(jù)足夠簡單,只有兩個值。二值圖像的每個像素只能是黑或白,沒有中間的灰度級過渡,像素值為0或255。二值化就是將彩色圖像變成二值圖像的過程。最常用的二值化處理,就是選取一個閾值,大于它的像素值就視為白色,小于它的像素值就視為黑色。二值圖像。數(shù)據(jù)標(biāo)注的知識和原則圖像標(biāo)注隨著科技的進(jìn)步,圖像作為信息傳播的重要媒介,在智能監(jiān)測、智能搜索引擎、無人駕駛、醫(yī)學(xué)影像分析、航天、遙感等多個領(lǐng)域得到了廣泛的研究,并在社會和經(jīng)濟(jì)生活中承擔(dān)著越來越重要的角色。人們不斷深入研究圖像,促進(jìn)了計算機(jī)視覺的發(fā)展。圖像的基本概念如下。(6)色彩空間。不同的色彩空間采用不同的顏色表示方式,最常用的色彩空間是RGB色彩空間,除此之外還有HSV色彩空間、YUV色彩空間等。色度學(xué)理論認(rèn)為,任何顏色均可由紅、綠、藍(lán)三種基本顏色混合得到。圖像也可用紅、綠、藍(lán)三原色來表示。例如,RGB色彩空間中的R表示Red(紅色),G表示Green(綠色),B表示Blue(藍(lán)色)。這三種顏色以不同的量進(jìn)行疊加,就可以顯示出所有顏色。RGB顏色疊加,如圖1-6所示。HSV色彩空間則是由Hue(色調(diào))、Saturation(飽和度)、Value(明度)組成。YUV色彩空間是由一個Y(亮度)和兩個UV(色度)決定的。(7)感興趣區(qū)域。在圖像處理的過程中,人們可能會對圖像中的某個特定區(qū)域感興趣,也只對該區(qū)域進(jìn)行操作。例如,對于過道里安裝的監(jiān)控系統(tǒng),其中的相機(jī)是固定安裝的,感興趣區(qū)域就選取行走區(qū)域。另外,感興趣區(qū)域可以是任意形狀的,如四邊形或其他任意多邊形。(8)圖像保存格式。圖像的常用格式包括:BMP、JPEG、GIF和PNG。其中,BMP格式為圖像的非壓縮格式。數(shù)據(jù)標(biāo)注的知識和原則圖像標(biāo)注的知識圖像標(biāo)注是利用視覺傳感器采集到的圖像,通過專門的標(biāo)注軟件轉(zhuǎn)換成相應(yīng)的語言描述,本質(zhì)上類似于“看圖說話”的過程。隨著計算機(jī)視覺技術(shù)和卷積深度學(xué)習(xí)網(wǎng)絡(luò)的發(fā)展,圖像標(biāo)注的需求與日俱增。一個好的模型,往往需要使用大量準(zhǔn)確的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,如自動駕駛中的車道識別、行人識別,智能安防中的人臉識別、步態(tài)識別、行為識別等??磮D說話對于小朋友來說很容易掌握,但對于機(jī)器而言卻是一個很大的挑戰(zhàn)。機(jī)器無法像人一樣的思考,但是可以通過大量標(biāo)注數(shù)據(jù)對它進(jìn)行訓(xùn)練和學(xué)習(xí),使它具有最簡單的智能。例如,圖像標(biāo)注就是完成圖像信息到文本信息的“翻譯”工作。圖像標(biāo)注的類型,主要有以下幾種。01分類標(biāo)注02標(biāo)框標(biāo)注03區(qū)域標(biāo)注04描點標(biāo)注05其他標(biāo)注數(shù)據(jù)標(biāo)注的知識和原則語音和文本標(biāo)注語音標(biāo)注是將聲音數(shù)據(jù)轉(zhuǎn)換成文字信息的過程。例如,百度云語音、微信語音、智能音響、語音交互兒童玩具,以及智能客服機(jī)器人等,都是語音識別的典型應(yīng)用。想要準(zhǔn)確的完成語音識別,需要使用大量的人工標(biāo)注數(shù)據(jù)對模型進(jìn)行訓(xùn)練。因此,能否準(zhǔn)確地將聲音數(shù)據(jù)標(biāo)注轉(zhuǎn)換成對應(yīng)的文字內(nèi)容,對模型來說非常關(guān)鍵。語音標(biāo)注的應(yīng)用也比較廣泛,比如:語音識別說話人、語音識別說話內(nèi)容、語音判定性別、語音確定說話人數(shù)量、語音分析情感狀態(tài)等。語音標(biāo)注,如圖所示。數(shù)據(jù)標(biāo)注的知識和原則語音和文本標(biāo)注文本標(biāo)注(1)文字和文本的表示。文本是由若干文字和字符所構(gòu)成的,字符主要有3種編碼,內(nèi)碼、字形碼和輸入碼。內(nèi)碼是一個字符在計算機(jī)中保存時的代碼,可以理解為內(nèi)部編碼,是用來稱呼字符的編碼。字形碼是將字符在顯示器或打印機(jī)等設(shè)備上展現(xiàn)出其形狀的編碼。輸入碼是指通過鍵盤輸入字符時,將按鍵轉(zhuǎn)換為某個字符的編碼。(2)ASCII碼。ASCII碼是美國標(biāo)準(zhǔn)信息交換碼。它采用7位二進(jìn)制編碼,可表示128種字符,包括10個數(shù)字0~9、52個大小寫英文字母、32個控制字符,其他為專用字符。如“A”的ASCII碼為1000001或41H。(3)國標(biāo)碼。國家標(biāo)準(zhǔn)中規(guī)定,用兩個字節(jié)共16位二進(jìn)制表示1個漢字。國標(biāo)碼共有漢字6763個,其中一級漢字為最常用的漢字,按漢語拼音字母順序排列,共3755個;二級漢字為次常用漢字,按筆畫順序排列,共3008個;數(shù)字、字母、符號等共682個。國標(biāo)碼合計共7445個。由于國標(biāo)碼不能直接存儲在計算機(jī)內(nèi),為了方便計算機(jī)處理和存儲漢字,又區(qū)別于ASCII碼,將國標(biāo)碼中每個字節(jié)的最高位設(shè)為1,這樣就形成了在計算機(jī)內(nèi)部用來進(jìn)行存儲、運算的漢字編碼,叫機(jī)內(nèi)碼或漢字內(nèi)碼,簡稱內(nèi)碼。(4)文本標(biāo)注。文本標(biāo)注是將文字、符號、公式等在內(nèi)的文本內(nèi)容進(jìn)行標(biāo)注,讓計算機(jī)能夠讀懂、分析、識別和展現(xiàn)文本的內(nèi)容,從而應(yīng)用于社會生產(chǎn)和生活中的各個領(lǐng)域。比如,通過購物評價來總結(jié)大家認(rèn)可的產(chǎn)品標(biāo)簽,通過文本描述來分析情感,通過不同國家之間的文本轉(zhuǎn)換來實現(xiàn)翻譯,以及分析識別文本內(nèi)容中的詞性等。文本標(biāo)注,如圖所示。數(shù)據(jù)標(biāo)注的知識和原則數(shù)據(jù)標(biāo)注的基本原則在進(jìn)行數(shù)據(jù)標(biāo)注時,必須要堅持質(zhì)量為上的原則。如果僅僅追求標(biāo)注的數(shù)量而不顧標(biāo)注的質(zhì)量,即使數(shù)量再多,也沒有效果。保證標(biāo)注質(zhì)量的方式如下。1)標(biāo)注標(biāo)準(zhǔn)的確定制定標(biāo)準(zhǔn)是保證數(shù)據(jù)質(zhì)量的關(guān)鍵一步。一般可以設(shè)置標(biāo)注樣例、模板,如顏色的標(biāo)準(zhǔn)比色卡。對于模棱兩可的數(shù)據(jù),應(yīng)設(shè)置統(tǒng)一的處理方式。參照的標(biāo)準(zhǔn)有時候還要考慮專業(yè)情況。以文本情感分析為例,“裂痕”一詞,在心理學(xué)專業(yè)中,可能是個負(fù)面詞,而在工業(yè)產(chǎn)品探傷專業(yè)則是一個中性詞。2)標(biāo)注軟件和平臺的選擇對于標(biāo)注軟件和平臺的選擇??梢蚤_發(fā)一個專門用于數(shù)據(jù)標(biāo)注的可視化軟件,同時也可以使用開源軟件或線上的專業(yè)平臺,如京東眾智平臺、百度數(shù)據(jù)眾包平臺等。3)質(zhì)量和速度同樣重要做標(biāo)注時應(yīng)強調(diào),指標(biāo)不能定得太高,如果定得太高,團(tuán)隊都為了完成數(shù)量任務(wù),自然會忽略了質(zhì)量,必然需要大量返工。4)專人做素材審核可以找專門的人做素材審核,主要負(fù)責(zé)素材標(biāo)注后的驗證,包括類型是否出錯,位置、大小是否合適等。這可以幫助團(tuán)隊提升效率。常用標(biāo)注軟件常用的圖像標(biāo)注軟件有Labelme、LabelBox、RectLabel、COCO-UI。常用的語音標(biāo)注軟件有Praat。常用的文本標(biāo)注軟件有Doccano。Labelme軟件的界面和菜單Praat軟件的主界面項目二圖像標(biāo)注命令提示符的基礎(chǔ)操作CMD是Command的縮寫,即命令提示符。中文版的Windows操作系統(tǒng)中的命令提示符進(jìn)一步提高了DOS操作命令的兼容性,用戶可以在命令提示符中直接輸入中文調(diào)用文件。命令提示符是Windows操作系統(tǒng)中重要的軟件。在遠(yuǎn)程管理的過程中,使用命令提示符,只需要傳遞少量的數(shù)據(jù)就可以實現(xiàn)對機(jī)器的操作。圖形界面需要傳輸大量的圖形數(shù)據(jù),很可能出現(xiàn)延遲、鏈接不穩(wěn)定等情況,沒有使用命令提示符的效率高。綜上,使用命令提示符是一種高效的手段。搭建標(biāo)注平臺要用到一些“CMD”命令,了解基本的“CMD”命令將有助于提高平臺搭建、庫文件安裝和管理等工作的效率。任務(wù)目標(biāo)①掌握如何打開命令提示符。②了解Windows操作系統(tǒng)中常用的“CMD”命令。Anaconda軟件的安裝和使用圖2-8Anaconda軟件集成的科學(xué)包示例圖2-9AnacondaNavigator主界面Anaconda軟件的介紹Anaconda軟件包含了Conda、Python等180多個包及其依賴項。Anaconda軟件集成的科學(xué)包示例,如圖2-8所示。因為包含了大量的包,Anaconda軟件的安裝包較大,如果只需要某些特定的包,可以使用Miniconda軟件這個較小的發(fā)行版本(僅包含Conda包和Python包)。Conda是Anaconda軟件中的包管理工具,用于在同一臺機(jī)器上安裝不同版本的軟件包及其依賴,并能夠在不同的虛擬環(huán)境之間進(jìn)行切換。Anaconda軟件擁有可視化的程序安裝和管理功能,相比單獨安裝Python軟件,可以省去了很多相關(guān)配置的操作。AnacondaNavigator主界面,如圖2-9所示。Anaconda軟件的安裝和使用Python軟件的介紹Python是一款用于科學(xué)計算和數(shù)據(jù)分析方面的重要軟件,能夠很快捷地實現(xiàn)各種人工智能技術(shù),也是許多開源標(biāo)注軟件的重要平臺。Python軟件的介紹,如圖所示。Labelme軟件的安裝1.任務(wù)描述Labelme軟件在使用前需要配置虛擬環(huán)境并進(jìn)行安裝,安裝后通過相關(guān)命令啟動該軟件。2.任務(wù)目標(biāo)①使用Conda包管理工具創(chuàng)建Labelme虛擬環(huán)境。②在Labelme虛擬環(huán)境下安裝Labelme軟件。Labelme軟件命令和常用圖像數(shù)據(jù)集1.任務(wù)描述Labelme軟件能夠進(jìn)行多種形式的圖像標(biāo)注,同時它可以使用自帶的各種命令,如加載指定標(biāo)注文件夾、指定標(biāo)簽、生成JSON文件等。同時,了解常用圖像數(shù)據(jù)集,有利于后續(xù)將標(biāo)定的圖像轉(zhuǎn)換成對應(yīng)的公共數(shù)據(jù)集格式。2.任務(wù)目標(biāo)①學(xué)習(xí)常用的Labelme命令。②了解常用的公共圖像數(shù)據(jù)集。圖像分類標(biāo)注作為計算機(jī)視覺領(lǐng)域的基礎(chǔ)性任務(wù),圖像分類是目標(biāo)檢測、語義分割的重要支撐,其目標(biāo)是將不同的圖像劃分到不同的類別,并實現(xiàn)最小的分類誤差。經(jīng)過近幾十年的研究,圖像分類已經(jīng)成功地應(yīng)用至社會生活的方方面面。如今,在生活中隨處可見智能手機(jī)相冊自動分類、自動垃圾分選、智能汽車交通標(biāo)注分類等?,F(xiàn)階段的圖像分類任務(wù)在很大程度上是靠監(jiān)督學(xué)習(xí)來實現(xiàn)的,即每個樣本都有其對應(yīng)的標(biāo)簽,通過深度神經(jīng)網(wǎng)絡(luò)或其他人工智能學(xué)習(xí)模型來不斷學(xué)習(xí)每個標(biāo)簽所對應(yīng)的特征,并最終實現(xiàn)分類。在這種情況下,數(shù)據(jù)集的容量、標(biāo)簽的質(zhì)量往往對模型的性能起著決定性的作用,想要得到高質(zhì)量的數(shù)據(jù)集自然會帶來標(biāo)注的困難。因此,對于標(biāo)注人員也會有更高的要求。在這種情況下,如何使用專業(yè)的標(biāo)注軟件,在減少標(biāo)簽信息同時保證標(biāo)注精度,成為了數(shù)據(jù)標(biāo)注進(jìn)一步研究的目標(biāo)。不同類型花的分類任務(wù)目標(biāo)①學(xué)習(xí)如何使用Labelme軟件導(dǎo)入指定的標(biāo)簽文件。②掌握使用Labelme軟件進(jìn)行單標(biāo)簽圖像標(biāo)注的方法。③掌握使用Labelme軟件進(jìn)行多標(biāo)簽圖像標(biāo)注的方法。目標(biāo)檢測標(biāo)注目標(biāo)檢測標(biāo)注是指通過人工標(biāo)注出圖像中感興趣的目標(biāo),如圖像中的人、汽車、卡車等。一張圖像上可以有不同的目標(biāo),同一類目標(biāo)也可以有多個,通常使用矩形進(jìn)行標(biāo)注。圖像的目標(biāo)檢測標(biāo)注主要是針對二維圖像進(jìn)行的,需要人工在指定圖像中標(biāo)注感興趣的目標(biāo)信息,包括目標(biāo)的位置、大小、類型等,一般用采用“l(fā)eft”標(biāo)簽、“top”標(biāo)簽、“width”標(biāo)簽、“height”標(biāo)簽、“class”標(biāo)簽來表示。模型訓(xùn)練的過程就是將上述素材數(shù)據(jù)傳遞給深度神經(jīng)網(wǎng)絡(luò)或其他機(jī)器學(xué)習(xí)模型,進(jìn)行反復(fù)訓(xùn)練優(yōu)化,最后篩選出效果比較好的學(xué)習(xí)模型,在完成學(xué)習(xí)模型后,就可以進(jìn)行推理應(yīng)用了。不同算法模型最終得出的結(jié)果也基本一樣。對于給定的二維輸入圖像,輸出該圖像中檢測到的目標(biāo)信息,包括目標(biāo)坐標(biāo)、目標(biāo)類型以及目標(biāo)可信度。進(jìn)行目標(biāo)檢測標(biāo)注時,需要人工標(biāo)注出目標(biāo)的大小和位置并給出目標(biāo)的類型,模型訓(xùn)練時會根據(jù)標(biāo)注的信息來調(diào)整模型參數(shù)。正常情況下,矩形的大小、位置應(yīng)該合適,剛好能將目標(biāo)包圍住。如果矩形太大或者太小,甚至位置偏移了,都會影響學(xué)習(xí)模型對矩形中真實內(nèi)容的判斷。語義分割標(biāo)注語義分割就是對圖像中的每個對象打上標(biāo)簽,如把圖像中的人、樹木、草地、天空和動物等都打上對應(yīng)的標(biāo)簽。語義分割標(biāo)注和目標(biāo)檢測標(biāo)注的區(qū)別主要在于:目標(biāo)檢測標(biāo)注一般采用矩形,只要目標(biāo)在矩形里就可以,而語義分割標(biāo)注需要將物體的輪廓完整標(biāo)注出來,標(biāo)注精度遠(yuǎn)高于目標(biāo)檢測標(biāo)注。現(xiàn)實情況中,需要對目標(biāo)進(jìn)行檢測和標(biāo)記,并精確到像素級,這在精確目標(biāo)識別和目標(biāo)行為理解等領(lǐng)域變得越來越重要。例如:智能駕駛的場景檢測、行人的行為分析等,它們都需要對周圍環(huán)境有著精確的理解,這就需要語義分割標(biāo)注。語義分割作為計算機(jī)視覺中的典型任務(wù),可以將視覺輸入中的不同部分按照語義分到不同類別中。例如,如果想提取圖中所有關(guān)于“人物”的像素,就可以把人物的顏色涂成特定的顏色。人物語義分割。語義分割讓我們對圖像的理解比圖像分類和目標(biāo)物體檢測更詳細(xì)。這種對細(xì)節(jié)的理解在很多領(lǐng)域都非常重要,包括自動駕駛、智能機(jī)器人和圖像搜索引擎等。人工智能浪潮席卷而來,很多人都關(guān)注與機(jī)器人的語音交互,但未來的機(jī)器人和人類一樣,同樣需要使用眼睛來識別主人和寵物。舉個簡單例子,假如掃地機(jī)器人能夠繞開丟在地上的臭襪子而清理旁邊的紙屑,智能音箱能自動識別孩子的表情和心情,這一定能為生活增加不少的樂趣。圖像的語義分割標(biāo)注是人工智能領(lǐng)域中一個重要的分支,是機(jī)器視覺技術(shù)中的重要一環(huán)。在當(dāng)前,圖像的語義分割標(biāo)注需要大量人工來完成高質(zhì)量的標(biāo)注工作。實例分割標(biāo)注實例分割標(biāo)注是目標(biāo)檢測和語義分割的結(jié)合,即在圖像中先將目標(biāo)檢測出來(目標(biāo)檢測),然后對每個目標(biāo)打上對應(yīng)標(biāo)簽(語義分割)。在語義分割標(biāo)注中,不區(qū)分屬于相同類別的不同目標(biāo)(所有目標(biāo)都標(biāo)為相同顏色),實例分割標(biāo)注則需要區(qū)分同類的不同實例(使用不同顏色來區(qū)分不同的人)。圖像標(biāo)注已經(jīng)從粗推理發(fā)展到細(xì)推理,并且隨著計算能力和研究能力的提高,這種演變已經(jīng)發(fā)展到實例分割,并將繼續(xù)下去。實例分割標(biāo)注的圖像則是提供給模型訓(xùn)練時使用的,要求模型能自動從圖像中用目標(biāo)檢測的方法框選出不同的實例,再用語義分割的方法在不同實例區(qū)域內(nèi)進(jìn)行逐像素的標(biāo)記。正常情況下,語義分割不區(qū)分屬于相同類別的不同實例。例如,當(dāng)圖像中有兩個人物時,語義分割會將人物整體的所有像素預(yù)測為“人物”類別。與此不同的是,實例分割標(biāo)注需要區(qū)分出哪些區(qū)域?qū)儆诘?個人、哪些區(qū)域?qū)儆诘?個人,進(jìn)而可以使用不同顏色將他們的像素標(biāo)記出來。實例分割標(biāo)注可以幫助智能系統(tǒng)更好地理解各種交互場景,如餐廳機(jī)器人給客人送咖啡能自動區(qū)別不同的顧客,家居看護(hù)機(jī)器人能自動識別哪個是小孩,哪個是大人,或者有多個小孩在一起玩時,哪個是自己家的小孩。標(biāo)簽可視化圖像,如圖所示。全景分割標(biāo)注全景分割標(biāo)注是語義分割標(biāo)注和實例分割標(biāo)注的結(jié)合,既要檢測所有目標(biāo),又要區(qū)分類別中的不同實例。實例分割只對圖像中的目標(biāo)進(jìn)行檢測和按像素分割,區(qū)分不同實例(使用不同顏色),而全景分割是對圖中的所有物體包括背景都要進(jìn)行檢測和分割。在計算機(jī)視覺中,語義分割的任務(wù)是預(yù)測每個像素點的語義類別;實例分割的任務(wù)是預(yù)測每個實例物體包含的像素區(qū)域。全景分割(PanopticSegmentation)最先由FAIR與德國海德堡大學(xué)聯(lián)合提出,其任務(wù)是為圖像中每個像素點賦予類別Label和實例ID,生成全局的、統(tǒng)一的分割圖像。全景分割標(biāo)注是語義分割標(biāo)注和實例分割標(biāo)注的結(jié)合,對圖像中所有物體和背景都要進(jìn)行檢測和分割。也就是不僅要對感興趣的目標(biāo)區(qū)域進(jìn)行分割,而且也要對背景區(qū)域進(jìn)行分割。背景區(qū)域的分割屬于語義分割標(biāo)注,而物體的分割根據(jù)實際應(yīng)用,可以是語義分割標(biāo)注,也可以屬于實例分割標(biāo)注。與語義分割標(biāo)注相比,全景分割標(biāo)注的困難在于要區(qū)分不同類別的實例。與實例分割標(biāo)注相比,由于全景分割標(biāo)注要求每個像素只能有1個類別和1個標(biāo)注標(biāo)簽,因此不能出現(xiàn)實例分割標(biāo)注中的重疊現(xiàn)象。全景分割標(biāo)注,如圖所示。視頻標(biāo)注1.任務(wù)描述視頻標(biāo)注是對視頻中物體進(jìn)行分割和標(biāo)注,一般步驟如下。將視頻轉(zhuǎn)換成一幀一幀連續(xù)的視頻圖像,按時間順序保存在同一目錄下。在此基礎(chǔ)上,對第1幀視頻圖像進(jìn)行分割。這種分割方法的特點是可以利用視頻中前后幀目標(biāo)輪廓的相似性來進(jìn)行分割,通過保留前一幀視頻圖像的分割信息來達(dá)到減少工作量的目的。2.任務(wù)目標(biāo)①學(xué)習(xí)如何使用Labelme軟件導(dǎo)入指定的標(biāo)簽文件。②掌握使用Labelme軟件進(jìn)行視頻標(biāo)注的方法。車道線和交通標(biāo)志標(biāo)注車道線標(biāo)注是對圖像中的車道線進(jìn)行標(biāo)注,而交通標(biāo)志標(biāo)注則是對圖像中的各種交通標(biāo)志進(jìn)行標(biāo)注。汽車在自動駕駛過程中,需要通過攝像頭和各種傳感器來檢測和識別各種車道線和交通標(biāo)志,來控制自身行駛在正確的車道內(nèi),同時輔助各種駕駛決策。為了提高車道線的檢測效果,往往需要使用大量標(biāo)注好的車道線圖像和交通標(biāo)志圖像對模型進(jìn)行訓(xùn)練。因此,標(biāo)注車道線和交通標(biāo)志具有重要意義和實用價值。無人駕駛是以機(jī)器學(xué)習(xí)為主的一門前沿領(lǐng)域,而車道線和交通標(biāo)志的檢測是無人駕駛的重要基礎(chǔ)。車道線按照道路交通標(biāo)線的功能劃分為:指示標(biāo)線、警告標(biāo)線和禁止標(biāo)線。車道線按標(biāo)線方法可分為:白色虛線、白色實線、黃色虛線、黃色實線、雙白虛線、雙白實線、雙黃虛線和雙黃實線等。車道線按作用又可分為:車行道中心線、車道分界線、停止線、減速讓行線、人行橫道線、導(dǎo)流線、導(dǎo)向箭頭和左轉(zhuǎn)彎導(dǎo)線等。交通標(biāo)志是用文字或符號傳遞引導(dǎo)、限制、警告或指示信息的道路設(shè)施。在交通標(biāo)志中,一般是以安全、設(shè)置醒目、清晰、明亮的交通標(biāo)志來實施交通管理的,保證道路交通安全、順暢。交通標(biāo)志有多種類型,主要分為主標(biāo)志和輔助標(biāo)志兩大類。相機(jī)是目前無人駕駛中應(yīng)用和研究最廣泛的傳感器?;趫D像的物體檢測和識別技術(shù)已經(jīng)相當(dāng)成熟。近幾年,基于深度學(xué)習(xí)的視覺感知算法甚至超過了人類水平。無人駕駛車上一般會安裝多個相機(jī),兼顧不同的視角和任務(wù)。無人駕駛汽車,如圖所示。人體骨骼關(guān)節(jié)點標(biāo)注人體骨骼關(guān)節(jié)點標(biāo)注對于描述人體姿態(tài)和預(yù)測人體行為至關(guān)重要。因此,人體骨骼關(guān)節(jié)點標(biāo)注是各種計算機(jī)和機(jī)器視覺任務(wù)的重要基礎(chǔ)。常見的人體骨骼關(guān)節(jié)點標(biāo)注的應(yīng)用包括行為識別、運動分類、異常人體檢測、手語識別等。人體骨骼關(guān)節(jié)點標(biāo)注是計算機(jī)視覺中一個相對基礎(chǔ)的任務(wù),是人體動作識別、行為分析、人機(jī)交互和運動姿態(tài)跟蹤等的前置任務(wù)。一般情況下可以將人體骨骼關(guān)節(jié)點標(biāo)注細(xì)分為單個人或多個人的人體骨骼關(guān)節(jié)點標(biāo)注、2D或3D人體骨骼關(guān)節(jié)點標(biāo)注。3D人體姿態(tài),如圖所示。由于人體具有柔性,可以表現(xiàn)出現(xiàn)各種姿態(tài),人體任何一個部位的微小變化都會產(chǎn)生一種新的姿態(tài)。因此,對人體骨骼關(guān)節(jié)點的觀察受人物的穿著、姿態(tài)、視角等影響,而且還面臨著遮擋、光照、霧等環(huán)境的影響。除此之外,2D人體骨骼關(guān)節(jié)點和3D人體骨骼關(guān)節(jié)點在視覺上會有明顯的差異,身體不同部位都會有視覺上縮短的效果,使得人體骨骼關(guān)節(jié)點檢測成為計算機(jī)視覺領(lǐng)域中一個極具挑戰(zhàn)性的課題。而對于人體骨骼關(guān)節(jié)點模型而言,同樣是需要大量、高質(zhì)量的人體骨骼圖像進(jìn)行訓(xùn)練,因此人體骨骼關(guān)節(jié)點的標(biāo)注具有重要應(yīng)用價值。Labelme批量命令和可視化1.任務(wù)描述Labelme批量命令指的是批量生成dataset數(shù)據(jù)集。Labelme可視化指的是對于標(biāo)注好的圖像,可以通過“Labelme_draw_json”命令生成可視化JSON文件。2.任務(wù)目標(biāo)①學(xué)習(xí)如何使用Labelme軟件批量生成dataset數(shù)據(jù)文件。②掌握Labelme可視化的方法。項目三語音標(biāo)注Praat軟件的安裝1.任務(wù)描述Praat是一款跨平臺的多功能語音標(biāo)注軟件,與現(xiàn)有許多語音標(biāo)注軟件不同,它是開源的軟件,在遵循開源協(xié)議基礎(chǔ)上供大家免費學(xué)習(xí)和使用。Praat軟件主要用于對數(shù)字化的語音信號進(jìn)行分析、標(biāo)注、處理及合成。本任務(wù)主要學(xué)習(xí)如何下載和安裝該軟件。2.任務(wù)目標(biāo)①了解Praat軟件的下載過程。②掌握Praat軟件的安裝方法。Praat軟件的使用1.任務(wù)描述本任務(wù)主要介紹Praat軟件的界面、菜單及使用方法。使用Praat軟件來實現(xiàn)單人和多人的語音標(biāo)注。2.任務(wù)目標(biāo)①了解Praat軟件的界面。②掌握使用Praat軟件進(jìn)行語音標(biāo)注的方法。單個說話人的語音標(biāo)注1.任務(wù)描述本任務(wù)主要是使用Praat軟件對單個說話人的語音進(jìn)行標(biāo)注,單個說話人的語音標(biāo)注相比多個說話人的語音標(biāo)注要簡單。我們先使用文本轉(zhuǎn)語音軟件,將特定文本轉(zhuǎn)換成語音聲音,再使用Praat軟件對聲音進(jìn)行標(biāo)注。2.任務(wù)目標(biāo)①了解Praat軟件使用界面。②掌握使用Praat軟件進(jìn)行單個說話人的語音標(biāo)注的方法。多個說話人的語音標(biāo)注1.任務(wù)描述本任務(wù)使用Praat軟件實現(xiàn)對多個說話人的語音進(jìn)行標(biāo)注,即語音文件里面包含至少兩個說話人。因此,不僅要標(biāo)注說話人的語音內(nèi)容,同時也要區(qū)分這段話是屬于哪位說話人的。2.任務(wù)目標(biāo)①了解Praat軟件的界面。②掌握使用Praat軟件進(jìn)行多個說話人語音標(biāo)注的方法。項目四文本標(biāo)注Doccano軟件的安裝1.任務(wù)描述Doccano是一款開源文本標(biāo)注軟件。它提供了文本分類、序列標(biāo)注、序列到序列和語音到文本的標(biāo)注功能。因此,使用該軟件可以為情緒分析、命名實體識別、文本摘要等創(chuàng)建標(biāo)記數(shù)據(jù)。只需創(chuàng)建項目并上傳數(shù)據(jù)就可開始標(biāo)注。本任務(wù)主要講解如何安裝和啟動Doccano軟件。2.任務(wù)目標(biāo)①了解Doccano軟件的下載過程。②掌握Doccano軟件的安裝方法。實體文本標(biāo)注1.任務(wù)描述本任務(wù)主要講解如何進(jìn)行實體文本標(biāo)注。通過創(chuàng)建項目、上傳文本、定義標(biāo)簽、即可開始標(biāo)注工作,完成后便可以下載實體文本標(biāo)注結(jié)果。讓機(jī)器或者模型能夠從一句話中識別出人名、地名等,這就是命名實體識別,而人名、地名等這些被識別的目標(biāo)就是命名實體。命名實體識別(NamedEntityRecognition,NER)又稱為“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。通常包括兩部分:實體邊界識別和確定實體類別。命名實體識別通常是知識挖掘、信息抽取的第1步,被廣泛應(yīng)用在自然語言處理領(lǐng)域。無論是傳統(tǒng)的機(jī)器學(xué)習(xí)還是深度學(xué)習(xí),大多數(shù)應(yīng)用場景都是監(jiān)督學(xué)習(xí),也就是需要大量標(biāo)注好的數(shù)據(jù)作為訓(xùn)練樣本。如果希望機(jī)器能識別出人名、地名,就必須教會機(jī)器在一句話中,什么是人名,什么是地名。當(dāng)然只看一句話是遠(yuǎn)遠(yuǎn)不夠的,一般來說,至少也要上千句話才可以。這些句子都是需要人工來標(biāo)注的,而標(biāo)注出這些句子中命名實體的過程,稱為“實體文本標(biāo)注”。2.任務(wù)目標(biāo)①了解Doccano軟件的登錄和使用。②掌握使用Doccano軟件進(jìn)行實體文本標(biāo)注的方法。情感分析標(biāo)注1.任務(wù)描述本任務(wù)主要講解如何進(jìn)行情感分析標(biāo)注。通過創(chuàng)建項目,上傳需要標(biāo)注的文本,定義情感標(biāo)簽,即可開始標(biāo)注工作,完成后可以下載情感分析標(biāo)注的結(jié)果。情感分析是自然語言處理中常用的方法,對于指導(dǎo)產(chǎn)品更新具有重要作用,如淘寶、天貓和京東平臺的商品評價等。通過情感分析,可以挖掘產(chǎn)品在各個維度的優(yōu)劣,從而明確如何改進(jìn)產(chǎn)品。如分析外賣評價,可以分析菜品口味、送達(dá)時間、送餐態(tài)度、菜品豐富度等多個維度的用戶情感指數(shù),進(jìn)而從各個維度上改進(jìn)外賣服務(wù)。情感分析可以采用基于情感詞典的方法,也可以采用基于深度學(xué)習(xí)的方法。基于情感詞典的方法,是先對文本進(jìn)行預(yù)處理,再利用構(gòu)建好的情感詞典,對文本進(jìn)行字符串匹配,從而挖掘正面和負(fù)面信息。在情感分類領(lǐng)域,同樣可以采用深度學(xué)習(xí)的方法,基于深度學(xué)習(xí)的情感分類,具有精度高、通用性強、不需要情感詞典等優(yōu)點。但無論哪種方法,都需要大量高質(zhì)量的素材對模型進(jìn)行訓(xùn)練,從而得到一個準(zhǔn)確、通用和穩(wěn)定的模型,以便應(yīng)用在各種場景中??傊?,情感分析標(biāo)注對理解用戶意圖具有決定性的作用?;谠~典的方法和基于深度學(xué)習(xí)的方法都可以進(jìn)行情感分析。2.任務(wù)目標(biāo)①了解Doccano軟件的登錄和使用。②掌握使用Doccano軟件進(jìn)行情感分析標(biāo)注的方法。詞性標(biāo)注1.任務(wù)描述詞性指以詞的特點作為劃分詞類的根據(jù)。詞類是一個語言學(xué)術(shù)語,是一種語言中詞的語法分類,是以語法特征為主要依據(jù)、兼顧詞匯意義對詞進(jìn)行劃分的結(jié)果。詞性標(biāo)注也被稱為語法標(biāo)注,是語料庫語言學(xué)中將語料庫內(nèi)單詞的詞性按其含義和上下文內(nèi)容進(jìn)行標(biāo)記的文本處理技術(shù),即根據(jù)句子的上下文信息給句中的每個詞確定一個最為合適的詞性標(biāo)記,如名詞、動詞、助詞、量詞、形容詞等。如何使用Doccano軟件對文本進(jìn)行詞性標(biāo)注是本節(jié)主要的任務(wù)。詞性標(biāo)注(Part-of-Speechtagging或POStagging),又稱詞類標(biāo)注或者簡稱標(biāo)注,是指為分詞結(jié)果中的每個單詞標(biāo)注一個正確的詞性,也即確定每個詞是名詞、動詞、形容詞或其他詞性的過程。所謂分詞,它在中文里指的是將一個漢字序列切分成單獨的詞,本質(zhì)是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。它是其他信息處理的基礎(chǔ),在搜索引擎、機(jī)器翻譯、語音合成、自動分類、自動摘要、自動校對等方面,都需要用到分詞。在漢語中,分詞后的詞性標(biāo)注相對簡單,因為在漢語詞匯中詞性多變的情況比較少見,大多詞語只有一個詞性,或者出現(xiàn)頻次最高的詞性遠(yuǎn)遠(yuǎn)高于第2位的詞性。一般只需選取最高頻詞性,往往就可實現(xiàn)較為準(zhǔn)確的中文詞性標(biāo)注。詞性標(biāo)注在文本分析和語音分析中都具有重要意義。例如,通過詞性序列來標(biāo)注人名的方法。在人名識別“我”“愛”“萬”“胡”“冬”中,愛、胡、冬都是姓,會有多個識別結(jié)果,那么我們?nèi)绾蜗缌x并選擇一個最合理的結(jié)果呢?例如,從多個識別結(jié)果中選擇一個最佳的結(jié)果[我,愛萬胡/nr,冬]、[我,愛,萬胡冬/nr]、[我,愛,萬,胡冬/nr]。詞性標(biāo)注(1)開始處理:[我,愛萬胡/nr,冬]忽略已經(jīng)標(biāo)注過的詞:愛萬胡/nr詞序列:[我/r,愛萬胡/nr,冬/l]的詞性序列:rnl長度的負(fù)值也作為分值:-3評分結(jié)果:-3(2)開始處理:[我,愛,萬胡冬/nr]忽略已經(jīng)標(biāo)注過的詞:萬胡冬/nr詞序列:[我/r,愛/v,萬胡冬/nr]的詞性序列:rvnvn詞序增加分值:1長度的負(fù)值也作為分值:-3評分結(jié)果:-2(3)開始處理:[我/r,愛/v,萬,胡冬/nr]忽略已經(jīng)標(biāo)注過的詞:愛/v忽略已經(jīng)標(biāo)注過的詞:我/r忽略已經(jīng)標(biāo)注過的詞:胡冬/nr詞序列:[我/r,愛/v,萬/nr,胡冬/nr]的詞性序列:rvnnvn詞序增加分值:1長度的負(fù)值也作為分值:-4評分結(jié)果:-3最后計算機(jī)選擇結(jié)果:[我/r,愛/v,楊尚川/nr]。詞性標(biāo)注通過上面的例子,我們可以看到,詞性的識別具有很重要的應(yīng)用價值。一般來說,對于一篇文章、一段文字,人工智能系統(tǒng)對它進(jìn)行分析的過程從分句、分詞開始,之后就是詞性分析了。只有完成詞性分析,才能進(jìn)一步做專有名詞或短語分析、句子成分分析、分句從句分析、主旨提取、關(guān)鍵詞提取等更高級的分析處理??上攵绻~性分析的結(jié)果不準(zhǔn)確,對于后面各個步驟都會造成極大的困難。2.任務(wù)目標(biāo)①了解Doccano軟件的登錄和使用。②了解詞性標(biāo)注時使用的標(biāo)注代碼。③掌握使用Doccano軟件進(jìn)行詞性標(biāo)注的方法。翻譯標(biāo)注1.任務(wù)描述本任務(wù)主要講解如何進(jìn)行序列到序列的翻譯標(biāo)注。通過創(chuàng)建項目,并上傳需要翻譯標(biāo)注的文本,即可開始翻譯標(biāo)注工作,完成后便可以下載翻譯標(biāo)注的結(jié)果。機(jī)器翻譯是計算語言學(xué)的一個分支,也是人工智能領(lǐng)域的一個重要應(yīng)用,其最早的相關(guān)研究可以追溯到20世紀(jì)50年代。隨著互聯(lián)網(wǎng)的飛速發(fā)展,人們對語言翻譯的需求與日俱增。機(jī)器翻譯,即通過計算機(jī)將一種語言的文本翻譯成
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 提升會計審計能力的重要性計劃
- 保安工作計劃公共交通公交車部門
- 核心庫存管理與優(yōu)化實踐計劃
- 學(xué)校美術(shù)資源共享平臺建設(shè)計劃
- 二年級數(shù)學(xué)(上)計算題專項練習(xí)匯編
- 二年級數(shù)學(xué)(上)計算題專項練習(xí)
- 光場技術(shù)在氣膜孔中的檢測應(yīng)用
- 醫(yī)院采購衣柜合同范例
- 副導(dǎo)演合同范例
- 農(nóng)村建房鋼材合同范例
- 《國有企業(yè)采購操作規(guī)范》【2023修訂版】
- 五年級語文下冊第五單元【教材解讀】-【單元先導(dǎo)課】
- 2023-2024學(xué)年山東省淄博市高青縣七年級下學(xué)期期中考試英語試題 (含答案)
- DQ-廠房設(shè)施設(shè)計確認(rèn)方案
- 常用中藥飲片介紹PPT幻燈片
- 各國鋼材牌號對照大全
- MSA-測量系統(tǒng)分析模板
- 屈原《國殤》課件
- 電機(jī)與變壓器(第6版)PPT完整全套教學(xué)課件
- 休克病人的麻醉處理
- 中考數(shù)學(xué)計算題100道
評論
0/150
提交評論