




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
人工智能應用導論全套可編輯PPT課件項目一認識人工智能——揭開人工智能的面紗項目二駕馭物體識別——讓機器更聰明項目三語音識別技術應用——讓機器對你言聽計從項目四人臉識別技術應用——機器也認識你項目五多姿多彩的生活——人工智能應用秀項目一
認識人工智能——揭開人工智能的面紗全套可編輯PPT課件目錄CONTNETS人工智能知識認知人工智能應用支撐認知人工智能技術發(fā)展歷程探究1234探究新職業(yè)——人工智能訓練師知識目標1.了解人工智能的定義。2.理解現(xiàn)代人工智能及分類。3.了解人工智能發(fā)展歷程。4.了解我國人工智能發(fā)展現(xiàn)狀和戰(zhàn)略規(guī)劃。技能目標1.會搜集信息、辨別信息。2.能制作符合模型訓練要求的圖像數(shù)據(jù)集。素養(yǎng)目標1.樹立文化自信,增強民族自豪感。2.培養(yǎng)學生正確面對曲折和困難的人生觀。人工智能知識認知01全套可編輯PPT課件一、人工智能的概念23145(5)應用領域的“人工智能”。人工智能是一門綜合學科,主旨是研究和開發(fā)出智能實體,在這一點上它屬于工程學。(4)研究領域的人工智能。人工智能是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術學科,它是計算機科學的一個分支。(2)《人工智能標準化白皮書(2018年)》里的人工智能。人工智能是利用數(shù)字計算機或者由數(shù)字計算機控制的機器。(3)人工智能之父眼里的人工智能。人工智能之父——約翰·麥卡錫對人工智能的定義是“制造智能機器的科學與工程,特別是智能計算機程序”。(1)新華詞典在線版里的人工智能。人工智能是計算機科學的一個分支,研究應用計算機來模擬人類的某些智力活動,從而代替人類的某些腦力勞動。全套可編輯PPT課件名人故事如果說阿蘭圖靈是人工智能的奠基者,駝明斯基則可以說是人工智能的推動者。其一生雖不像圖靈那樣傳奇,但也足以享譽后世。聯(lián)合發(fā)起達特茅斯會議人工智能的起源,公認是1956年的達特茅斯會議。這年夏季,達特茅斯學院數(shù)學助理教授麥卡錫(JohnMcCarthy)、時任哈佛大學數(shù)學與神經(jīng)學初級研究員的馬文明斯基、IBM信息研究經(jīng)理羅切斯特(NathanielRochester)、信息論的創(chuàng)始人克勞德香農(nóng)(Claude
Shannon)等一批有遠見卓識的年輕人聚集在一起,圍繞著“自動計算機”、“如何為計算機編程使其能夠使用語言”、"神經(jīng)網(wǎng)絡”、“計算規(guī)模理論”等-系列對于當時的世人而言完全陌生的話題,共同進行了探討和研究,并首次提出了"人工智能”這一術語,標志著“人工智能”這門新興學科的正式誕生。(二)感知智能感知智能是指機器具有類似人的感知能力,如視覺、聽覺等,不僅可以聽懂、看懂,還可以基于此做出判斷并做出反饋或采取行動,即“能聽會說,能看會認”。(一)計算智能計算智能是指機器可以像人類一樣存儲、計算和傳遞信息,幫助人類存儲和快速處理海量數(shù)據(jù),有利于算法的優(yōu)化和硬件的技術進步。這一階段是感知智能和認知智能的基礎。(三)認知智能認知智能是指機器能夠像人一樣主動思考并采取行動,全面輔助或替代人類工作,是人工智能的最高級形態(tài),也是行業(yè)未來的著力點。二、人工智能的三個方面三、人工智能的未來人工智能在未來是否會擁有意識,現(xiàn)在我們還不得而知。但是,很多研發(fā)人員和工程師希望人工智能可以擁有意識。數(shù)字克隆人是人工智能在未來的發(fā)展方向之一。數(shù)字克隆人是人類個體的思維方式和興趣愛好的數(shù)字復制品,但是,數(shù)字克隆人的開發(fā)可能只是一種用于實現(xiàn)人格的技術。2015年左右,人們已經(jīng)開發(fā)出用于實現(xiàn)此目標的傳感技術。由此實現(xiàn)了很多事情,例如,根據(jù)圖像來推測面部表情,并將其與情緒關聯(lián)等。今后利用傳感技術模擬人格的嘗試會越來越多。知識鏈接金融本來就是數(shù)字的游戲,不過現(xiàn)在正從數(shù)字(number)轉向數(shù)據(jù)(data)。金融機構通過數(shù)據(jù)分析客戶信用,進行詐騙檢測、證券交易等。三、金融3現(xiàn)階段,工業(yè)企業(yè)在智能制造趨勢下紛紛開始探索智能化轉型的路徑,基于工業(yè)大數(shù)據(jù)分析的工業(yè)智能蘊藏著巨大商業(yè)價值的革命性技術,越來越多地受到企業(yè)青睞。一、工業(yè)1人工智能可以在醫(yī)療行業(yè)多個流程中發(fā)揮價值,問診、醫(yī)療報告生成、初步篩查、醫(yī)療影像的輔助診斷等。四、醫(yī)療4目前,人工智能在商業(yè)中得到了廣泛的應用,其包括智能客服機器人、決策支持、預測營銷、語音搜索、圖像識別等,相信人工智能在商業(yè)中的應用將有著良好的發(fā)展前景。二、商業(yè)2人工智能技術發(fā)展歷程探究02一、人工智能的第一次高峰1950年,一名在校大四學生馬文·明斯基與他的同學鄧恩·埃德蒙建造了世界上第一臺神經(jīng)網(wǎng)絡計算機,這被視為人工智能的起點。1956年,在達特茅斯學院舉辦的一次會議上,計算機專家約翰·麥卡錫提出了“人工智能”一詞。人們在達特茅斯會議上正式確立了人工智能這一術語,對人工智能的學術研究也正式拉開序幕。二、人工智能的第一次低谷20世紀70年代,人工智能進入了一段痛苦而艱難的歲月。科研人員在人工智能的研究中對項目難度預估不足,導致與美國國防高級研究計劃署的合作計劃失敗,使人工智能的前景蒙上了一層陰影。與此同時,社會輿論的壓力也慢慢壓向人工智能這邊,導致很多研究經(jīng)費被轉移到了其他項目上。當時,人工智能面臨三個技術瓶頸:①計算機性能不足。②問題的復雜性高。③數(shù)據(jù)量嚴重不足。三、人工智能的崛起1980年,卡內(nèi)基梅隆大學為數(shù)字設備公司設計了一套名為XCON的“專家系統(tǒng)”。這是一種采用人工智能程序的系統(tǒng),是具有完整專業(yè)知識和經(jīng)驗的計算機智能系統(tǒng),可以簡單地將其理解為“知識庫+推理機”的組合。這套系統(tǒng)在1986年之前能為公司每年節(jié)省下來超過4000萬美元的經(jīng)費。這種商業(yè)模式衍生出了像Symbolics、LispMachines等和IntelliCorp、Aion等硬件、軟件公司。在這個時期,僅專家系統(tǒng)產(chǎn)業(yè)的價值就高達5億美元,人工智能應用再次進入繁榮期。四、人工智能的第二次低谷1987年,蘋果和IBM公司生產(chǎn)的臺式機性能都超過了Symbolics等廠商生產(chǎn)的專家系統(tǒng)通用計算機,從此,專家系統(tǒng)風光不再,曾經(jīng)轟動一時的人工智能系統(tǒng)就此宣告結束其歷史進程,人工智能應用再次進入低谷期。五、人工智能再次崛起1997年5月11日,IBM的計算機系統(tǒng)“深藍”戰(zhàn)勝了國際象棋世界冠軍卡斯帕羅夫。20世紀90年代中期,隨著AI技術尤其是神經(jīng)網(wǎng)絡技術的逐步發(fā)展,以及人們對AI開始抱有客觀理性的認知,人工智能技術開始進入平穩(wěn)發(fā)展時期。2006年,Hinton在神經(jīng)網(wǎng)絡的深度學習領域取得突破,人類又一次看到機器趕超人類的希望,這是人工智能標志性的技術進步。2009年,IBM首席執(zhí)行官彭明盛首次提出“智慧地球”這一概念。1978年3月,鄧小平發(fā)表了“科學技術是生產(chǎn)力”的重要講話,提出“向科學技術現(xiàn)代化進軍”的戰(zhàn)略決策。20世紀70年代末至20世紀80年代前期,一些人工智能相關項目已被納入國家科研計劃。一、科研起步階段二、產(chǎn)業(yè)快速發(fā)展階段清華大學成功研發(fā)出的人臉識別系統(tǒng)以及智能問答技術都已經(jīng)獲得了應用。中科院自動化所成功研發(fā)了“寒武紀”芯片并建成了類腦智能研究平臺。華為也推出了MoKA人工智能系統(tǒng)。知識鏈接新技術推動學科建設和催生新職業(yè)。2018年4月,教育部在研究制定《高等學校引領人工智能創(chuàng)新行動計劃》時確定設立人工智能專業(yè),進一步完善中國高校人工智能學科體系,旨在培養(yǎng)中國人工智能產(chǎn)業(yè)的應用型人才,推動人工智能一級學科建設。三、國家戰(zhàn)略規(guī)劃發(fā)展階段四、國際上人工智能領域的發(fā)展現(xiàn)狀(一)資源層:數(shù)據(jù)及算力的大幅提升將AI推向浪潮之巔(二)技術環(huán)境:開源框架大幅降低開發(fā)門檻(三)外部環(huán)境:政策助力,人工智能迎來發(fā)展良機知識鏈接探究新職業(yè)——人工智能訓練師03一、創(chuàng)建圖像分類模型(5)信息填寫完成后,單擊“完成創(chuàng)建”按鈕即可創(chuàng)建成功。在左側導航欄“我的模型”標簽頁中即可看到所創(chuàng)建的模型。(4)在信息填寫頁面中填入“模型名稱”“郵箱地址”“聯(lián)系方式”和“業(yè)務描述”,選擇“模型歸屬”,所有帶有星號的選項都必須填寫。(1)打開EasyDL圖像官網(wǎng),進入EasyDL圖像頁面。(3)進入圖像分類模型管理界面,在左側的導航欄中,選擇“我的模型”標簽頁。(2)單擊“立即使用”按鈕,在彈出來的“選擇模型類型”對話框中選擇“圖像分類”選項,進入登錄界面,輸入賬號和密碼。二、上傳數(shù)據(jù)(1)選擇左側導航欄中的“數(shù)據(jù)總覽”標簽頁,單擊“創(chuàng)建數(shù)據(jù)集”按鈕,進入創(chuàng)建數(shù)據(jù)集信息填寫頁面。01(2)按照提示填寫信息。在“數(shù)據(jù)集名稱”一欄可輸入你自己取的數(shù)據(jù)集名稱,其他均為默認項,無需修改。02(3)數(shù)據(jù)集創(chuàng)建成功后,在界面中將出現(xiàn)該模型的數(shù)據(jù)集信息,包括版本、數(shù)據(jù)集ID、數(shù)據(jù)量、標注類型、標注狀態(tài)、清洗狀態(tài)等。03(4)單擊“導入”鏈接,進入導入數(shù)據(jù)頁面,在“數(shù)據(jù)標注狀態(tài)”一欄選中“無標注信息”單選按鈕,在“導入方式”一欄選擇“本地導入”和“上傳壓縮包”選項。04(5)此時數(shù)據(jù)開始導入,數(shù)據(jù)導入狀態(tài),等待數(shù)據(jù)全部導入。05三、標注數(shù)據(jù)(1)數(shù)據(jù)集導入完成后,可以看到最近導入狀態(tài)已更新為“已完成”,數(shù)據(jù)量、標注狀態(tài)操作都有變化。(2)添加標簽“貓”和“狗”,單擊“添加標簽”按鈕,輸入“貓”,單擊“確定”按鈕,標簽就添加成功了。(3)標簽添加完成后,即可進行數(shù)據(jù)標注。(5)利用相同的方法完成“貓”的圖像的標注,全部標注完成后的效果。(4)選中所有代表狗的圖像,單擊右側標簽欄下對應的標簽名“狗”,即可進行標注。四、訓練模型(2)添加完數(shù)據(jù)集,訓練模型頁面的添加數(shù)據(jù)集效果,其他參數(shù)取默認值,然后單擊“開始訓練”按鈕。(3)在彈出的對話框中,單擊“繼續(xù)訓練”按鈕,即可繼續(xù)進行訓練。(5)在版本配置界面,可以查看該訓練任務的開始時間、任務時長、訓練時長及訓練算法等基本信息。(4)單擊“訓練狀態(tài)”→“訓練中”旁的感嘆號圖標,可查看訓練進度。(1)選擇模型訓練,進入訓練模型頁面,分別選擇模型、選擇算法、添加數(shù)據(jù)集。五、校驗和發(fā)布(1)單擊“校驗”鏈接,進入校驗模型頁面,單擊“啟動校驗”按鈕,再單擊頁面中間的“點擊添加圖片”按鈕。(2)校驗完成后,在頁面中可以看到模型的識別結果,在頁面右側可以查看預測分類及其對應的置信度。(6)進入“體驗H5”的“完成”頁面。此時即可拿起手機,掃二維碼進行測試。(4)回到我的模型列表中,模型服務狀態(tài)為“發(fā)布中”。(5)模型發(fā)布成功后,服務狀態(tài)為“已發(fā)布”,同時操作頁面中會增加“體驗H5”鏈接。(3)選擇“發(fā)布模型”進入發(fā)布模型頁面,填寫服務名稱和接口地址,完成后單擊“提交申請”按鈕后進入發(fā)布狀態(tài)。一、認識人工智能訓練師人工智能訓練師的主要任務包括以下五個方面。(1)標注和加工圖片、文字、語音等業(yè)務的原始數(shù)據(jù)。(2)分析提煉專業(yè)領域特征,訓練和評測人工智能產(chǎn)品相關算法、功能和性能。(3)設計人工智能產(chǎn)品的交互流程和應用解決方案。(4)監(jiān)控、分析、管理人工智能產(chǎn)品應用數(shù)據(jù)。(5)調整、優(yōu)化人工智能產(chǎn)品參數(shù)和配置。二、人工智能訓練師典型工作任務(一)數(shù)據(jù)標注數(shù)據(jù)標注是使用工具對未經(jīng)處理的圖片、文本、語音及其他原始數(shù)據(jù)進行加工處理,并進一步轉換為機器可識別信息的過程。(二)模型訓練人工智能的模型本質上就是訓練機器用不同的算法來掌握一個個不同的規(guī)則,然后舉一反三。知識鏈接知識拓展人工智能訓練師職業(yè)技能標準1.具備扎實的人工智能學科知識和技能,包括機器學習、深度學習、自然語言處理等相關領域的理論和實踐能力。2.能夠熟練運用常用的人工智能算法和工具,如TensorFlow、PyTorch、Scikit-learn等,用于數(shù)據(jù)預處理、模型訓練和評估。3.具備良好的編程能力,熟悉常見的編程語言,如Python、Java、C++等,能夠編寫高效且可維護的代碼。4.具備豐富的數(shù)據(jù)處理和數(shù)據(jù)分析經(jīng)驗,能夠從大規(guī)模數(shù)據(jù)中提取特征、進行數(shù)據(jù)清洗、數(shù)據(jù)可視化等,為模型的訓練提供有力支持。5.能夠獨立完成人工智能項目的設計、開發(fā)和部署,具備項目管理和團隊協(xié)作的能力,能夠有效地與產(chǎn)品經(jīng)理、工程師和領導進行溝通。6.具備出色的問題解決和創(chuàng)新能力,能夠從多個角度分析和解決復雜的人工智能問題,提供有效的解決方案和改進建議。人工智能應用支撐認知04一、人工智能技術基礎支撐——算力AI芯片部署的位置有云端、終端兩種。云端,即數(shù)據(jù)中心,在深度學習的訓練階段需要極大的數(shù)據(jù)量和運算量,單一處理器無法獨立完成,因此,訓練環(huán)節(jié)只能在云端實現(xiàn)。(三)AI芯片應用近年來,已有不少超算中心運用了人工智能芯片和服務器來強化其算力,用于提升對人工智能產(chǎn)業(yè)的服務能力,也可以說是對傳統(tǒng)超算中心進行“AI化”。(四)智算中心算力(也稱作計算力),是設備的計算能力,也是數(shù)據(jù)處理的能力。AI的許多數(shù)據(jù)處理涉及矩陣乘法和加法。(一)人工智能的算力從廣義范疇上講,面向AI計算應用的芯片都可以稱為AI芯片。在狹義上,AI芯片指專門針對AI算法做了特殊加速設計的芯片,以GPU、FPGA、ASIC為代表的AI芯片,是基于傳統(tǒng)芯片架構對某類特定算法或者場景進行AI計算加速的芯片。(二)AI芯片二、人工智能技術基礎支撐——算法1234(一)算法的定義算法是指在解決某個問題的時候,按照某種計算方法及步驟進行處理的過程。(二)機器學習的概念機器學習用于研究怎樣讓計算機具備像人類一樣的學習能力,通過數(shù)據(jù)或經(jīng)驗不斷優(yōu)化計算機算法的性能,是人工智能的核心部分。機器學習根據(jù)學習方式的不同可以分為監(jiān)督學習、無監(jiān)督學習、強化學習三類。(三)深度學習的概念深度學習是機器學習的一個子集,是指通過模仿人類大腦的思考和學習方式。(四)神經(jīng)網(wǎng)絡的概念生物神經(jīng)網(wǎng)絡是指由生物的大腦神經(jīng)元、細胞、觸點等組成的網(wǎng)絡。三、人工智能技術基礎支撐——數(shù)據(jù)(一)數(shù)據(jù)采集(二)數(shù)據(jù)的采集源及采集方式(四)數(shù)據(jù)預處理(五)數(shù)據(jù)標注(三)采集的數(shù)據(jù)類型劃分通常情況下,數(shù)據(jù)可以被分為非結構化數(shù)據(jù)、結構化數(shù)據(jù)以及半結構化數(shù)據(jù)三種類型。在數(shù)據(jù)處理流程中,采集的數(shù)據(jù)決定了數(shù)據(jù)分析挖掘的上限。第一類是終端數(shù)據(jù)。第二類是開放數(shù)據(jù)。第三類是專有平臺的數(shù)據(jù)。第四類是物理數(shù)據(jù)。第五類是主觀性數(shù)據(jù)。第六類是數(shù)據(jù)庫的數(shù)據(jù)。1.數(shù)據(jù)清洗2.數(shù)據(jù)集成3.數(shù)據(jù)變換4.數(shù)據(jù)規(guī)約標注原始數(shù)據(jù)并準備將其應用于機器學習模型和其他AI工作流的過程稱為數(shù)據(jù)標注。知識鏈接1.數(shù)理邏輯方法與專家系統(tǒng)2.模糊控制技術3.計算智能與進化計算及遺傳算法5.神經(jīng)網(wǎng)絡4.分布式人工智能與多智能體技術0105040302人工智能技術的主要技術領域有以下五個方面。感謝觀看人工智能應用導論
項目二
駕馭物體識別——讓機器更聰明目錄CONTNETS植物檢測手寫數(shù)字識別探究鳶尾花品種1234識別圖像中的動物知識目標1.了解圖像識別、生物特征識別。2.了解智能識別的應用及發(fā)展。3.了解圖像分類問題類型以及常見圖像分類方法步驟。技能目標1.能根據(jù)項目需求采用合理方法進行數(shù)據(jù)采集。2.會對采集后的數(shù)據(jù)進行簡單處理。3.能夠聯(lián)系實際生活,列舉出智能識別的應用。素養(yǎng)目標1.培養(yǎng)學生科技創(chuàng)新意識。2.養(yǎng)成正向的人工智能對社會發(fā)展的價值觀。植物檢測01一、植物檢測中的數(shù)據(jù)采集要實現(xiàn)目標檢測,就需要對有答案的目標圖片進行學習。本次植物檢測項目需要檢測上海青、生菜、芹菜和苦苣菜四類植物,因此,我們需要大量采集這四類植物不同生長狀態(tài)、不同角度的圖像數(shù)據(jù),為后續(xù)的數(shù)據(jù)標注、機器學習做準備。目前采集圖像數(shù)據(jù)的方式有很多種,比如以下幾種:(1)使用手機(相機)拍攝照片。(2)使用手機(相機)拍攝視頻,然后轉換為圖像。(3)使用爬蟲技術從網(wǎng)絡上獲取。二、數(shù)據(jù)標注(一)安裝LabelImg工具在進行數(shù)據(jù)標注之前,需要先安裝LabelImg。在Anaconda中安裝和啟動LabelImg的方法如下:(1)打開Anacondaprompt,輸入命令pipinstalllabelimg進行安裝。(2)安裝成功后,直接輸入命令labelimg即可打開LabelImg標注工具。LabelImg軟件界面,如圖2-1所示。二、數(shù)據(jù)標注(二)使用LabelImg標注并制作植物檢測的數(shù)據(jù)集(1)準備兩個文件夾JPEGImages和Annotations,將要進行標注的圖片全部放到JPEGImages里面,Annotations用來保存標注好的xml圖像信息文件。01(2)選擇數(shù)據(jù)集格式。02(4)打開要標注的圖像文件后,使用工具欄中的Create\nRectBox開始畫框。04(3)加載數(shù)據(jù)和確定數(shù)據(jù)保存文件夾。03(5)點擊左側工具欄的NextImage圖標轉到下一張圖片。05三、搭建YOLOv3虛擬環(huán)境(一)創(chuàng)建虛擬環(huán)境步驟1:打開AnacondaPrompt,輸入condacreate-ntf_115python==3.7指令,即創(chuàng)建一個名字為tf_115的虛擬環(huán)境。接著會提示是否繼續(xù),輸入“y”繼續(xù)創(chuàng)建,如圖2-6所示。步驟2:安裝tensorflow-gpu1.15版本,并測試tensorflow是否成功調用GPU。輸入命令pipinstalltensorflow-gpu==1.15。注意:本任務對應的是tensorflow-gpu1.15版本。三、搭建YOLOv3虛擬環(huán)境(二)安裝本任務需要的其他庫打開AnacondaPrompt,注意要先進入之前創(chuàng)建的tf_115的虛擬環(huán)境(即輸入命令condaactivatetf_115),然后分別輸入以下命令:pipinstallopencv-pythonpipinstallkeras==2.1.5pipinstallpillowpipinstallmatplotlibpipinstallnumpypipinstallh5py==2.10運行命令后的效果如圖2-11所示。四、制作數(shù)據(jù)集23145(5)修改model_data文件夾下的voc_classes.txt文件,將類別修改為植物檢測中的四類標注信息。(4)運行voc_annotation.py文件,會得到3個后綴為.txt的文件,它們對應的是訓練集、測試集以及驗證集的圖片的名稱。(2)回到PyCharm中,在VOC2007文件夾中新建train_text.py文件,并寫入如下代碼,目的是將我們的xml文件切分為訓練集和測試集,這里設置的兩者比例是8∶2。(3)此時,test.txt、train.txt、val.txt這幾個文件并不能直接被YOLOv3讀取,需要再進行一次轉換。(1)把數(shù)據(jù)集文件夾放在項目文件夾的根目錄下。五、使用Kmeans算法獲得先驗框anchor_box事實上,制作完數(shù)據(jù)集后就可以對其進行訓練了。但是因為當前的anchor_box是原作者在coco數(shù)據(jù)集上通過Kmeans得到的,并不一定適合我們現(xiàn)在的植物檢測數(shù)據(jù)集,所以我們需要在植物檢測數(shù)據(jù)上使用Kmeans得到9個適合當前數(shù)據(jù)集的anchor_box,以得到最好的檢測框。六、模型訓練(一)制作生成器在開始訓練之前,我們需要把數(shù)據(jù)集制作成一個生成器的結構,以便一邊訓練,一邊讀取數(shù)據(jù),可以大大減輕內(nèi)存的壓力。(四)main函數(shù)定義一個main函數(shù),并對其進行調用。(五)建立文件夾目錄在keras-yolo3-master文件夾下建立文件夾目錄logs/000,用于保存訓練生成的模型。(二)編寫其他函數(shù)與構建模型編寫其他函數(shù)用來讀取txt文件中的數(shù)據(jù)以及構建訓練模型。具體內(nèi)容包括獲取數(shù)據(jù)標注的標簽名稱、獲取anchors_box、創(chuàng)建模型結構。(三)編寫訓練函數(shù)我們在訓練時還可以使用回調函數(shù)對訓練過程進行控制。比如,使用ModelCheckpoint()函數(shù)可以自動保存最佳的模型,使用ReduceLRonPlateau()函數(shù)可以控制學習自動率衰減。知識鏈接一、目標檢測算法——YOLO(二)YOLOv2YOLOv2是YOLO系列的第一個改進版本,它首次提出了以DarkNet19作為主干網(wǎng)絡,并使用全卷積代替了全連接。(四)YOLOv4YOLOv4是YOLO系列的第三個改進版本,它將YOLOv3中的算法和目前主流的算法通過實驗進行整合。(一)YOLOv1YOLOv1首先將resize(圖像大小)調整到448×448并輸入448×448×3的一個彩色圖像,然后輸出7×7×30的多維向量。這里的7×7×30可分為7×7和30兩個部分。(三)YOLOv3YOLOv3是YOLO系列的第二個改進版本,它將YOLOv2中的DarkNet19改為特征提出能力更強的DarkNet53。1234知識鏈接搭建植物檢測模型訓練平臺需要用到Anaconda、PyCharm和Keras。Anaconda使用的是一個開源的Python發(fā)行版本,包含了conda、Python等180多個科學包及其依賴項。PyCharm是由JetBrains打造的一款PythonIDE,帶有一整套可以幫助用戶在使用Python語言開發(fā)時提高其效率的工具。Keras是一個用Python編寫的高級神經(jīng)網(wǎng)絡API。三、植物檢測模型訓練平臺搭建(一)VOC數(shù)據(jù)集VOC數(shù)據(jù)集實際上是一個名為PASCALVOC的世界級的計算機視覺挑戰(zhàn)賽中的數(shù)據(jù)集,很多模型都基于此數(shù)據(jù)集推出,如目標檢測領域的YOLO、SSD等。(二)COCO數(shù)據(jù)集COCO數(shù)據(jù)集的英文全稱為MicrosoftCommonObjectsinContext(MSCOCO),它是一個包括大規(guī)模的對象檢測、分割、關鍵點檢測和字幕數(shù)據(jù)集。二、目標檢測中的公開數(shù)據(jù)集小貼士拍攝花朵小技巧1.靈活找角度有時候拍照會發(fā)現(xiàn)怎么拍都不好看,那可能就是角度的問題,你要多用雙腳尋找好的角度,靈活運用不同的角度,拍照后對比一下,選出最好看的一張來。2.學會構圖構圖是欣賞者的第一感,它決定了畫面的沖擊力,給人整體觀感上的美。構圖一是要大氣,線條、輪廓要鮮明、有力,畫面要完整,細部符合黃金分割律;這么說可能有點抽象,最簡單的構圖辦法就是把手機自帶的九宮格線對上,焦點選在線條之間的交叉點上。3.裁剪大小如果沒有特別需求(比如做壁紙或者封面)的話,可以裁剪、自定義尺寸最好,裁剪的目的是為了精準構圖,還是用構圖線作參考,把邊角上雜七雜八的畫面都裁掉。這些不裁可能會干擾視線。探究鳶尾花品種02一、確定鳶尾花最佳的品種數(shù)k值(一)導入相關的第三方庫及模塊因為要對鳶尾花樣本數(shù)據(jù)進行聚類,在讀取樣本數(shù)據(jù)的基礎上,除進行聚類操作外,還要計算輪廓系數(shù)和繪制輪廓系數(shù)的變化折線圖,所以要通過以下代碼導入相關的第三方庫及模塊。fromsklearn.clusterimportKMeansfromsklearn.metricsimportsilhouette_scoreimportmatplotlib.pyplotaspltimportpandasasp一、確定鳶尾花最佳的品種數(shù)k值(二)繪制k值與輪廓系數(shù)的變化關系圖假設k的取值范圍為[2,8],在不同k值條件下,對樣本數(shù)據(jù)進行聚類訓練,然后計算對應的輪廓系數(shù),最后繪制出k值與輪廓系數(shù)的變化關系圖。實現(xiàn)代碼如下。1iris_datas=pd.read_csv(r'data\iris.csv',sep=',')2sc=[]3foriinrange(2,9):4kmeans=KMeans(n_clusters=i,random_state=151).fit(iris_datas)5score=silhouette_score(iris_datas,kmeans.labels_)6sc.append(score)7plt.plot(range(2,9),sc,linestyle='-')8plt.xlabel('k')二、繪制鳶尾花聚類后的結果散點圖(一)按k=3對鳶尾花樣本數(shù)據(jù)進行聚類鳶尾花有4個特征數(shù)據(jù),取所有特征數(shù)據(jù)進行k均值算法訓練,代碼如下。iris_datas=pd.read_csv(r'data\iris.csv',sep=',')kmeans3=KMeans(n_clusters=3,random_state=151).fit(iris_datas)訓練結束后,通過以下代碼觀察聚類后的簇號分布情況。kmeans3.labels_代碼的運行結果,如圖2-28所示。二、繪制鳶尾花聚類后的結果散點圖(二)繪制聚類后樣本的散點圖為比較直觀清晰地了解聚類后的樣本分布情況,按鳶尾花不同的特征數(shù)據(jù)來繪制對應散點圖,用不同的顏色來區(qū)分樣本類別。代碼如下。1plt.rcParams['font.sans-serif']=['SimHei']2plt.figure(figsize=(15,8))3ax1=plt.subplot(221)4plt.scatter(iris_datas['Sepal.Length'],iris_datas['Sepal.Width'],c=kmeans3.labels_)5ax1.set_xlabel('(a)花萼長度')6ax1.set_ylabel('花萼寬度')7ax2=plt.subplot(222)知識鏈接(一)何為聚類分析聚類分析是一種典型的無監(jiān)督學習,也就是在事先不知道每個樣本的類別,沒有對應標簽值的情況下,將未知類別的樣本按照一定的規(guī)則劃分成若干個類簇。(三)聚類性能度量聚類性能度量指標用于對聚類后的結果進行評估,分為內(nèi)部指標和外部指標兩大類。外部指標要事先指定聚類模型作為參考來評估聚類結果的好壞,稱為有標簽的評估;而內(nèi)部指標是指不借助任何外部參考,只用參與聚類的樣本本身評估聚類結果的好壞。(二)常見聚類方法1.基于劃分的聚類2.基于層次的聚類3.基于密度的聚類一、聚類分析知識鏈接二、k均值聚類k均值聚類算法原理易懂、易于實現(xiàn),當簇間的區(qū)別較明顯時,聚類效果較好。(一)k均值聚類算法原理k均值算法通過樣本間的距離來衡量它們之間的相似度,兩個樣本距離越遠,則相似度越低,否則相似度越高。(二)K均值聚類算法步驟及流程要通過KMeans類來構建一個k均值模型,然后利用該模型進行聚類。k均值模型的主要參數(shù)。(四)認識KMeans類1.k的初值2.初始質心的選擇3.簇號4.聚類結束條件(三)k均值算法應用提示01040302知識鏈接什么是降維?為什么要降維?前文已經(jīng)談到,在衡量采用什么方法來分析數(shù)據(jù)之前,最好能對數(shù)據(jù)的全貌有一個可視化的了解,能從中發(fā)現(xiàn)一些內(nèi)在規(guī)律或啟示,以便更好地指導人們選擇相對合理的方法來解決問題。通常只在二維或三維的空間可視化數(shù)據(jù),但原始數(shù)據(jù)的實際維度可能是四維甚至更高維度。采用數(shù)據(jù)降維的方法將原始數(shù)據(jù)的維度降為二維或三維,以便進行可視化處理來直觀了解數(shù)據(jù)的分布。除此之外,數(shù)據(jù)降維還有提高計算速度、提高模型擬合度等好處。三、數(shù)據(jù)降維小貼士數(shù)據(jù)降維的注意事項1.確定降維目標:在進行數(shù)據(jù)降維時,需要明確其目標,通常是將數(shù)據(jù)壓縮或轉換成更少的特征并保留其變化率中最重要的部分。對于不同的應用場合,可以確定不同的數(shù)據(jù)降維目標。2.確定降維算法:選擇適當?shù)慕稻S算法是非常重要的,可以通過PCA、LDA、t-SNE和UMAP等算法進行數(shù)據(jù)降維,要根據(jù)數(shù)據(jù)特點、降維目標、所需時間等綜合考慮選擇使用哪種算法。3.數(shù)據(jù)的預處理:在進行降維之前,需要對數(shù)據(jù)進行預處理,如歸一化、標準化等,以消除數(shù)據(jù)集的分散性,減少噪聲影響。4.檢查數(shù)據(jù)質量:在進行降維之前,需要檢查數(shù)據(jù)質量,數(shù)據(jù)質量不高會影響降維結果的準確性。如果數(shù)據(jù)存在異常值或不符合分布,需要進行必要的處理,如刪除異常值、填充缺失值等。5.選擇適當?shù)木S度個數(shù):在進行降維之后,需要確定數(shù)據(jù)的最終維數(shù),不同問題下最適合使用的維度個數(shù)不同。選擇合適的維度個數(shù)可以充分體現(xiàn)數(shù)據(jù)的重要特征,同時也可以減少噪聲和冗余。識別圖像中的動物03一、ImageAI模塊的安裝安裝Pillow模塊,安裝命令如下。pip3installpillow安裝Matplotlib模塊,安裝命令如下。pip3installmatplotlib安裝Numpy的版本在1.13.1以上,安裝命令如下。pip3installnumpy安裝TensorFlow的版本在1.4.0以上,安裝命令如下。pip3installtensorflow安裝OpenCV模塊,安裝命令如下。pip3installopencv-python安裝SciPy的版本在0.19.1以上,安裝命令如下。pip3installscipy二、ImageAI模塊實現(xiàn)物體檢測ImageAI模塊中提供了ObjectDetection物體檢測的方法,調用此方法后,使用預先訓練好的模型文件,在模型選擇上首選YOLO,因為速度快,yolo.h5就是YOLO算法的權重文件,加載模型文件后,就可以根據(jù)模型文件的內(nèi)置算法從圖像中進行物體檢測。具體代碼如下。fromimageai.DetectionimportObjectDetectionimportosexecution_path=os.getcwd()detector=ObjectDetection()detector.setModelTypeAsYOLOv3()detector.setModelPath(os.path.join(execution_path,"models/yolo.h5"))detector.loadModel()detections=detector.detectObjectsFromImage(input_image=os.path.join(execution_path,"pandas.png"),output_image_path=os.path.知識鏈接ImageAI支持圖像文件的文件路徑(默認)、圖像數(shù)組和圖像文件流3種輸入類型,以及圖像文件(默認)和數(shù)字數(shù)組2種輸出類型。這意味著可以在生產(chǎn)應用程序中執(zhí)行對象檢測,例如,在以上述任何格式返回文件的Web服務器和系統(tǒng)上。要使用numpy數(shù)組或文件流輸入執(zhí)行對象檢測,只需在.detectObjectsFromImage()函數(shù)或.detectCustomObjectsFromImage()函數(shù)中聲明輸入類型。請參見下面的示例。detections=detector.detectObjectsFromImage(input_type="array”,input_image=image_array,output_image_path=os.path.join(execution_path,"image.jpg”))#numpy數(shù)組輸入detections=detector.detectObjectsFromImage(input_type="stream",input_image=image_stream,output_image_path=os.path.join(execution_path,"test2new.jpg"))#文件流輸入手寫數(shù)字識別04(一)導入相關的庫因為要涉及文件操作和圖像處理,所以要在源程序文件中導入os庫和Image模塊。代碼如下。importosfromPILimportImage(二)定義轉換函數(shù)imgtotext本函數(shù)首先將含有數(shù)字的圖像進行縮放和灰度化處理,然后對圖像逐行掃描,按每個像素點的像素灰度值大小將其轉換成0或者1,轉換規(guī)則如下。大于等于128:轉換成0(表示白色)。小于128:轉換成1(表示黑色)。(三)調用函數(shù)生成TXT文件通過如下形式調用函數(shù)imgtotext,將寫有數(shù)字“3”的圖像信息保存為文本信息。imgtotext(r'data\3.jpg',r'data\3_0.txt')一、數(shù)字圖像信息轉存為TXT文件(二)生成所有樣本的特征值和標簽值所有的訓練樣本數(shù)據(jù)和測試樣本數(shù)據(jù)分別保存在trainingDigits、testDigits文件夾下,因此,需要定義一個函數(shù)convert2dataset,將文件夾下所有的TXT文件轉換成樣本的特征值及對應的標簽值,代碼如下所示。1defconvert2dataset(file_path):2list_file=os.listdir(file_path)3m=len(list_file)4datas=np.zeros((m,1024))5labels=[]6foriinrange(m):7num=int(list_file[i][0])8labels.append(num)9datas[i,:]=txt2array(一)定義一個樣本的數(shù)據(jù)轉換函數(shù)定義函數(shù)txt2array,將一個TXT文件數(shù)據(jù)轉換成數(shù)值類型的數(shù)組,代碼如下所示。1deftxt2array(filename):2X=np.zeros((1,1024))3f=open(filename)4foriinrange(32):5lineStr=f.readline()6forjinrange(32):7X[0,32*i+j]=int(lineStr[j])8returnX二、批量生成樣本數(shù)據(jù)導入模塊sklearn.neighbors中的KNeighborsClassifier分類器,代碼如下。fromsklearn.neighborsimportKNeighborsClassifier(一)導入KNN類(二)構建分類模型利用KNeighborsClassifier類生成KNN模型對象,代碼如下。knn=KNeighborsClassifier(n_neighbors=43,weights='distance',p=2)三、構建KNN模型四、訓練KNN模型(一)用訓練集x_train、y_train來訓練模型調用fit方法對模型進行訓練,代碼如下。knn.fit(x_train,y_train)上述代碼實際上就是讓模型“記住”每個樣本的特征值對應的是哪個數(shù)字標簽,經(jīng)過大量樣本的這種反復訓練,模型就知道靠哪些特征值來識別出對應的數(shù)字了。(二)對訓練后的模型進行評估為了解該模型訓練后的效果,可以從準確率方面做觀察,執(zhí)行以下代碼。knn=score(x_train,y_train)執(zhí)行結果如下。Out[88]:1.0五、評估模型效果(一)測試模型性能測試模型性能就是基于測試樣本用訓練后的模型來預測對應的分類標簽值y_labels,并將其與真實的標簽值y_test進行對比,來驗證模型的正確率、召回率和F1值等性能指標。代碼如下。1fromsklearn.metricsimportclassification_report2y_pred=knn.predict(x_test)3print(classification_report(y_test,y_pred))代碼行1導入classification_report類,代碼行2對模型進行測試,代碼行3是輸出模型性能測試報告,報告內(nèi)容如圖2-40所示。五、評估模型效果(二)通過交叉表了解模型的錯分情況為更全面地了解所有數(shù)字的識別情況,可以通過計算標簽的真實值與預測值的交叉表來詳細了解0~9當中每個數(shù)字被錯誤分類的整體分布情況。執(zhí)行以下代碼以生成混淆矩陣。1fromsklearn.metricsimportconfusion_matrix2y_test=np.array(y_test)3confusion_matrix(y_test,y_pred)4pd.crosstab(y_test,y_pred,rownames=['真實值'],colnames=['預測值'],margins=True)代碼行1導入計算混淆矩陣函數(shù),代碼行2進行類型轉換,將y_test轉換成與y_pred同類型的變量。代碼行3生成測試集的實際值與預測值的混淆矩陣,代碼行4生成分類結果對比交叉表。運行結果如圖2-43所示。知識鏈接1.樣本特征提取樣本特征提取是分類器工作的首要任務,如果待分類對象沒有提取特征,也就沒有分類的依據(jù),就無從辨別對象的種類。2.正、負樣本針對分類問題,正樣本是指想要正確分類出的類別所對應的樣本,負樣本是指不屬于這一類別的樣本。3.分類器分類器通過學習得到一個目標函數(shù)或模型(以下統(tǒng)稱為模型),它能把樣本的特征集X映射到一個預先定義的類別號y。(二)分類器如何工作分類是數(shù)據(jù)挖掘、智能分析中的一種非常重要的方法,利用分類器能夠把數(shù)據(jù)映射到給定類別的某一個類別,從而提供對數(shù)據(jù)有價值的觀察視角,可以幫助機器更好地理解數(shù)據(jù)和預測數(shù)據(jù)。(一)什么是分類器一、分類器知識鏈接二、幾種主要的分類器(一)決策樹決策樹是在已知各種情況發(fā)生概率的基礎上,通過構成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。(五)神經(jīng)網(wǎng)絡分類器神經(jīng)網(wǎng)絡分類器由輸入層、隱藏層和輸出層構成,它通過模仿人腦神經(jīng)系統(tǒng)的組織結構及其某些活動機理,來呈現(xiàn)人腦的許多特征。(四)支持向量機支持向量機是一種有監(jiān)督學習方式,可以進行分類,也可以進行回歸分析。(二)貝葉斯分類器貝葉斯分類器就是對于給定的分類項,利用貝葉斯定理,求解該分類項在預先給定條件下各類別中出現(xiàn)的概率,哪個概率最大,就將其劃分為哪個類別。(三)k近鄰分類器把每個具有n個特征的樣本看作n維空間的一個點,對于給定的新樣本,先計算該點與其他點的距離(相似度),然后將新樣本指派為周圍k個最近鄰的多數(shù)類。感謝觀看
人工智能應用導論
項目三
語音識別技術應用——讓機器對你言聽計從目錄CONTNETS語音數(shù)據(jù)采集聊天機器人語音轉文字1234語音合成5校園智能客服知識目標1.理解語音識別原理。2.了解語音識別技術應用。3.了解自然語言處理關鍵技術。技能目標1.會語音采集和處理的方法。2.能調用API進行語音識別的應用開發(fā)。素養(yǎng)目標1.培養(yǎng)精益求精、專心細致的工作作風。2.培養(yǎng)數(shù)據(jù)保護意識。語音數(shù)據(jù)采集01任務實施1.安裝pyaudio、wave依賴庫。我們采用pipinstall命令方式。2.新建一個Python文件,通過importpyaudio創(chuàng)建PyAudio對象,打開聲卡,創(chuàng)建緩存空間。3.錄音10秒,并且將音頻數(shù)據(jù)存儲到列表。5.錄音結束后,停止并關閉聲卡,參考代碼。不管從數(shù)據(jù)安全還是資源管理方面,這一步操作都是必需的。4.通過wave庫將音頻數(shù)據(jù)寫到wav格式的文件中。SMART32154知識鏈接一、語音識別的過程語音識別是一個非常復雜的任務,能達到今天的實際應用水準實屬不易。它涉及的技術領域主要有信號處理、模式識別、概率論、發(fā)聲機理、聽覺機理和人工智能等。大家都知道,機器只能處理數(shù)字信號,不能直接處理人的語音信號。另外,人在說話的時候,語速有快有慢,每個人的語音、語調也不盡相同,且說話時周圍可能有一定的噪音影響。此外,即便發(fā)音相同(如“擬定”“你定”),但到底表達的是什么意思還要結合語境和上下文來進一步確定。還有,機器要進行預學習,以了解人類在語言交流中要用到哪些語料庫等。不難想象,想讓機器聽懂人的話是很困難的任務,語音識別過程如圖3-7所示。知識鏈接一、語音識別的過程1.語音信號處理2.特征提取3.聲學模型4.語言模型5.解碼搜索(一)語音識別的關鍵要素(1)采集一小段語音,把它轉換成數(shù)字信號,然后進行預加重、分幀和濾波處理,將其分成若干小段。(2)按FBank特征或梅爾頻率倒譜系數(shù)(MelFrequencyCepstralCoefficients,MFCC)特征進行特征提取工作,為聲學模型提供合適的特征向量。(二)語音識別的具體步驟0102知識鏈接二、語音信號文件wav格式wav是微軟開發(fā)的一種文件格式規(guī)范。wav文件分為兩部分。第一部分是“總文件頭”,包括chunkID和ChunkSize兩個信息。chunkID,其值為“RIFF”,占四個字節(jié);ChunkSize,其值是整個wav文件除去chunkID和ChunkSize,后面所有文件大小的字節(jié)數(shù),占四個字節(jié)。第二部分是Format,其值為“wave”,占四個字節(jié)。它包括兩個子chunk(塊),分別是“fmt”和“data”。fmt子chunk中定義了該文件格式的參數(shù)信息,對于音頻而言,包括采樣率、通道數(shù)、位寬、編碼等等;data部分是“數(shù)據(jù)塊”,即一幀一幀的二進制數(shù)據(jù),對于音頻而言,就是原始的PCM數(shù)據(jù)。從語音識別的原理可以知道,將語音數(shù)據(jù)文件存儲為wav格式是最好的。知識鏈接三、Python語音識別庫Python使用者可通過各大平臺提供的開源API在線使用一些語音識別服務,且其中大部分也提供了PythonSDK。如PyPI(PythonPackageIndex,Python語言的官方軟件包索引)中就有很多現(xiàn)成的語音識別軟件包,包括:Apiai;google-cloud-speech;pocketsphinx;SpeechRcognition;watson-developer-cloud;wit。法律小貼士關于個人收集音頻、視頻證據(jù)的相關法律規(guī)定根據(jù)《最高人民法院關于民事訴訟證據(jù)的若干規(guī)定》第六十八條以侵害他人合法權益或者違反法律禁止性規(guī)定的方法取得的證據(jù),不能作為認定案件事實的依據(jù)。第六十九條下列證據(jù)不能單獨作為認定案件事實的依據(jù):(一)未成年人所作的與其年齡和智力狀況不相當?shù)淖C言;(二)與一方當事人或者其代理人有利害關系的證人出具的證言;(三)存有疑點的視聽資料;(四)無法與原件、原物核對的復印件、復制品;(五)無正當理由未出庭作證的證人證言。因此,如果錄音證據(jù)的持有者采用了侵犯他人隱私或者違反法律禁止性的規(guī)定,比如錄有他人隱私或在其工作或住所竊聽取得的錄音資料,仍然會被排除使用。另外,單憑錄音、視頻證據(jù)單證一個事實,證據(jù)容易有瑕疵,需要其他書證或者證人證言佐證。語音轉文字02任務實施1.進入百度AI官網(wǎng),注冊賬號并領取語音識別服務資源,創(chuàng)建語音識別應用。(1)通過單擊百度AI官網(wǎng)首頁右上角的“登錄”鏈接,如圖3-15所示,進入用戶注冊頁面,如圖3-16所示,填寫注冊信息完成注冊。任務實施1.進入百度AI官網(wǎng),注冊賬號并領取語音識別服務資源,創(chuàng)建語音識別應用。(2)注冊成功后請登錄,單擊頁面右上角的“管理控制臺”,如圖3-17所示,進入管理中心頁面,接著打開左側產(chǎn)品服務列表,選擇“人工智能”→“語音技術”,進入“語音技術-概覽”頁面,選擇“創(chuàng)建應用”。任務實施1.進入百度AI官網(wǎng),注冊賬號并領取語音識別服務資源,創(chuàng)建語音識別應用。(3)在創(chuàng)建應用頁面填寫新應用的信息完成應用創(chuàng)建,如圖3-20所示。創(chuàng)建成功后單擊左側的“應用列表”可以查看列表信息,包括應用的AppID、APIKey和SecretKey,這些信息后面調用API的時候需要用到。應用列表頁面。(4)在“語音技術-概覽”頁面領取語音識別和語音合成的免費資源額度。任務實施2.安裝Python依賴包baidu-aip和SpeechRecognition。前面已經(jīng)安裝過wave和pyaudio庫了,此處我們就可以直接引用,但還需要安裝baidu-aip和SpeechRecognition包,參考命令如下:pipinstallbaidu-aippipinstallSpeechRecognition3.學習百度的官方文檔,根據(jù)官方文檔簡介和接口說明編寫代碼實現(xiàn)語音轉文本功能。4.從result中提取轉換后的文本并輸出到屏幕。5.在輸出文本后,播放錄音進行校對。小貼士錄音轉換成文字的注意事項首先,最重要的一點是確保高質量的錄音文件,錄音質量有別于錄像錄音,可以說是以聲音來創(chuàng)造文本的一種方式。其次,需要根據(jù)錄音內(nèi)容的主題選擇合適的錄音轉換軟件,不同的軟件具有不同的適用范圍,如果選擇的軟件不符合錄音文件的特點,可能會影響轉換文本的質量,不僅影響表達效果,還可能使文本內(nèi)容無法正確地理解,從而影響后期應用。再次,要在錄音前做好充分的準備,如進行錄音場所的檢查,確保環(huán)境安靜,除去外界雜音和其它可能影響錄音質量的因素,使錄音文件質量達到最佳;同時,還要根據(jù)具體錄音內(nèi)容確定好順序,了解對象能力,劃分段落,幫助避免不必要的重復說話,并加快錄音轉換文本的速度和質量。最后,在轉換文本的過程中,要確保錄音轉換質量,注意檢查關鍵詞的拼寫及語法,檢查翻譯和術語的準確性,以及句子的連貫性,確保文本盡量形象地表達出錄音內(nèi)容,讓讀者能夠準確理解錄音的主題,可以在每段文字之后留出一點時間來檢查其質量。知識鏈接1234(一)通過硬件輸入聲音信號(二)對輸入的音頻進行信號處理,即進行幀(毫秒級)拆分(三)形成音素(四)將音素組成字詞并串連成句一、語音識別的原理知識鏈接二、語音識別技術(一)端點檢測(二)特征提?。ㄋ模┱Z音識別開源平臺和開放平臺(三)聲學模型01040302語音合成03任務實施參考官網(wǎng)技術文檔中的“接口說明”,調用synthesis方法將text轉換成音頻并以MP3文件保存到本地。3與“語音轉文字任務”一樣,導入AipSpeech,再利用百度應用賬號創(chuàng)建一個client對象。14.利用playsound播報MP3音頻文件。4定義變量text,用來存儲從鍵盤輸入的文本內(nèi)容,也就是我們需要轉換為語音的文本內(nèi)容。2知識鏈接一、語音語音包括三大關鍵部分——語音信息、語音音色和語音韻律。語音信息是指說話的內(nèi)容,就是要轉換成語言的文本信息的內(nèi)容。語音音色是指說話者聲音的特色、個性,俗話說的“未見其人先聞其聲”就說明了音色的重要性。對于語音合成來說,音色的選擇與內(nèi)容要匹配,比如,播報新聞聯(lián)播的聲音用動漫里面的“娃娃音”就不合適。語音韻律就是說話的方式,即說話時聲音的高低、快慢等。知識鏈接二、語音合成技術原理語音合成技術中的聲學系統(tǒng)合成從最初只能合成元音和單音到現(xiàn)在已經(jīng)與真人發(fā)聲無異的效果,科學家們經(jīng)過了長期的努力。根據(jù)技術實現(xiàn)方式大致可以將語言合成技術分為以下六個階段。1.機械模擬階段2.電子合成器階段3.共振峰合成器階段4.單元挑選拼接合成階段5.基于HMM參數(shù)合成階段6.基于深度學習的語音合成階段(二)聲學系統(tǒng)部分1.文本結構與語種判斷當需要合成的文本輸入后,先要判斷是什么語種,再根據(jù)對應語種的語法規(guī)則,把整段文字切分為單個的句子。2.文本標準化在輸入需要合成的文本中,若有阿拉伯數(shù)字或字母,則需要將其轉化為文字。3.文本轉音素在漢語的語音合成中,基本上是以拼音對文字標注的。4.句讀韻律預測人類在語言表達的時候總是附帶著語氣與感情,TTS合成的音頻是為了模仿真實的人聲,所以需要對文本進行韻律預測。(一)語言分析部分知識鏈接三、語音合成技術API服務現(xiàn)在我國各大AI企業(yè)都有對應的免費開放的API為開發(fā)者提供應用服務,例如,百度2018年6月份就發(fā)布了百度語音識別無限量使用。表3-1列舉了我國提供語音合成技術API的部分企業(yè)和其語音合成的技術優(yōu)勢。知識鏈接四、語音合成的應用(二)智能服務類智能服務類產(chǎn)品包括智能語音機器人、智能音響應用等。智能語音機器人產(chǎn)品遍布各行各業(yè)。(三)特殊領域一些特殊領域也非常需要語音合成。比如,對于視障人士來講,以往只能依賴雙手來獲取信息。(一)App應用類語音合成技術在銀行、醫(yī)院的信息播報系統(tǒng),汽車導航系統(tǒng)及自動應答呼叫中心等都有廣泛應用。聊天機器人04任務實施1.導入requests、json、time和random依賴庫。3.定義一個函數(shù)xiaoxin,調用YungeAPI,發(fā)送text然后獲得回復。2.利用random函數(shù)和time方法創(chuàng)建一個隨機字符串,用來區(qū)分每一次對話的對象。4.調用xiaoxin函數(shù),創(chuàng)建閑聊機器人,為了不間斷聊天,我們循環(huán)輸入問題并調用xiaoxin函數(shù)。知識鏈接一、神經(jīng)網(wǎng)絡(一)神經(jīng)元結構1943年,心理學家WarrenMcCulloch和數(shù)學家WalterPits發(fā)明了神經(jīng)元模型,非常類似人類的神經(jīng)元,x1到xm模擬樹突的輸入,不同的權重參數(shù)衡量不同的輸入對輸出的影響,通過加權求和、增加偏置值的方式傳輸出來,再通過激活函數(shù),得到輸出,傳遞下去。(二)神經(jīng)網(wǎng)絡結構神經(jīng)網(wǎng)絡是由多個神經(jīng)元組成的網(wǎng)絡,如圖3-53所示。以手寫數(shù)字識別的項目為例,它們由像素組成,每個像素的值作為輸入層的x1到xn,輸入層的信號傳給不同深度、數(shù)量的神經(jīng)元,并進行加權計算,神經(jīng)元再把信號傳給下一級,最后輸出一個結果y,代表是0~9中的某個數(shù)字。二、聊天機器人(三)Disney——用虛構人物解決犯罪問題迪士尼使用聊天機器人來扮演動畫電影中的角色,邀請電影的粉絲一起解決電影中的犯罪問題。(四)聯(lián)合國兒童基金會——幫助邊緣化社區(qū)這款機器人專注于通過民意調查收集大規(guī)模數(shù)據(jù),定期發(fā)布針對一系列緊急社會問題的民意調查,用戶(即“U-Reporters”)可以回復他們的意見。(一)Endurance——阿爾茨海默病患者的伴侶俄羅斯科技公司Endurance開發(fā)了伴侶聊天機器人,通過機器人采集聊天記錄,醫(yī)生和家人可以通過患者與機器人的聊天記錄來判斷患者識別記憶功能的潛在退化和患者病情惡化的交流障礙。(二)Casper——幫助失眠者度過漫漫長夜Casper是一個旨在讓失眠者與其他人交談的網(wǎng)絡聊天機器人,可驅散失眠者的孤獨,陪伴其度過漫漫長夜。三、聊天機器人API01(一)圖靈機器人API圖靈機器人具有智能對話、知識庫、技能服務三種核心功能,它能準確地對中文語義進行理解,人們可以借助圖靈機器人的API接口,根據(jù)自己的需要創(chuàng)建聊天機器人、客服機器人、領域對話問答機器人、兒童陪伴機器人等在線服務。02(二)青云客API青云客提供了聊天機器人的調用接口,并提供了API文檔,目前不需要注冊,完全免費。03(三)騰訊閑聊機器人API騰訊閑聊機器人基于AILab領先的NLP引擎能力、數(shù)據(jù)運算能力和千億級互聯(lián)網(wǎng)語料數(shù)據(jù)的支持,同時集成了廣泛的知識問答能力,可實現(xiàn)上百種自定義屬性配置,以及男、女不同的語言風格及說話方式,從而讓聊天變得更睿智、簡單和有趣。小貼士聊天機器人背后的風險(一)數(shù)據(jù)安全風險以ChatGPT用戶數(shù)據(jù)泄漏事故為例,在使用AI產(chǎn)品的過程中,相關個人、金融、商業(yè)隱私等的敏感信息數(shù)據(jù)存儲于各個AIGC公司的數(shù)據(jù)庫中,一旦泄露容易對用戶的個人隱私安全造成威脅。(二)虛假、違法信息傳播風險AI產(chǎn)品的開發(fā)和改進需要一個包含公眾反饋的迭代過程,而當下市場上的產(chǎn)品架構遠遠未到成熟階段,不可避免地存在漏洞。一旦被攻擊者利用,加入偽裝數(shù)據(jù)或者惡意樣本,會讓模型產(chǎn)生不正確或誤導性的結果,甚至可能生成虛假信息、誘騙信息等不良信息,破壞網(wǎng)絡輿論生態(tài)。(三)知識產(chǎn)權/著作權侵權風險AI產(chǎn)品,尤其是聊天機器人的答案生成需要依托于海量的文本數(shù)據(jù),通過對數(shù)據(jù)集進行監(jiān)督學習、強化學習從而優(yōu)化輸出的內(nèi)容。(四)深度偽造風險AI產(chǎn)品還存在著被用于制作虛假的文本、音頻、視頻等深度偽造的內(nèi)容的風險。例如AI換臉、語音模擬、人臉合成、視頻生成等深度偽造技術應用場景。校園智能客服05(二)分詞處理——jieba庫中文自然語言分詞處理中最簡單實用的就是jieba分詞處理,也稱為jieba庫,是完全“MadeinChina”的一個分詞處理技術。(一)建立問答庫FAQ(FrequentlyAskedQuestions)指常見問題的解答,具體形式是問題和與問題相關的答案組成的問答對(QApair)。(三)分詞過濾——停用詞在信息檢索中,為節(jié)省存儲空間和提高搜索效率,在處理自然語言數(shù)據(jù)(或文本)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為停用詞(StopWords)。一、構建語料庫二、語料庫訓練基于信息檢索是實現(xiàn)智能問答系統(tǒng)的經(jīng)典方法,詞頻—逆向文檔頻度(TermFrequency-InverseDocumentFrequency,TF-IDF)就是其中常用的信息檢索算法。TF-IDF算法是一種針對關鍵詞的統(tǒng)計分析方法,用來評估一個詞對一個文件集或者一個語料庫的重要程度。TF-IDF算法認為,一個詞的重要程度跟它在文章中出現(xiàn)的次數(shù)成正比,但跟它在語料庫中出現(xiàn)的次數(shù)成反比。TF-IDF實際包含兩層含義:一層是TF(TermFrequency),表示“詞頻”;另一層是IDF(InverseDocumentFrequency),表示“逆向文檔頻率”。三、句子相似度計算句子相似度是指兩個句子之間相似的程度,在自然語言處理中有很大的用處。譬如,在對話系統(tǒng)、文本分類、信息檢索、語義分析等應用場景中,它可以提供更快的檢索信息方式,并且得到的信息更加準確。若要快速為輸入的問題找到對應的回答,就需要計算輸入的句子與語料庫中句子的相似度,找出相似度最高的幾個句子從而為解答做準備。這里我們利用詞袋模型來實現(xiàn)。詞袋模型(Bag-of-WordsModel)是在自然語言處理和信息檢索(IR)下被簡化的表達模型,在此模型下可以像用一個袋子裝著組成句子的詞一樣的方式來表現(xiàn)句子,這種表現(xiàn)方式不考慮文法以及詞的順序。四、輸入問題獲取答案在完成以上三個步驟后,我們就可以輸入問題,計算句子的相似度,從而從語料庫中搜索到最匹配的回答,參考代碼如圖3-67所示,這里找出了相似度值排名前三的回答,最終輸出相似度最高(即排名第一)的回答。知識鏈接一、機器學習機器學習是一個多學科交叉領域,涵蓋計算機科學、概率論知識、統(tǒng)計學知識、近似理論知識。目前有以下幾種定義。(1)機器學習是一門人工智能的科學,該領域的主要研究對象是人工智能,特別是如何在經(jīng)驗學習中改善具體算法的性能。(2)機器學習是對能通過經(jīng)驗自動改進的計算機算法的研究。(3)機器學習是用數(shù)據(jù)或以往的經(jīng)驗,以此優(yōu)化計算機系統(tǒng)的性能。(一)機器學習的定義1.有監(jiān)督學習有監(jiān)督學習是從給定的訓練數(shù)據(jù)集中學習出一個函數(shù),當新的數(shù)據(jù)到來時,可以根據(jù)這個函數(shù)預測結果。監(jiān)督學習的訓練集要求是輸入和輸出,也可以說是特征和目標,訓練集中的目標是由人標注的。2.無監(jiān)督學習與有監(jiān)督學習相比,無監(jiān)督學習訓練集是沒有人為標注的。無監(jiān)督機器學習的應用模式主要包括聚類算法和關聯(lián)規(guī)則抽取。(二)機器學習算法的分類0102知識鏈接二、自然語言處理(一)自然語言處理的概念指用計算機對自然語言的形、音、義等信息進行處理,即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操作和加工。(二)自然語言處理的一般流程在自然語言處理時,通常有獲取語料、語料預處理、特征工程、特征選擇、模型選擇、模型訓練、模型評估7個步驟。也有部分學者弱化模型選擇和模型評估這兩個步驟。(三)自然語言處理的常用技術1.語言處理基礎技術2.語言處理應用技術3.理解與交互技術4.文本審核技術5.智能寫作技術知識鏈接三、搜索技術搜索技術滲透于各種人工智能系統(tǒng)中,在專家系統(tǒng)、自然語言處理、自動程序設計、模式識別、機器人學、信息檢索和博弈等領域均有廣泛的應用。搜索是大多數(shù)人生活的一部分。幾乎每個人都有找不到鑰匙而檢查口袋、翻箱倒柜的經(jīng)歷,而更多的時候,搜索可能是在大腦中直接進行的,人的思維過程就可以看作一個搜索過程。你可能突然想不起一個英文單詞的拼寫,忘掉了身邊同事的名字,唱不出曾經(jīng)爛熟于心的歌詞,這個時候就需要你在大腦中進行搜索,通常很快就能得出答案。但是計算機處理搜索和人的思維過程不完全相同。計算機能夠更加深刻地體現(xiàn)出符號主義的思想。以大家熟悉的走迷宮為例。假設我們面前有一幅迷宮圖,如圖3-75所示,通常我們會用一支筆或直接用手指點在圖上向出口的方向移動。感謝觀看
人工智能應用導論
項目四
人臉識別技術應用——機器也認識你目錄CONTNETS人臉檢測照片智能搜索人臉特征提取1234人臉識別5口罩檢測賦能衛(wèi)生防護知識目標1.了解人臉識別的基本流程。2.了解計算機視覺庫基本知識。3.知道卷積神經(jīng)網(wǎng)絡及其原理。技能目標1.會用Dlib庫進行人臉檢測。2.能利用已訓練的模型face_net進行人臉識別。3.能調用人臉識別模型進行人臉特征提取并存儲。素養(yǎng)目標1.培養(yǎng)學生技術服務人類的意識。2.樹立正確的肖像保護意識,關愛五官有殘缺的弱勢群體。3.培養(yǎng)學生保護隱私、合理文明使用視頻的意識。人臉檢測01任務實施1231.獲取實時的視頻流在實施本任務前,需要具備一個攝像頭,并且已經(jīng)配置好OpenCV的環(huán)境(可以使用pip3installopencv-python下載)。2.在視頻流中使用Haar分類器進行人臉檢測在開始本任務之前,我們可以通過以下方式得到已經(jīng)訓練好的人臉檢測模型haarcascade_frontalface_default.xml。3.保存人臉ROI區(qū)域在機器視覺、圖像處理中,在被處理的圖像中以方框、圓、橢圓、不規(guī)則多邊形等方式勾勒出需要處理的區(qū)域,這個區(qū)域被稱為感興趣區(qū)域ROI。知識鏈接一、計算機視覺庫——OpenCV23145(五)OpenCV中的繪圖函數(shù)OpenCV繪圖函數(shù)主要有cv2.line()、cv2.circle()、cv2.rectangle()等,分別用來繪制直線、圓形、矩形、橢圓,以及添加文字。(四)利用OpenCV保存圖像使用函數(shù)cv2.imwrite()來保存一個圖像。保存時首先需要一個文件名,之后才是要保存的圖像,如cv2.imwrite('lena2.png',img)。(二)利用OpenCV讀入圖像使用函數(shù)cv2.imread(filepath,flags)讀入圖像。filepath是指圖像在此程序的工作路徑或者完整路徑,flags是讀取該圖像的方式。(三)利用OpenCV顯示圖像讀入圖像后使用函數(shù)cv2.imshow()可以顯示圖像。在顯示圖像時,窗口會自動調整為圖像大小。(一)安裝OpenCV進入命令提示符窗口,輸入pipinstallopencv-python(這里請注意,我們安裝的是opencv-python,而不是opencv)。知識鏈接二、使用Haar分類器進行人臉檢測的原理Haar特征是用于物體檢測的矩形的數(shù)字圖像特征。這類矩形特征模板由兩個或多個全等的黑白矩形相鄰組合而成(一)Haar特征對于一幅灰度的圖像,積分圖像中的任意一點(x,y)的值是指從該圖像的左上角到這個點所構成的矩形區(qū)域內(nèi)所有的點的灰度值之和。(二)積分圖Adaboost是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器(即弱分類器),通過對這些弱分類器進行加權和獲得最終分類器(即強分類器)。通過積分圖像我們獲得了大量的人臉特征,要從中選出最好的特征就要使用Adaboost分類器。(三)Adaboost分類器案例分析衛(wèi)浴門店自動抓取人臉信息:2021年央視“3·15”晚會點名某衛(wèi)浴門店收集人臉數(shù)據(jù)的問題。該衛(wèi)浴門店在全國上千家門店,每個門店安裝有人臉識別功能的攝像頭,消費者只要走進門店,在不知情的情況下,就會被攝像頭抓取并自動生成編號,標注顧客第幾次到店、男女、年齡等信息。所涉收集人臉數(shù)據(jù),能通過人臉識別信息解決精準營銷,抓取的人臉數(shù)據(jù)信息累計上億。安防公司泄露人臉信息:2019年2月,深圳某“AI+安防”公司人臉識別數(shù)據(jù)庫缺乏保護,導致大規(guī)模的數(shù)據(jù)泄露。該數(shù)據(jù)庫包含了超過256萬用戶的信息,包括身份證號碼、地址、出生日期、識別其身份的位置。分析:人臉是重要的隱私信息,利用各種技術和手段,在未經(jīng)同意允許或批準的前提下,通過公開或非法手段,收集、保存、盜取正常的人臉數(shù)據(jù),一旦信息出現(xiàn)泄露,不僅被不法分子進行用于詐騙,更可能被反復販賣牟利。人臉特征提取023.獲得人臉特征向量在main函數(shù)中調用這兩個函數(shù),即可獲得人臉特征向量。4.搭建人臉特征庫搭建人臉特征庫最簡單的方法是直接保存人臉圖片,但是這種方法有兩個缺點:①在進行網(wǎng)絡傳輸時開銷較大;②在終端進行加載時速度較慢(因為需要重新找到人臉,獲取特征)。1.獲得人臉ROI區(qū)域這里可以將人臉檢測任務的實現(xiàn)過程通過get_face_roi()函數(shù)封裝起來,方便后面直接調用。2.獲取人臉特征接下來,我們定義一個函數(shù)get_face_features(),用來獲取人臉特征。任務實施知識鏈接一、人臉特征和人臉特征提取方法人臉特征提取是指通過一些數(shù)字來表征人臉信息。常見的人臉特征分為幾何特征和表征特征兩類。幾何特征是指眼睛、鼻子和嘴等面部器官之間的幾何關系,如距離、面積和角度等。各器官之間歐氏距離、角度及其大小和外形被量化成一系列參數(shù),用來衡量人臉特征,所以對眼、鼻、嘴等器官的定位工作就十分重要。在用于人臉特征提取的算法中,為了減少計算量,只利用了一些直觀的特征。而在實際應用中,需要用到的幾何特征點不能精確選擇,從而限制了它的應用范圍。另外,當出現(xiàn)光照變化、人臉有外物遮擋或發(fā)生面部表情變化等情況時,幾何特征變化較大,魯
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- WPS信息發(fā)送技巧試題及答案
- 現(xiàn)代漢語應用廣泛性分析試題及答案
- 網(wǎng)絡管理員考試考試指南試題及答案
- 現(xiàn)代漢語的寫作技巧試題及答案
- 計算機一級Photoshop動畫制作試題及答案
- 現(xiàn)代漢語學習方法論試題及答案
- 未來邏輯與實務管理考察試題及答案
- WPS未來發(fā)展試題及答案展望
- 社會與文學的互動關系探討試題及答案
- 現(xiàn)代戲劇形式試題及答案總結
- 基于計算思維培養(yǎng)的小學人工智能啟蒙教育課程設計與實施
- 機電安裝工程總承包合同
- 湘教版四年級下冊科學各單元知識點復習
- 課件-2025年春季學期 形勢與政策 第一講-加快建設社會主義文化強國9
- 2025年度江西撫州高新區(qū)區(qū)屬國企業(yè)公開招聘紀檢監(jiān)察工作人員10人高頻重點模擬試卷提升(共500題附帶答案詳解)
- 汽車租賃掛靠協(xié)議書
- 北京市歷年中考語文現(xiàn)代文閱讀之非連續(xù)性文本閱讀8篇(截至2024年)
- 公司內(nèi)部文件管理規(guī)定及辦法
- 公開征集招標代理機構投標方案(技術方案)
- 信息系統(tǒng)安全等級保護等級測評報告模板【等保2.0】
- (翻譯)UL6A標準中文版-2019版電氣剛性金屬導管-鋁紅黃銅和不銹鋼
評論
0/150
提交評論