


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、“猿”來如此: GPU 讓小猿搜題更懂你背景“讓家長又愛又恨,讓學(xué)生愛不釋手的搜題軟件”這是記者與某傳統(tǒng)教育機構(gòu)做班主任談?wù)撃壳拜^流行的搜題軟件“小猿搜題”時候她給出的評價。歡樂的暑假生活將要接近尾聲,對于學(xué)生們來說,欠下的暑假作業(yè)開學(xué)前總是要補上的,然而想要快點完成作業(yè),除了求助身邊要好的“學(xué)霸”,現(xiàn)在又出現(xiàn)了另一種辦法就是“搜題 app”。作為一個工科出身的記者,我們先不談這樣的作業(yè)完成方式會給學(xué)生,家長和老師帶來什么樣的影響,我們從技術(shù)角度看一看搜題軟件是如何實現(xiàn)的?,F(xiàn)在學(xué)生中比較流行的主要有以下幾種手機軟件:“作業(yè)幫”是以學(xué)生之間相互解答的模式,把不會做的題目上傳到網(wǎng)上,由其他用戶來解
2、答;“小猿搜題”、“學(xué)習(xí)寶”則是通過對題目拍照,上傳圖像搜題的模式。對于含有大量字母公式的數(shù)學(xué)題,一張照片就能搞定題目,這款 APP 到底是怎么做到的呢?手寫內(nèi)容識別模糊 / 扭曲 / 明暗圖片問題的修正對于圖像轉(zhuǎn)換為文字的過程大概分為:圖像預(yù)處理,圖像切分,匹配,糾錯和搜索。對于這幾個問題里最大的挑戰(zhàn)在于手寫內(nèi)容的識別和復(fù)雜公式的識別。由于每個人的手寫習(xí)慣不同,識別手寫體成為了圖像預(yù)處理和切分之后首先要面臨的挑戰(zhàn),通過大量的樣本找到手寫習(xí)慣的共同特征,如習(xí)慣向右傾斜著寫或者中文之間沒有空格等。然而不管是在基礎(chǔ)教育階段,還是高等教育階段,數(shù)學(xué)總是讓人覺得永無止境的難度學(xué)科。所以,在搜題請求里,
3、有超過一半的搜索請求都是與數(shù)學(xué)有關(guān),這就意味著有大量的復(fù)雜公式需要識別,比如根號,、分式、上下標的各種組合。這不僅要進行正確的切分,還需要有合理的匹配識別。解決以上兩個問題都需要用到目前互聯(lián)網(wǎng)非?;馃岬募夹g(shù) Deep Learning( 深度學(xué)習(xí) ),猿題庫號稱擁有 BAT之外最大的深度學(xué)習(xí)研究團隊,而他們的價值就體現(xiàn)在通過深度學(xué)習(xí)訓(xùn)練出合理的模型,解決上述兩個問題。那他們到底訓(xùn)練出了什么模型呢?挑戰(zhàn)搜題 APP:懂你的心不容易這些 APP的推出和應(yīng)用,得益于移動互聯(lián)網(wǎng)的快速發(fā)展。我們在使用 APP時候,做的只是拍照和上傳,但是對于推出這款 APP猿題庫公司來說,卻要面臨大量的技術(shù)問題的挑戰(zhàn),
4、總結(jié)下來至少有以下幾個方面:每天千萬張級別的圖片搜索請求;每天十個億級別的 ORC識別(將圖像轉(zhuǎn)換為計算機文字的過程);數(shù)理化復(fù)雜公式的識別方案模型訓(xùn)練:看懂圖片練“內(nèi)力”通過從網(wǎng)上得到的信息,主要分為兩種 : 卷積神經(jīng)網(wǎng)絡(luò)模型和遞歸神經(jīng)網(wǎng)絡(luò)模型,這兩種神經(jīng)網(wǎng)絡(luò)法都是參考人類神經(jīng)網(wǎng)絡(luò)的仿生學(xué)計算方法,將大量的數(shù)據(jù)源通過神經(jīng)網(wǎng)絡(luò)法計算之后得到符合需求的模型為最終的使用提供服務(wù)。上面的一大堆術(shù)語對于技術(shù)小白來說實在有些難懂,舉個簡單的例子,不管在什么層次的大學(xué)里掛科最多的就是高數(shù),而高數(shù)里卷積的課程絕對是“燒腦”的之一。那么,把這種卷積計算交給服務(wù)器的 CPU去算,是不是就簡單很多了呢?GPU身上
5、。其實,并非如此。由于數(shù)據(jù)池里的源數(shù)據(jù)太多,CPU更擅長邏輯運算或者稱為串行計算,這樣的燒腦行為, CPU算起來也需要花費大量的時間,想要一時半會兒找到合理的模型也不太容易,更不用說拿來給最終用戶使用。但是,既然找到了方法卻因為計算機的問題拖慢實現(xiàn)的節(jié)奏顯示是互聯(lián)網(wǎng)公司不允許的,這個問題的解決就寄托在了硬件平臺:懂心必須“大殺器”對于很多人來說,GPU更像是用來打游戲做圖像處理的,其根本的技術(shù)核心就在于,擁有比CPU多上千倍的核心,可以將大量的“燒腦”計算并行處理,這就大大加快了模型訓(xùn)練的速度。對于猿題庫這樣的技術(shù)型公司來說,選擇穩(wěn)定的GPU加速卡和計算機平臺就成為了實現(xiàn)APP正常使用的重中之
6、重。目前國內(nèi)致力于深度學(xué)習(xí)研究的互聯(lián)網(wǎng)公司和學(xué)術(shù)機構(gòu)主要的 GPU加速卡為 NVIDIA Tesla系列產(chǎn)品,這是專為計算而設(shè)計的GPU卡,最大化精簡了不必要的功能,并針對高性能計算增加相應(yīng)的功能和優(yōu)化,為用戶提供了更為穩(wěn)定、可靠的計算平臺。GPU加速的計算是利用一顆圖形處理器(GPU)以及一顆 CPU來協(xié)同工作加速科學(xué)、工程以及企業(yè)級應(yīng)用程序。而為了實現(xiàn)CPU-GPU更好的協(xié)同工作,各家服務(wù)器廠商都提供了自己的超算服務(wù)器。通過跟互聯(lián)網(wǎng)行業(yè)內(nèi)朋友的了解,多家致力于深度學(xué)習(xí)研究的公司使用最多的是浪潮公司出品可同時安裝4個GPU加速卡的倚天超算服務(wù)器,這款服務(wù)器在 E5-2600v2 平臺型號為
7、NF5588M3,而在 E5-2600V3 平臺已經(jīng)升級到NF5568M4。據(jù)悉,猿題庫也選擇使用該款服務(wù)器進行模型訓(xùn)練。通過合理的計算硬件選型,在線下模型訓(xùn)練時可以將訓(xùn)練時間提升 5-6 倍,而線上預(yù)測速度也得到 2-4 倍的提升,再經(jīng)過語言模型的糾錯,小猿搜題最終實現(xiàn)題目拍照之后“秒懂你的心”的效果。影響應(yīng)用有未來:將來還要更懂你除此之外,小猿搜題通過對同一個學(xué)生對題目搜索情況的數(shù)據(jù)記錄積累,經(jīng)過機器學(xué)習(xí)的模型分析,對學(xué)生的解答能力進行預(yù)測,向?qū)W生推送更加貼近需求的題目,進一步幫助學(xué)生訓(xùn)練和提高自己的薄弱環(huán)節(jié),并且提供機器學(xué)習(xí)模型提供試卷,預(yù)測學(xué)生的考試成績。未來,將會為每個學(xué)生提供量身打造的最優(yōu)成長之路。理論研究最后記者又進行了一把實測,用手機下載了“小猿搜題”,打開 APP即可使用,通過軟件自帶的提示,拿手機對從朋友那借來的九年級數(shù)學(xué)題進行拍照,確定后圖像會被上傳,只需一秒鐘就在網(wǎng)上得到了原題和解答。如果一張
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房地產(chǎn)開發(fā)合作協(xié)議合同
- 三農(nóng)田改造方案設(shè)計指南
- 建筑木工分包合同
- 上海聲屏障施工方案
- 防水安全生產(chǎn)施工方案
- pvc地板膠施工方案
- 燜渣坑施工方案
- 余姚耐磨地坪施工方案
- 自建房水泥欄桿施工方案
- 青島市eps線條施工方案
- 夜空中最亮的星二部合唱簡譜
- 《幼兒園課程》01 幼兒園課程概述
- 打井合同(范本8則)
- 風(fēng)電場道路和平臺工程施工設(shè)計方案
- GB/T 26695-2011家具用鋼化玻璃板
- GB/T 25052-2010連續(xù)熱浸鍍層鋼板和鋼帶尺寸、外形、重量及允許偏差
- GB/T 15057.1-1994化工用石灰石采樣與樣品制備方法
- GB/T 1094.2-2013電力變壓器第2部分:液浸式變壓器的溫升
- DB32/T 4402-2022 河湖和水利工程管理范圍劃定技術(shù)規(guī)程
- 高中課本劇 鴻門宴劇本
- 項目經(jīng)理崗位月度KPI績效考核表
評論
0/150
提交評論