谷歌TPU3.0深度揭秘,它的神奇之處是什么_第1頁
谷歌TPU3.0深度揭秘,它的神奇之處是什么_第2頁
谷歌TPU3.0深度揭秘,它的神奇之處是什么_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

谷歌TPU3.0深度揭秘,它的神奇之處是什么在今年的年度I/O大會(huì)上,谷歌給人留下深刻印象。它不僅推出了一系列基于TPUv2芯片的云計(jì)算TPU實(shí)例的基準(zhǔn)測(cè)試,還透露了一些有關(guān)其下一代TPU芯片即TPU3.0,以及其系統(tǒng)架構(gòu)的簡(jiǎn)單細(xì)節(jié)。TIRIASResearch的頂尖技術(shù)專家和首席分析師PaulTeich近日在nextplatform發(fā)文,對(duì)谷歌TPU3.0進(jìn)行了深度揭秘。谷歌將TPUv2版本升級(jí)為TPU3.0,但諷刺的是,據(jù)我們所知的種種細(xì)節(jié)表明,從TPUv2到TPU3.0(下文稱之為TPUv3)的跨度并沒有那么大;或許稱其為TPUv2r5或類似的東西會(huì)更合適。如果你對(duì)TPUv2還不太熟悉,可以了解一下我們?nèi)ツ晁龅年P(guān)于TPUv2的評(píng)測(cè)來增加這方面的知識(shí)結(jié)構(gòu)。我們使用谷歌對(duì)云TPU(CloudTPU)的定義,云TPU是一塊包含四個(gè)TPU芯片的主板。谷歌目前的云TPU測(cè)試程序只允許用戶訪問單個(gè)云TPU。除了其內(nèi)部開發(fā)人員,其他人無法以任何方式將云TPU聯(lián)合使用。去年我們了解到,谷歌已經(jīng)在其TensorFlow深度學(xué)習(xí)(DL)框架下抽取出云TPU。除了谷歌內(nèi)部的TensorFlow開發(fā)團(tuán)隊(duì)和GoogleCloud之外,沒有人可以直接訪問云TPU硬件,可能永遠(yuǎn)也不能。我們還認(rèn)為,谷歌已經(jīng)資助了一項(xiàng)龐大的軟件工程和優(yōu)化工作,以實(shí)現(xiàn)其當(dāng)前測(cè)試云TPU的部署。這促使谷歌在TPUv3中盡可能多地保留TPUv2的系統(tǒng)接口和行為,即硬件抽象層和應(yīng)用程序編程接口(API)。關(guān)于何時(shí)提供TPUv3服務(wù)、將其置于云TPU或多機(jī)架pod配置中,谷歌沒有提供任何信息。它的確展示了基于TPUv3的云TPU板的照片和一些pod照片,并作出以下聲明:TPUv3芯片運(yùn)行溫度非常高,以致谷歌首次在其數(shù)據(jù)中心引入液體冷卻技術(shù)每個(gè)TPUv3pod的功率將是TPUv2pod的八倍每個(gè)TPUv3pod性能將為每秒鐘運(yùn)算100多千萬億次(petaflops)不過,谷歌也重申,TPUv2pod的時(shí)鐘頻率為11.5千萬億次每秒。8倍的改進(jìn)應(yīng)該會(huì)使TPUv3pod的基本頻率達(dá)到92.2千萬億次,但100千萬億次的運(yùn)算意味著這幾乎是TPUv2的9倍了。谷歌的營(yíng)銷人員應(yīng)該四舍五入取整了,所以這個(gè)數(shù)字可能不太準(zhǔn)確。POD從TPUv3pod的兩張完整照片中可以明顯看出,谷歌的下一代產(chǎn)品已經(jīng)升級(jí):每個(gè)pod的機(jī)架數(shù)量是原來的兩倍。每個(gè)機(jī)架的云TPU數(shù)量是原來的兩倍如果沒有其他變化,光這兩點(diǎn)足以使TPUv2pod的性能提高4倍。

pod:TPUv2(上)和TPUv3(下)機(jī)架TPUv3pod機(jī)架的間隔比TPUv2機(jī)架的間隔更小。但是,與TPUv2pod一樣,TPUv3pod中仍然沒有明顯的儲(chǔ)存組件。TPUv3的機(jī)架也更高,以適應(yīng)添加的水冷裝置。

機(jī)架:TPUv2(左)和TPUv3(右)谷歌將不間斷電源從TPUv2機(jī)架底部移到TPUv3機(jī)架頂部。我們假設(shè)現(xiàn)在機(jī)架底部的大體積金屬盒中包含水泵或其他水冷相關(guān)裝置。

TPUv2機(jī)架頂部、底部(左)和TPUv3機(jī)架頂部(右)現(xiàn)代超大規(guī)模數(shù)據(jù)中心不使用活動(dòng)地板。谷歌的機(jī)架在加水之前就很重了,所以它們被直接置于混凝土板上,水從機(jī)架頂部進(jìn)出。谷歌的數(shù)據(jù)中心有很多高架空間,如TPUv3pod的照片所示。然而,懸掛重水管道和確定路徑一定是額外的操作挑戰(zhàn)。

TPUv3的水連接(左上)、水泵(左下,猜測(cè))和機(jī)架上的數(shù)據(jù)中心基礎(chǔ)架構(gòu)(右)注意地板上機(jī)架前的絞合線,就在機(jī)架底部的大金屬盒前面,可能是濕度傳感器。架子和主板谷歌不僅將計(jì)算機(jī)架密度提高了一倍,還將服務(wù)器主板與云TPU的比率從一對(duì)一降到了一對(duì)二。這將影響功耗估計(jì),因?yàn)門PUv3pod的服務(wù)器和云TPU將從同一機(jī)架電源中獲取電力。谷歌將當(dāng)前云TPUbeta實(shí)例所使用的服務(wù)器主板作為計(jì)算引擎n1-standard-2實(shí)例計(jì)入其云平臺(tái)公共云中,該云平臺(tái)公共云具有兩個(gè)虛擬CPU和7.5GB內(nèi)存。我們認(rèn)為這很可能是一款主流雙插槽X86服務(wù)器?;叵胍幌?,TPUv2pod包含256個(gè)TPUv2芯片和128個(gè)服務(wù)器處理器。TPUv3pod將使服務(wù)器處理器增加一倍,TPU芯片數(shù)增加三倍。

我們認(rèn)為谷歌在其TPUv2pod中過度調(diào)配了服務(wù)器。這對(duì)于新的芯片和系統(tǒng)架構(gòu)來說是可以理解的。在對(duì)pod軟件進(jìn)行了至少一年的調(diào)整并對(duì)芯片進(jìn)行了一次小的修訂以后,把服務(wù)器的數(shù)量減少一半對(duì)pod性能的影響可能微不足道。其中可能有諸多原因,或許是服務(wù)器沒有計(jì)算或帶寬限制,又或者谷歌可能部署了新一代具有更多核的IntelXeon或AMDEpyc處理器。通過將服務(wù)器主板集成到云TPU機(jī)架中,谷歌可以用相同的機(jī)架配置使機(jī)架數(shù)量增加一倍。在一個(gè)機(jī)架上標(biāo)準(zhǔn)化配置必然有助于降低硬件部署的成本和復(fù)雜性。

電腦架:TPUv2(左)和TPUv3(右)但是,為了實(shí)現(xiàn)更高的密度,谷歌必須從4U云TPU外形規(guī)格轉(zhuǎn)變?yōu)?U高密度外形規(guī)格。其數(shù)據(jù)中心溫度很高(公布的數(shù)據(jù)在80°F到95°F之間),因此TPUv2風(fēng)冷散熱器必須很大。谷歌使用開放式機(jī)架,所以利用風(fēng)來冷卻密集外形規(guī)格的熱插槽變得非常昂貴,使得水冷成為可行的替代方案。特別是對(duì)于像深度學(xué)習(xí)這樣的高

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論