谷歌 I/O 開發(fā)者大會去年因為疫情而取消,今年采取線上形式強(qiáng)勢回歸。在沒有開發(fā)者在場的谷歌園區(qū)內(nèi),谷歌 CEO 桑達(dá)爾?皮查伊(Sundar Pichai)宣布推出多項全新技術(shù),除了能夠幫助用戶實現(xiàn)“空間瞬移”的全息視頻聊天技術(shù) Project Starling 讓人耳目一新,還有最新一代 AI 芯片 TPU v4。
“這是我們在 谷歌 上部署的最快的系統(tǒng),對我們來說是一個具有歷史意義的里程碑。”皮查伊這樣介紹到。
最強(qiáng) TPU,速度提升 2 倍,性能提升 10 倍
谷歌官方介紹,在相同的 64 芯片規(guī)模下,不考慮軟件帶來的改善,TPU v4 相較于上一代 TPU v3 性能平均提升 2.7 倍。
在實際應(yīng)用中,TPU v4 主要與 Pod 相連發(fā)揮作用,每一個 TPU v4 Pod 中有 4096 個 TPU v4 單芯片,得益于其獨(dú)特的互連技術(shù),能夠?qū)?shù)百個獨(dú)立的處理器轉(zhuǎn)變?yōu)橐粋€系統(tǒng),互連帶寬在規(guī)模上是其他任何網(wǎng)絡(luò)技術(shù)的 10 倍,每一個 TPU v4 Pod 就能達(dá)到 1 exaFlOP 級的算力,實現(xiàn)每秒 10 的 18 次方浮點(diǎn)運(yùn)算。這甚至是全球最快的超級計算機(jī)“富岳”的兩倍性能。
“如果現(xiàn)在有 1 千萬人同時使用筆記本電腦,所有這些計算機(jī)累加的計算能力,剛好就能夠達(dá)到 1 exaFLOP 的算力。而之前要達(dá)到 1 exaFLOP,可能需要專門定制一個超級計算機(jī)。”皮查伊如是說。
今年的 MLPerf 結(jié)果表明,谷歌 TPU v4 的實力不容小覷,在使用 ImageNet 數(shù)據(jù)集的圖像分類訓(xùn)練測試(準(zhǔn)確度至少 75.90%),256 個 TPU v4 在 1.82 分鐘內(nèi)完成了這一任務(wù),這幾乎與 768 個 Nvidia A100 圖形卡、192 個 AMD Epyc 7742 內(nèi)核(1.06 分鐘)、512 個華為 AI 優(yōu)化的 Ascend910 芯片以及 128 個英特爾 Xeon Platinum 8168 內(nèi)核(1.56 分鐘)組合在一起的速度一樣快。
當(dāng)負(fù)責(zé)在大型維基百科語料庫上訓(xùn)練基于 Transform 的閱讀理解 BERT 模型時,TPU v4 的得分也很高。使用 256 個 TPU v4 進(jìn)行訓(xùn)練需要 1.82 分鐘,比使用 4096 TPU v3 進(jìn)行訓(xùn)練所需的 0.39 分鐘要慢 1 分多鐘。同時,如果想要使用 Nvidia 的硬件達(dá)到 0.81 分鐘的訓(xùn)練時間,需要 2048 張 A100 卡和 512 個 AMD Epyc 7742 CPU 內(nèi)核。
谷歌 同樣在 I/O 大會上展示了能夠用到 TPU v4 的具體 AI 實例,包括能夠同時處理網(wǎng)頁、圖像等多種數(shù)據(jù)的 MUM 模型(Multitask Unified Model,多任務(wù)統(tǒng)一模型)和專為對話打造的 LaMDA 都是能夠用到 TPU v4 的場景模型,前者比閱讀理解模型 BERT 強(qiáng) 1000 倍,適合賦能搜索引擎幫助用戶更加高效地得到自己想要的信息,后者則可以與人類進(jìn)行不間斷的對話交流。
這一并不向外出售的 TPU,很快將在被部署在谷歌的數(shù)據(jù)中心,且 90% 左右的 TPU v4 Pod 都將使用綠色能源。另外,谷歌也表示,將在今年晚些時候開放給谷歌 Cloud 的客戶。
谷歌 自研 TPU,五年更新四代
谷歌 最早于 2016 年宣布首款內(nèi)部定制的 AI 芯片,區(qū)別于訓(xùn)練和部署 AI 模型的最常見的組合架構(gòu),即 CPU 和 GPU 組合,第一代 TPU 在那場世界著名的人機(jī)圍棋大戰(zhàn)助力 AlphaGo 打敗李世石“一戰(zhàn)成名”,宣告并不是只有 GPU 才能做訓(xùn)練和推理。
谷歌 第一代 TPU 采用 28nm 工藝制程,功耗大約 40w,僅適用于深度學(xué)習(xí)推理,除了 AlphaGo,也用在谷歌搜索、翻譯等機(jī)器學(xué)習(xí)模型中。
2017 年 5 月,谷歌發(fā)布了能夠?qū)崿F(xiàn)機(jī)器學(xué)習(xí)模型訓(xùn)練和推理的 TPU v2,達(dá)到 180TFLOPs 浮點(diǎn)運(yùn)算能力,同時內(nèi)存帶寬也得以提升,比同期推出的 CPU AI 工作負(fù)載提升 30 倍,比 GPU AI 工作負(fù)載提升 15 倍,被基于 4 塊 TPU v2 的 AlphaGo 擊敗的世界圍棋冠軍柯潔最直觀地感受了這一切。
2018 年 5 月,谷歌又發(fā)布第三代 TPU,性能是上一代 TPU 的兩倍,實現(xiàn) 420TFLOPs 浮點(diǎn)運(yùn)算,以及 128GB 的高帶寬內(nèi)存。
按照一年一次迭代更新的節(jié)奏,谷歌理應(yīng)在 2019 年推出第四代 TPU,不過這一年的 I/O 大會上,谷歌推出的是第二代和第三代 TPU Pod,可以配置超過 1000 顆 TPU,大大縮短了在進(jìn)行復(fù)雜的模型訓(xùn)練時所需耗費(fèi)的時間。
在 AI 芯片發(fā)展史上,無論是從片上內(nèi)存上,還是從可編程能力來看,谷歌 TPU 都是不可多得的技術(shù)創(chuàng)新,打破 GPU 的“壟斷”地位,且打開云端 AI 芯片的新競爭格局。
發(fā)展五年的谷歌 TPU 在今天依然保持著強(qiáng)勁的競爭力,未來的世界是什么樣的?谷歌 TPU 已經(jīng)告訴了我們一小部分答案。