一個(gè) GPU 總需要一個(gè) CPU,但 CPU 的選擇已經(jīng)不再單一,GPU 的功能也不再“簡單”,曾經(jīng)穩(wěn)固的關(guān)系,不再是單純的合作。
四月份,英偉達(dá)發(fā)布了采用 Arm 架構(gòu)的首款數(shù)據(jù)中心 CPU Grace 引發(fā)廣泛關(guān)注。本月,外媒 Tomshardware 報(bào)道,像 CPU 一樣總需要一個(gè) CPU 的谷歌自研視頻編解碼處理單元 Argos VCU,預(yù)計(jì)可以替換 3000-4000 萬個(gè)英特爾 CPU。
依賴 CPU 的 GPU 和 VCU 為什么會有替代 CPU 的勢頭?芯片巨頭與互聯(lián)網(wǎng)巨頭間的競合關(guān)系,是如何加深的?
CPU 市場的雙重變化
回答 CPU 與其它依賴 CPU 處理器關(guān)系變化之前,不妨先了解 CPU 市場本身的變化。在很長一段時(shí)間,由于 CPU 的性能已經(jīng)足夠滿足包括 PC 在內(nèi)的各種應(yīng)用需求,再加上內(nèi)存和帶寬成為 CPU 性能提升的瓶頸。CPU 王者英特爾在提升 CPU 性能動力不足,以及先進(jìn)制程工藝進(jìn)展不如預(yù)期的情況下,連續(xù)多代 CPU 性能提升幅度不大,被稱作“擠牙膏”。
英特爾在領(lǐng)先位置緩慢前進(jìn)的幾年間,AMD 憑借 Zen 架構(gòu)的迅速迭代以及臺積電先進(jìn)制造工藝的加持,性能迅速接近甚至超越英特爾酷睿和至強(qiáng) CPU 的性能。“AMD Yes”表達(dá)了消費(fèi)者對于 AMD 產(chǎn)品迅速提升的認(rèn)可。
英特爾和 AMD 的 x86 CPU 是 PC 時(shí)代的標(biāo)志,然而在性能提升陷入瓶頸,以及先進(jìn)半導(dǎo)體制程提升難度越來越大的背景下,兩家最具代表性的 CPU 公司表現(xiàn)相差甚遠(yuǎn),并且開始在市場份額上有所體現(xiàn)。
依舊有領(lǐng)先優(yōu)勢的英特爾感受到了老對手帶來的競爭壓力,因此無論是產(chǎn)品性能提升還是市場策略都更加積極。然而,英特爾在服務(wù)器 CPU 市場除了要面臨同為 x86 陣營 AMD 的競爭,Arm 陣營的公司也來勢洶洶。
Ampere 董事長兼首席執(zhí)行官 Renee James 說:“我們知道未來將與過去不同,因?yàn)檐浖h(huán)境變了,不再是關(guān)于 PC 和 PC 服務(wù)器的業(yè)務(wù),而是圍繞云和云邊緣?,F(xiàn)在,需要另一種不同的微處理器。”
Ampere 基于 Arm Neoverse N1 內(nèi)核,推出了 80 核的 Altra CPU 和 128 核 Altra Max CPU,持續(xù)刷新服務(wù)器 CPU 核心數(shù)的紀(jì)錄,突出與 x86 CPU 相比更高的核數(shù)以及在云原生市場的優(yōu)勢。
同樣是強(qiáng)調(diào)差異化優(yōu)勢,英偉達(dá)的 Grace 主要是面向數(shù)據(jù)密集型 HPC 和 AI 應(yīng)用。英偉達(dá)首席執(zhí)行官黃仁勛稱基于 Grace 的系統(tǒng)與英偉達(dá) GPU 緊密結(jié)合,性能將比目前最先進(jìn)的 NVIDIA DGX 系統(tǒng)(在 x86 CPU 上運(yùn)行)高出 10 倍。
無論是 Ampere 還是英偉達(dá),其差異化高性能 CPU 的基礎(chǔ)都是 Arm。而 Arm 也在今年三月推出了面向未來十年的新一代架構(gòu) Armv9,Arm 希望將其架構(gòu)在智能終端的成功擴(kuò)展到高性能計(jì)算市場,包括邊緣、云端及 5G 等?;?Armv9 架構(gòu)的 Neoverse N2 正是 Arm 向高性能市場拓展的關(guān)鍵產(chǎn)品。
整體看來,已經(jīng)在 PC 和服務(wù)器 CPU 市場大獲成功的 x86 陣營正開始一場激烈的競爭。此時(shí),面向云計(jì)算、AI 的 Arm 架構(gòu) CPU 迅速發(fā)展,要在新興市場分一杯羹。未來,RISC-V CPU 會以怎樣的方式參與到 CPU 市場的競爭,也讓人充滿期待。
異構(gòu)時(shí)代,定制 CPU 優(yōu)勢突顯
CPU 市場發(fā)生雙重變化的一個(gè)關(guān)鍵因素是市場需求,在市場的驅(qū)動下,CPU 的價(jià)值也更多體現(xiàn)在異構(gòu)系統(tǒng)中。英偉達(dá)在今年四月發(fā)布 Grace CPU 的時(shí)候,也同時(shí)將其數(shù)據(jù)中心產(chǎn)品路線圖升級為 GPU+CPU+DPU 的三類芯片,逐年飛躍,一個(gè)架構(gòu)的策略。在這個(gè)新的策略中,GPU 和 DPU 性能的充分發(fā)揮依舊需要有 CPU 強(qiáng)大的性能,也就是說,CPU 計(jì)算和控制的基礎(chǔ)和核心作用沒有改變。
變的是新興應(yīng)用對于算力的大幅快速增長,異構(gòu)系統(tǒng)的性能是更重要的關(guān)注點(diǎn)。“目前市場上每年交付的 3000 萬臺數(shù)據(jù)中心服務(wù)器中,有 1/3 用于運(yùn)行軟件定義的數(shù)據(jù)中心堆棧,其負(fù)載的增長速度遠(yuǎn)遠(yuǎn)快于摩爾定律。除非我們找到加速的辦法,否則用于運(yùn)行應(yīng)用的算力將會越來越少。”黃仁勛說,“新時(shí)代的計(jì)算機(jī)需要新的芯片、新的系統(tǒng)架構(gòu)、新的網(wǎng)絡(luò)、新的軟件和工具。”
這也是英偉達(dá)推出 DPU,并且將 DPU 歸入其數(shù)據(jù)中心產(chǎn)品路線圖的原因。“現(xiàn)代超大規(guī)模云技術(shù)推動數(shù)據(jù)中心從基礎(chǔ)上走向了新的架構(gòu),利用一種專門針對數(shù)據(jù)中心基礎(chǔ)架構(gòu)軟件而設(shè)計(jì)的新型處理器,來卸載和加速由虛擬化、網(wǎng)絡(luò)、存儲、安全和其它云原生 AI 服務(wù)產(chǎn)生的巨大計(jì)算負(fù)荷。BlueField DPU 正是為此而生。”黃仁勛此前表示。
CPU 與 GPU、VCU 的關(guān)系愈加“微妙”
異構(gòu)組合才能更好滿足未來市場的需求,這也已經(jīng)是業(yè)界共識,從英特爾擁有 CPU+GPU+FPGA+AI 加速器的完整芯片組合,到英偉達(dá)宣布收購 Arm,再到 AMD 宣布收購賽靈思,芯片巨頭們都希望通過不同類型的芯片組合滿足云計(jì)算、AI 等計(jì)算更加密集應(yīng)用的需求。
在這種變化中,CPU 的選擇也會更加多樣。Computex 21 上,黃仁勛在回答提問時(shí)表示:“未來的世界非常多樣,當(dāng)然也會有不同的 CPU,包括 x86 架構(gòu)和 Arm 架構(gòu),大型 CPU 和小型 CPU,面向邊緣、數(shù)據(jù)中心、超算等 CPU,我們的策略是在我們服務(wù)的市場,選擇最合適的 CPU,我們會繼續(xù)支持 x86 CPU。”
面向特定的市場,并非所有 CPU 都合適。因此在不同的市場需要不同的 CPU,比如在筆記本電腦市場,英特爾的 x86 CPU 是不錯(cuò)的選擇,在 DGX 系統(tǒng)中,AMD 的 CPU 表現(xiàn)非常好。在 5G 基站中,基于 Arm 的 Marvell CPU 是一個(gè)理想選擇。在云計(jì)算市場,Ampere 的 CPU 性能出色。英偉達(dá)的 CPU 為的是解決 AI 推薦系統(tǒng)和自然語言理解這樣大型 AI 模型的計(jì)算挑戰(zhàn)。
“我相信未來既需要通用 CPU,也需要定制 CPU。支持 Arm 和 x86 對我們來說都是很好的戰(zhàn)略。”黃仁勛表示。
CPU 與 GPU、VCU 更加微妙的競合關(guān)系
既有自研的 Arm CPU,也支持 x86 CPU,讓英偉達(dá)與 CPU 巨頭間的競合關(guān)系中競爭的成分更高。在 PC 時(shí)代,芯片巨頭間的競爭,是 CPU 公司或者 GPU 公司之間的競爭,CPU 與 GPU 公司以合作為主旋律。
邁入 AI 時(shí)代,英偉達(dá)憑借其 GPU 硬件加上通用的軟件,成為了 AI 芯片公司的代表,在 AI 市場成為了英特爾強(qiáng)大的競爭對手。面向市場空間巨大的云計(jì)算和 5G 市場,英偉達(dá)的 GPU 依舊離不開英特爾和 AMD 的 CPU,但同時(shí)英偉達(dá)會更加注重 Arm 架構(gòu) CPU 的開發(fā),芯片巨頭間的競合關(guān)系進(jìn)一步加深。
這種關(guān)系變化更明顯的轉(zhuǎn)變在芯片巨頭與互聯(lián)網(wǎng)巨頭之間。比如文章開頭提到的谷歌 Argos VCU,多年來谷歌都使用英特爾 CPU 中的視頻編解碼引擎,但隨著視頻內(nèi)容越來越多,以及分辨率越來越高,谷歌需要性能更強(qiáng)但是功耗和成本更低的芯片。
定制的專用芯片性能往往會比通用芯片更強(qiáng),通過自研核心功能加上集成第三方 IP,能在規(guī)模應(yīng)用中實(shí)現(xiàn)優(yōu)勢。谷歌表示,與英特爾 Skylake 驅(qū)動的服務(wù)器系統(tǒng)相比,其基于 VCU 的設(shè)備在性能、TCO(總體擁有成本)、計(jì)算效率方面實(shí)現(xiàn)了 7 倍(H.264)和高達(dá) 33 倍(VP9)的提升。
CPU、GPU 和配備 VCU 的系統(tǒng)離線雙通道單輸出 (SOT) 吞吐量
除了 VPU,谷歌也已經(jīng)通過自研的 TPU 減少了購買 CPU 和 GPU。谷歌與芯片巨頭們的關(guān)系,不再單純是緊密的合作伙伴,在特定市場也成為了競爭對手。
對于這種轉(zhuǎn)變,英特爾公司副總裁兼中國區(qū)總經(jīng)理王銳此前表示,“競爭對手可以在某一參數(shù)或者是在制程上縮短與我們的差距。但要打造整個(gè)架構(gòu),在計(jì)算和 AI 的各個(gè)方面都要能夠趕超英特爾,不是那么容易的事情。”
這是芯片巨頭應(yīng)對技術(shù)、市場變化的自信和底氣,當(dāng)然,芯片巨頭們也需要更多地考慮與自研芯片的互聯(lián)網(wǎng)巨頭們的關(guān)系。
不要忽略,無論是芯片巨頭們之間的競爭,還是芯片巨頭與互聯(lián)網(wǎng)巨頭們之間關(guān)系的變化,本質(zhì)上除了市場和應(yīng)用變化的驅(qū)動,還有成熟的芯片產(chǎn)業(yè)鏈,包括成熟的設(shè)計(jì)工具、IP、代工廠和封裝,很大程度降低了 GPU 公司設(shè)計(jì) CPU,以及互聯(lián)網(wǎng)巨頭設(shè)計(jì)定制芯片的門檻。
芯片行業(yè)的門檻還在進(jìn)一步降低,這還會帶來怎樣的變化?