亚洲精品7777,在线亚洲精品国产成人av剧情,好好日好好日,亚洲伊人丝袜精品久久,中文字幕人妻中文av不卡专区

GPU 的歷史性時(shí)刻!

時(shí)間:2023-08-29 06:25:45       來(lái)源:半導(dǎo)體行業(yè)觀察

8 月 23 日,GPU 巨頭 Nvidia 發(fā)布了 2023 年二季度財(cái)報(bào),其結(jié)果遠(yuǎn)超預(yù)期。總體來(lái)說(shuō),Nvidia 二季度的收入達(dá)到了 135 億美元,相比去年同期增長(zhǎng)了 101%;凈利潤(rùn)達(dá)到了 61 億美元,相比去年同期增長(zhǎng)了 843%。Nvidia 公布的這一驚人的財(cái)報(bào)一度在盤(pán)后讓 Nvidia 股票大漲 6%,甚至還帶動(dòng)了眾多人工智能相關(guān)的科技股票在盤(pán)后跟漲。

Nvidia 收入在二季度如此大漲,主要靠的就是目前方興未艾的人工智能風(fēng)潮。ChatGPT 為代表的大模型技術(shù)從去年第三季度以來(lái),正在得到全球幾乎所有互聯(lián)網(wǎng)公司的追捧,包括美國(guó)硅谷的谷歌、亞馬遜以及中國(guó)的百度、騰訊、阿里巴巴等等巨頭。而這些大模型能進(jìn)行訓(xùn)練和推理的背后,都離不開(kāi)人工智能加速芯片,Nvidia 的 GPU 則是大模型訓(xùn)練和推理加速目前的首選方案。由于個(gè)大科技巨頭以及初創(chuàng)公司都在大規(guī)模購(gòu)買(mǎi) Nvidia 的 A 系列和 H 系列高端 GPU 用于支持大模型訓(xùn)練算力,這也造成了 Nvidia 的數(shù)據(jù)中心 GPU 供不應(yīng)求,當(dāng)然這反映到財(cái)報(bào)中就是收入和凈利潤(rùn)的驚人增長(zhǎng)。


(資料圖)

事實(shí)上,從 Nvidia 的財(cái)報(bào)中,除了亮眼的收入和凈利潤(rùn)數(shù)字之外,還有一個(gè)關(guān)鍵的數(shù)字值得我們關(guān)注,就是 Nvidia 二季度的數(shù)據(jù)中心業(yè)務(wù)收入。根據(jù)財(cái)報(bào),Nvidia 二季度的數(shù)據(jù)中心業(yè)務(wù)收入超過(guò)了 100 億美元,相比去年同期增長(zhǎng) 171%。Nvidia 數(shù)據(jù)中心業(yè)務(wù)數(shù)字本身固然非常驚人,但是如果聯(lián)系到其他公司的同期相關(guān)收入并進(jìn)行對(duì)比,我們可以看到這個(gè)數(shù)字背后更深遠(yuǎn)的意義。同樣在 2023 年第二季度,Intel 的數(shù)據(jù)中心業(yè)務(wù)收入是 40 億美元,相比去年同期下降 15%;AMD 的數(shù)據(jù)中心業(yè)務(wù)收入是 13 億美元,相比去年同期下降 11%。我們從中可以看到,在數(shù)據(jù)中心業(yè)務(wù)的收入數(shù)字上,Nvidia 在 2023 年第二季度的收入已經(jīng)超過(guò)了 Intel 和 AMD 在相同市場(chǎng)收入的總和。

這樣的對(duì)比的背后,體現(xiàn)出了在人工智能時(shí)代,人工智能加速芯片(GPU)和通用處理器芯片(CPU)地位的反轉(zhuǎn)。目前,在數(shù)據(jù)中心,人工智能加速芯片 /GPU 事實(shí)上最主流的供貨商就是 Nvidia,而通用處理器芯片 /CPU 的兩大供貨商就是 Intel 和 AMD,因此比較 Nvidia 和 Intel+AMD 在數(shù)據(jù)中心領(lǐng)域的收入數(shù)字就相當(dāng)于比較 GPU 和 CPU 之間的出貨規(guī)模。雖然人工智能從 2016 年就開(kāi)始火熱,但是在數(shù)據(jù)中心,人工智能相關(guān)的芯片和通用芯片 CPU 相比,獲得的市場(chǎng)份額增長(zhǎng)并不是一蹴而就的:在 2023 年之前,數(shù)據(jù)中心 CPU 的份額一直要遠(yuǎn)高于 GPU 的份額;甚至在 2023 年第一季度,Nvidia 在數(shù)據(jù)中心業(yè)務(wù)上的收入(42 億美元)仍然要低于 Intel 和 AMD 在數(shù)據(jù)中心業(yè)務(wù)的收入總和;而在第二季度,這樣的力量對(duì)比反轉(zhuǎn)了,在數(shù)據(jù)中心 GPU 的收入一舉超過(guò)了 CPU 的收入。

這也是一個(gè)歷史性的時(shí)刻。從上世紀(jì) 90 年代 PC 時(shí)代開(kāi)始,CPU 一直是摩爾定律的領(lǐng)軍者,其輝煌從個(gè)人電腦時(shí)代延續(xù)到了云端數(shù)據(jù)中心時(shí)代,同時(shí)也推動(dòng)了半導(dǎo)體領(lǐng)域的持續(xù)發(fā)展;而在 2023 年,隨著人工智能對(duì)于整個(gè)高科技行業(yè)和人類社會(huì)的影響,用于通用計(jì)算的 CPU 在半導(dǎo)體芯片領(lǐng)域的地位正在讓位于用于人工智能加速的 GPU(以及其他相關(guān)的人工智能加速芯片)。

摩爾定律的故事在 GPU 上仍然在發(fā)生

眾所周知,CPU 的騰飛離不開(kāi)半導(dǎo)體摩爾定律。根據(jù)摩爾定律,半導(dǎo)體工藝特征尺寸每 18 個(gè)月演進(jìn)一代,同時(shí)晶體管的性能也得大幅提升,這就讓 CPU 在摩爾定律的黃金時(shí)代(上世紀(jì) 80 年代至本世紀(jì)第一個(gè)十年)突飛猛進(jìn):一方面 CPU 性能每一年半就迭代一次,推動(dòng)新的應(yīng)用出現(xiàn),另一方面新的應(yīng)用出現(xiàn)又進(jìn)一步推動(dòng)對(duì)于 CPU 性能的需求,這樣兩者就形成了一個(gè)正循環(huán)。這樣的正循環(huán)一直到 2010 年代,隨著摩爾定律逐漸接近物理瓶頸而慢慢消失——我們可以看到,最近 10 年中,CPU 性能增長(zhǎng)已經(jīng)從上世紀(jì) 8、90 年代的 15% 年復(fù)合增長(zhǎng)率(即性能每 18 個(gè)月翻倍)到了 2015 年后的 3% 年復(fù)合增長(zhǎng)率(即性能需要 20 年才翻倍)。

但是,摩爾定律對(duì)于半導(dǎo)體晶體管性能增長(zhǎng)的驅(qū)動(dòng)雖然已經(jīng)消失,但是摩爾定律所預(yù)言的性能指數(shù)級(jí)增長(zhǎng)并沒(méi)有消失,而是從 CPU 轉(zhuǎn)到了 GPU 上。如果我們看 2005 年之后 GPU 的性能(算力)增長(zhǎng),我們會(huì)發(fā)現(xiàn)它事實(shí)上一直遵循了指數(shù)增長(zhǎng)規(guī)律,大約 2.2 年性能就會(huì)翻倍!

同樣是芯片,為什么 GPU 能延續(xù)指數(shù)級(jí)增長(zhǎng)?這里,我們可以從需求和技術(shù)支撐兩方面來(lái)分析:需求意味著市場(chǎng)上是不是有應(yīng)用對(duì)于 GPU 的性能指數(shù)級(jí)增長(zhǎng)有強(qiáng)大的需求?而技術(shù)支撐則是,從技術(shù)上有沒(méi)有可能實(shí)現(xiàn)指數(shù)級(jí)性能增長(zhǎng)?

從需求上來(lái)說(shuō),人工智能確實(shí)存在著這樣強(qiáng)烈需求。我們可以看到,從 2012 年(神經(jīng)網(wǎng)絡(luò)人工智能復(fù)興怨念開(kāi)始)到至今,人工智能模型的算力需求確實(shí)在指數(shù)級(jí)增長(zhǎng)。2012 年到 2018 年是卷積神經(jīng)網(wǎng)絡(luò)最流行的年份,在這段時(shí)間里我們看到人工智能模型的算力需求增長(zhǎng)大約是每?jī)赡?15 倍。在那個(gè)時(shí)候,GPU 主要負(fù)責(zé)的是模型訓(xùn)練,而在推理部分 GPU 的性能一般都是綽綽有余。而從 2018 年進(jìn)入以 Transformer 架構(gòu)為代表的大模型時(shí)代后,人工智能模型對(duì)于算力需求的演進(jìn)速度大幅提升,已經(jīng)到了每?jī)赡?750 倍的地步。在大模型時(shí)代,即使是模型的推理也離不開(kāi) GPU,甚至單個(gè) GPU 都未必能滿足推理的需求;而訓(xùn)練更是需要數(shù)百塊 GPU 才能在合理的時(shí)間內(nèi)完成。這樣的性能需求增長(zhǎng)速度事實(shí)上讓 GPU 大約每?jī)赡晷阅芊兜乃俣榷枷嘈我?jiàn)拙,事實(shí)上目前 GPU 性能提升速度還是供不應(yīng)求!因此,如果從需求側(cè)去看,GPU 性能指數(shù)級(jí)增長(zhǎng)的曲線預(yù)計(jì)還會(huì)延續(xù)很長(zhǎng)一段時(shí)間,在未來(lái)十年內(nèi) GPU 很可能會(huì)從 CPU 那邊接過(guò)摩爾定律的旗幟,把性能指數(shù)級(jí)增長(zhǎng)的神話續(xù)寫(xiě)下去。

GPU 性能指數(shù)增長(zhǎng)背后的技術(shù)支撐

除了需求側(cè)之外,為了能讓 GPU 性能真正維持指數(shù)增長(zhǎng),背后必須有相應(yīng)的芯片技術(shù)支撐。我們認(rèn)為,在未來(lái)幾年內(nèi),有三項(xiàng)技術(shù)將會(huì)是 GPU 性能維持指數(shù)級(jí)增長(zhǎng)背后的關(guān)鍵。

第一個(gè)技術(shù)就是領(lǐng)域?qū)S茫╠omain-specific)芯片設(shè)計(jì)。同樣是芯片,GPU 性能可以指數(shù)級(jí)增長(zhǎng)而 CPU 卻做不到,其中的一個(gè)重要因素就是 GPU 性能增長(zhǎng)不僅僅來(lái)自于晶體管性能提升和電路設(shè)計(jì)改進(jìn),更來(lái)自于使用領(lǐng)域?qū)S迷O(shè)計(jì)的思路。例如,在 2016 年之前,GPU 支持的計(jì)算主要是 32 位浮點(diǎn)數(shù)(fp32),這也是在高性能計(jì)算領(lǐng)域的默認(rèn)數(shù)制;但是在人工智能興起之后,研究表明人工智能并不需要 32 位浮點(diǎn)數(shù)怎么高的精度,而事實(shí)上 16 位浮點(diǎn)數(shù)已經(jīng)足夠用于訓(xùn)練,而推理使用 8 位整數(shù)甚至 4 位整數(shù)都?jí)蛄?。而由于低精度?jì)算的開(kāi)銷比較小,因此使用領(lǐng)域?qū)S糜?jì)算的設(shè)計(jì)思路,為這樣的低精度計(jì)算做專用優(yōu)化可以以較小的代價(jià)就實(shí)現(xiàn)人工智能領(lǐng)域較大的性能提升。從 Nvidia GPU 的設(shè)計(jì)我們可以看到這樣的思路,我們看到了計(jì)算數(shù)制方面在過(guò)去的 10 年中從 fp32 到 fp16 到 int8 和 int4 的高效支持,可以說(shuō)是一種低成本快速提高性能的思路。除此之外,還有對(duì)于神經(jīng)網(wǎng)絡(luò)的支持(TensorCore),稀疏計(jì)算的支持,以及 Transformer 的硬件支持等等,這些都是領(lǐng)域?qū)S迷O(shè)計(jì)在 GPU 上的很好體現(xiàn)。在未來(lái),GPU 性能的提升中,可能是有很大一部分來(lái)自于這樣的領(lǐng)域?qū)S迷O(shè)計(jì),往往一兩個(gè)專用加速模塊的引入就能打破最新人工智能模型的運(yùn)行瓶頸來(lái)大大提升整體性能,從而實(shí)現(xiàn)四兩撥千斤的效果。

第二個(gè)技術(shù)就是高級(jí)封裝技術(shù)。高級(jí)封裝技術(shù)對(duì)于 GPU 的影響來(lái)自兩部分:高速內(nèi)存和更高的集成度。在大模型時(shí)代,隨著模型參數(shù)量的進(jìn)一步提升,內(nèi)存訪問(wèn)性能對(duì)于 GPU 整體性能的影響越來(lái)越重要——即使 GPU 芯片本身性能極強(qiáng),但是內(nèi)存訪問(wèn)速度不跟上的話,整體性能還是會(huì)被內(nèi)存訪問(wèn)帶寬所限制,換句話說(shuō)就是會(huì)遇到 " 內(nèi)存墻 " 問(wèn)題。為了避免內(nèi)存訪問(wèn)限制整體性能,高級(jí)封裝是必不可少的,目前的高帶寬內(nèi)存訪問(wèn)接口(例如已經(jīng)在數(shù)據(jù)中心 GPU 上廣泛使用的 HBM 內(nèi)存接口)就是一種針對(duì)高級(jí)封裝的標(biāo)準(zhǔn),而在未來(lái)我們預(yù)期看到高級(jí)封裝在內(nèi)存接口方面起到越來(lái)越重要的作用,從而助推 GPU 性能的進(jìn)一步提升。高級(jí)封裝對(duì)于 GPU 性能提升的另一方面來(lái)自于更高的集成度。最尖端半導(dǎo)體工藝(例如 3nm 和以下)中,隨著芯片規(guī)模變大,芯片良率會(huì)遇到挑戰(zhàn),而 GPU 可望是未來(lái)芯片規(guī)模提升最激進(jìn)的芯片品類。在這種情況下,使用芯片粒將一塊大芯片分割成多個(gè)小芯片粒,并且使用高級(jí)封裝技術(shù)集成到一起,將會(huì)是 GPU 突破芯片規(guī)模限制的重要方式之一。目前,AMD 的數(shù)據(jù)中心 GPU 已經(jīng)使用上了芯片粒高級(jí)封裝技術(shù),而 Nvidia 預(yù)計(jì)在不久的未來(lái)也會(huì)引入這項(xiàng)技術(shù)來(lái)進(jìn)一步繼續(xù)提升 GPU 芯片集成度。

最后,高速數(shù)據(jù)互聯(lián)技術(shù)將會(huì)進(jìn)一步確保 GPU 分布式計(jì)算性能提升。如前所述,大模型的算力需求提升速度是每?jī)赡?750 倍,遠(yuǎn)超 GPU 摩爾定律提升性能的速度。這樣,單一 GPU 性能趕不上模型算力需求,那么就必須用數(shù)量來(lái)湊,即把模型分到多塊 GPU 上進(jìn)行分布式計(jì)算。未來(lái)幾年我們可望會(huì)看到大模型使用越來(lái)越激進(jìn)的分布式計(jì)算策略,使用數(shù)百塊,上千塊甚至上萬(wàn)塊 GPU 來(lái)完成訓(xùn)練。在這樣的大規(guī)模分布式計(jì)算中,高速數(shù)據(jù)互聯(lián)將會(huì)成為關(guān)鍵,否則不同計(jì)算單元之間的數(shù)據(jù)交換將會(huì)成為整體計(jì)算的瓶頸。這些數(shù)據(jù)互聯(lián)包括近距離的基于電氣互聯(lián)的 SerDes 技術(shù):例如在 Nvidia 的 Grace Hopper Superchip 中,使用 NVLINK C2C 做數(shù)據(jù)互聯(lián),該互聯(lián)可以提供高達(dá) 900GB/s 的數(shù)據(jù)互聯(lián)帶寬(相當(dāng)于 x16 PCIe Gen5 的 7 倍)。另一方面,基于光互聯(lián)的長(zhǎng)距離數(shù)據(jù)互聯(lián)也會(huì)成為另一個(gè)核心技術(shù),當(dāng)分布式計(jì)算需要使用成千上萬(wàn)個(gè)計(jì)算節(jié)點(diǎn)的時(shí)候,這樣的長(zhǎng)距離數(shù)據(jù)交換也會(huì)變得很常見(jiàn)并且可能會(huì)成為系統(tǒng)性能的決定性因素之一。

我們認(rèn)為,在人工智能火熱的年代,GPU 將會(huì)進(jìn)一步延續(xù)摩爾定律的故事,讓性能指數(shù)級(jí)發(fā)展繼續(xù)下去。為了滿足人工智能模型對(duì)于性能強(qiáng)烈的需求,GPU 將會(huì)使用領(lǐng)域?qū)S迷O(shè)計(jì)、高級(jí)封裝和高速數(shù)據(jù)互聯(lián)等核心技術(shù)來(lái)維持性能的快速提升,而 GPU 以及它所在的人工智能加速芯片也將會(huì)成為半導(dǎo)體領(lǐng)域技術(shù)和市場(chǎng)進(jìn)步的主要推動(dòng)力。

* 免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

關(guān)鍵詞:

精彩推送
首頁(yè)
頻道
底部
頂部