博客專欄

EEPW首頁 > 博客 > 自研芯片之后,AWS省了多少錢?

自研芯片之后,AWS省了多少錢?

發(fā)布人:旺材芯片 時間:2023-03-22 來源:工程師 發(fā)布文章

來源:內容由半導體行業(yè)觀察(ID:icbank)編譯自semianalysis,謝謝。


亞馬遜擁有的服務器比世界上任何其他公司都多,盡管它的內部需求比谷歌、微軟、Meta 和騰訊小得多。Amazon Web Services (AWS) 長期以來一直是云計算的代名詞。AWS 通過迎合初創(chuàng)企業(yè)和類似企業(yè)的需求,提供可擴展、可靠、低成本的計算和存儲解決方案,從而主導了市場。這個引擎推動亞馬遜成為世界上最杰出的計算公司,但這種情況正在發(fā)生變化。


亞馬遜是一家了不起的技術公司,但他們在某些方面有所欠缺。技術實力、文化和/或業(yè)務決策將阻礙他們像前兩次那樣抓住下一波云計算浪潮。本文將涵蓋云計算的這 3 個階段,以及亞馬遜在前兩個階段的持續(xù)主導地位并不一定讓他們在計算未來的戰(zhàn)斗中處于領先地位。


我們還將概述亞馬遜的各種內部半導體設計,包括 Nitro、Graviton、SSD、Inferentia 和 Trainium。本概述將探討亞馬遜內部半導體雄心的技術和總體擁有成本觀點。我們認為,亞馬遜故意做的事情會損害其在人工智能和企業(yè)自動化領域的地位,并最終導致他們失去計算市場份額。同時,包括Microsoft Azure、Google Cloud、Nvidia Cloud、Oracle Cloud、IBM Cloud、Equinix Fabric、Coreweave、Cloudflare 和 Lambda 在內的廠商,將從多個方向和不同程度上對抗亞馬遜的主導地位。

旺材芯片
,贊47

在我們深入研究我們的論文之前,我們需要先上一堂歷史課。


AWS 的出現(xiàn)


隨著亞馬遜零售業(yè)務規(guī)模的膨脹,它開始遇到其單一的 90 年代軟件實踐的局限性。在這里,梅特卡夫定律(Metcaff’s law )有點適用——隨著每個附加服務或開發(fā)人員的增加,復雜性以 n^2 的速度增長。即使是簡單的更改或增強也會影響許多下游應用程序和用例,需要大量的溝通。因此,亞馬遜將不得不在一年中的某個時間點凍結大部分代碼更改,以便假期可以專注于錯誤修復和穩(wěn)定性。


亞馬遜還存在重復工作和資源的重大問題,只是為了建立一個簡單的關系數(shù)據(jù)庫或計算服務。最聰明的工程師通常不是最好的溝通者這一事實加劇了這種情況,當不同團隊之間沒有共同目標時尤其如此。大型軟件項目往往會達到臨界質量,組織和應用程序的規(guī)模會導致生產力和新功能的實施時間過長。


微軟是最早遇到這個問題的公司之一,他們最初通過引入項目經理的角色來解決這個問題。專職人員與開發(fā)人員團隊交流,管理組織、溝通和規(guī)范文檔等任務,這在當時是聞所未聞的,但它是一種有效的工具。僅此一項并不能解決所有問題。


亞馬遜在多年后遇到了同樣的問題,但他們在遇到這些問題時采取了截然不同的方法。亞馬遜并沒有促進團隊之間的溝通,而是試圖通過利用“強化接口”來減少溝通。他們從這種單一的軟件開發(fā)模式轉向面向服務的架構。需要明確的是,其他公司和學術界也在實施這項技術,但沒有人像亞馬遜那樣強烈地投入到這項技術中。


亞馬遜早期員工 Steve Yegge 回憶起亞馬遜的這個關鍵時刻。以下是他加入谷歌后對亞馬遜****雷霆的備忘錄的一部分,該備忘錄不小心被分享到了網上。


“所以有一天杰夫貝索斯發(fā)布了一項授權(mandate)。當然,他一直都在這樣做,每當這種情況發(fā)生時,人們都會像被橡皮錘敲打的螞蟻一樣爭先恐后。但有一次——我想是在 2002 年左右,前后一年——他發(fā)布了一項如此公開、如此龐大和令人目瞪口呆的授權,以至于他的所有其他授權看起來都像是未經請求的同行獎金.


他的大使命是沿著這些路線進行的:


  1. 今后所有團隊都將通過服務接口公開他們的數(shù)據(jù)和功能。

  2. 團隊必須通過這些界面相互溝通。

  3. 不允許其他形式的進程間通信:沒有直接鏈接,沒有直接讀取另一個團隊的數(shù)據(jù)存儲,沒有共享內存模型,沒有任何后門。唯一允許的通信是通過網絡上的服務接口調用。

  4. 他們使用什么技術并不重要。HTTP、Corba、Pubsub、自定義協(xié)議——都無關緊要。貝佐斯不在乎。

  5. 所有服務接口,無一例外,都必須從頭開始設計為可外部化的。也就是說,團隊必須進行規(guī)劃和設計,才能將接口暴露給外界的開發(fā)者。沒有例外。

  6. 任何不這樣做的人都會被解雇。

  7. 謝謝; 祝你今天過得愉快!


哈哈!在座的 150 多名前亞馬遜員工當然會立即意識到#7 是我開的一個小玩笑,因為貝佐斯絕對不會在乎你的一天?!?/p>


這個分享中最具影響力的部分是第 5 個部分,即他們必須能夠將這些強化接口外部化。這是AWS的開始。


從此以后!合乎邏輯的進展是以類似的方式抽象出計算和存儲硬件。由于許多團隊一直在構建服務,并被告知如果他們與其他團隊交談,他們將被解雇,因此沒有任何可以想象的方式讓 IT 集中規(guī)劃對服務器的需求以及計算和存儲需求的增長。隨著團隊的服務在內部大受歡迎,他們需要能夠為任務配置硬件。


又花了大約 4 年的時間,亞馬遜的團隊終于采納了這些想法并創(chuàng)建了后來成為 AWS 的公開產品。


我們將從頭快進,更多地談論這個時代對今天的意義。早期,亞馬遜籠絡了所有初創(chuàng)公司,讓他們能夠真正建立自己的業(yè)務。雖然大多數(shù)早期采用者是 Netflix 和 Twitch 等軟件領域的非傳統(tǒng)新公司,但創(chuàng)新的硬件公司也都登上了勢不可擋的云貨運列車。


“這太容易了。對于像我們這樣的新公司,您將永遠不會再構建傳統(tǒng)的數(shù)據(jù)中心。”Arista 和 Sun Microsystems 的創(chuàng)始人,Google 和 VMware 最早的投資者之一Andy Bechtolsheim說。


亞馬遜于 2006 年推出了存儲服務 S3。緊隨其后的是計算服務 EC2。2009年,提供關系型數(shù)據(jù)庫服務。然后是 Redshift 和 Dynamo DB。在他們的任何競爭對手甚至接近之前,亞馬遜已經與客戶進行了數(shù)百次重要發(fā)布。要點是,這個時代的特點是 AWS 只是擁有比其他任何人都更好/更多的產品、應用程序和服務,以及更好的文檔。每次谷歌云或微軟 Azure 構建一些東西時,亞馬遜都會領先很多步和/或更容易使用。


雖然這是事實,尤其是在云的初期,并且在某些類別中一直持續(xù)到今天。AWS 出現(xiàn)的故事和生命周期仍在上演,盡管鴻溝已大大縮小。亞馬遜讓人們使用****付款的模式擾亂了 6 位數(shù)或 7 位數(shù)服務合同的傳統(tǒng)業(yè)務,并將繼續(xù)這樣做。第一波云計算浪潮有一條長長的尾巴。


AWS 的王牌——規(guī)模(Scale)


隨著過去十年中期的到來,大多數(shù)財富 500 強公司也開始向云遷移。隨著云計算市場的成熟,其他公司認識到了這個機會并開始大力投資他們的云產品。尤其是 Microsoft Azure,通過利用其對企業(yè)友好的方法成為強有力的競爭者。雖然谷歌云平臺最初因缺乏商業(yè)重點而難以獲得市場份額,但此后它改進了產品并將很快實現(xiàn)盈利。


競爭變得越來越激烈,但亞馬遜有一張王牌——規(guī)模。


有兩種方法可以看待這種規(guī)模優(yōu)勢。首先是從lens來看,亞馬遜實際上只是更大,在云空間中的足跡比其他任何人都多。云服務提供商需要一定程度的規(guī)模來利用其規(guī)模以較低的價格購買硬件并分攤其軟件和硬件設計成本。


云服務提供商還需要準備好一定數(shù)量的容量供其他人隨時使用,這一點尤其重要。因為云服務提供商不能只集中計劃其服務器的利用率。即使是長期合同,也常常伴隨著何時使用信用額度的高度不確定性。同時,云提供商必須具有高利用率才能獲得足夠的投資回報率 (RoIC)。你越大,就越容易實現(xiàn)那些高利用率,并有足夠的過剩產能供客戶增加和減少。


由于云市場的規(guī)模意味著多家公司可以達到最小可行臨界質量,因此這個lens的持續(xù)時間大多有限。亞馬遜擊中了那個曲棍球棒的時刻,大約是在 2010 年代的早期到中期。到了2012 年,亞馬遜實現(xiàn)了自成立以來的對 AWS 進行了 23 次降價,到 2015 年他們總共進行了 51 次。盡管競爭開始升溫,但 2017 年時代后降價明顯放緩,盡管私人兩位數(shù)百分比折扣非常普遍。至少,微軟和谷歌也早就達到了這種規(guī)模水平。在專門的應用程序中,其他云也達到了有意義的規(guī)模,例如 CDN 中的 Cloudflare 或 AI 服務器中的 Oracle。


更重要的規(guī)模角度來自專用半導體的lens,無論是內部還是與生態(tài)系統(tǒng)中的合作伙伴。亞馬遜和谷歌是這一轉型中最重要的領導者,但每家超大規(guī)模公司都已經開始部署至少一些內部芯片。這涵蓋了從網絡、通用計算和ASIC。


亞馬遜也通過定制芯片節(jié)省了大量成本,這是競爭對手難以復制的,尤其是在標準 CPU 計算和存儲應用程序中。定制芯片為云提供商帶來 3 大核心優(yōu)勢。


1、通過架構創(chuàng)新為您獨特的工作負載設計芯片以獲得更高的性能。

2、對某些工作負載進行戰(zhàn)略控制和鎖定。

3、通過消除無晶圓廠設計公司的利潤堆疊來節(jié)省成本。


當涉及到新的業(yè)務部門、部門或基礎設施變化時,亞馬遜過去是,現(xiàn)在仍然是,以一種非常有創(chuàng)業(yè)精神的方式運營。他們的團隊在很多方面都保持靈活和小規(guī)模,但他們仍然得到背后這個龐然大物組織的全力支持。我們最喜歡的與此相關的故事是他們開始定制芯片。


Amazon Nitro


早在 2012 年,AWS 的一名工程師就有了一個想法。為什么不在每個 EC2 實例和外部世界之間放置一個“加密狗”(dongle),一種專用硬件,以便所有數(shù)據(jù)都可以通過它流動?這個加密狗將運行安全、網絡和虛擬化任務,例如管理程序?!凹用芄贰钡暮锰帉⒅苯犹岣?EC2 實例的性能、成本和安全性,同時還支持裸機實例。最初的一個小想法能夠變成亞馬遜的整個定制芯片工作,它設計了許多不同的芯片并每年為他們節(jié)省數(shù)百億美元。


AWS 制定了支持這種加密狗想法的定制芯片的規(guī)范。要求很簡單,一個基于 Arm 的雙核片上系統(tǒng) (SoC),可以連接 PCIe。在與幾家公司接洽后,AWS 與Cavium合作,以避免構建定制 SoC導致每臺 EC2 服務器成本大幅增加的挑戰(zhàn),由此產生的 Cavium 部件很快就交付了。整個系統(tǒng),在獨立的 PCIe 卡和相關軟件上帶有定制的 SoC,被命名為“Nitro 系統(tǒng)”。它首次出現(xiàn)(盡管最初并未公開討論)在 C3、R2 和 I2、EC2 實例中。


到 2022 年 8 月,AWS 部署了四代、超過 2000 萬個 Nitro 部件,每臺新的 EC2 服務器都至少安裝了一個 Nitro 部件。


這種“加密狗”的主要成本優(yōu)勢是它卸載了亞馬遜的管理軟件,即管理程序,否則它會在現(xiàn)有的 CPU 上運行。亞馬遜基礎設施中最常部署的 CPU 過去是,現(xiàn)在仍然是英特爾 14 納米 24 核 CPU。直到今天,Microsoft Azure 等其他云在非客戶的工作負載上占用了多達 4 個 CPU 內核。如果這在亞馬遜的所有基礎設施中都適用,那么現(xiàn)有服務器的虛擬機數(shù)量將減少約 15%,從而減少收入。


即使對每個 Nitro 節(jié)省 2 個 CPU 內核的更為保守的估計(每內核成本保守估計約為四分之一的保留標價),那么Nitro每年節(jié)省的成本也超過 70 億美元。


圖片


將這些工作負載從服務器 CPU 內核轉移到定制的 Nitro 芯片不僅大大降低了成本,而且由于消除了與管理程序相關的嘈雜相鄰問題(例如共享緩存、IO 帶寬和功率/熱量預算)而提高了性能。


此外,客戶還可以通過在管理程序管理層和服務器之間增加air gap來提高安全性。這種物理隔離消除了來自惡意租戶的邊信道升級攻擊的可能載體。


除了管理程序卸載節(jié)省,隨著 Nitro 的發(fā)展,它還在許多網絡工作負載中發(fā)揮了核心作用。例如,可以卸載 IPsec,僅此一項就可以為亞馬遜的每個主要客戶節(jié)省數(shù)百萬美元。


圖片


亞馬遜定制芯片工作的核心直接來自他們與 Annapurna Labs 的合作以及后來在 2015 年對 Annapurna Labs 的收購。Annapurna 專注于用于網絡和存儲的服務器 SOC。應該注意的是,Nitro 不僅僅是 1 個芯片,盡管我們是這樣稱呼它的。但其實對于不同的用例,Nitro有多個版本和多個變體。


Amazon 在 EC2 之外的大多數(shù)頂級服務都與存儲和數(shù)據(jù)庫有關。Nitro 是亞馬遜在這些工作負載中獲得持久競爭優(yōu)勢的主要推動因素。傳統(tǒng)的服務器架構在每臺服務器中至少放置了一些存儲,這導致未使用的資源大量擱置。


圖片


亞馬遜能夠從每臺服務器上移除該存儲并將其移動到集中式服務器中。然后客戶租用的服務器可以從網絡存儲啟動。即使使用高性能 NVMe SSD,Nitro 也能做到這一點。這種存儲架構的轉變幫助亞馬遜極大地節(jié)省了存儲成本,因為客戶不需要為超出他們想要使用的存儲量支付任何費用??蛻艨梢詿o縫地動態(tài)擴展和收縮他們的高性能存儲池。


從使用通用硬件的計算和網絡角度來看,這是極其昂貴的,但由于在內部特定于工作負載的 ASIC 上,Nitro 可以以較低的成本向租戶的虛擬機提供虛擬磁盤等服務。


圖片


亞馬遜對存儲的關注延伸到與 Marvell共同設計“AWS Nitro SSD”控制器。這些 SSD 專注于避免延遲峰值和避免延遲可變性,以及通過 Amazon 管理的高級磨損均衡最大限度地延長 SSD 的使用壽命。未來的變體將包括一些計算卸載以提高查詢性能。


其他 2 大云也在嘗試走同樣的路線,但他們落后了很多年,并且需要一個需要一定利潤的合作伙伴。谷歌選擇使用定制芯片與共同設計的英特爾 Mount Evans IPU,而微軟則結合了 AMD Pensando DPU,并最終在內部開發(fā)了用于存儲用例的基于 Fungible 的 DPU。在接下來的幾年里,這兩個競爭對手都將堅持使用第一代或第二代商用芯片。


亞馬遜正在安裝他們內部設計的第 5 代 Nitro 。從基礎設施成本的角度來看,Nitro 帶來的優(yōu)勢不可低估。它可以大大降低亞馬遜的成本,然后可以將成本轉嫁給客戶,或者帶來更高的利潤。


Arm進一步走向AWS


雖然 Nitro 確實使用了基于 Arm 的 CPU 內核,但關鍵在于各種固定功能的特定于應用程序的加速。AWS 對基于 Arm 的定制芯片的興趣不僅限于將他們自己的工作負載卸載到專用硬件。2013 年,AWS 對使用自己的芯片的想法有了更進一步的發(fā)展。在一份名為“AWS Custom Hardware”的文檔中,工程師 James Hamilton 提出了兩個關鍵點。


  1. 服務器功能最終將整合到一個 SoC 中。因此,要在云中進行創(chuàng)新,AWS 需要在硅片上進行創(chuàng)新。

  2. 移動和物聯(lián)網平臺上出貨的 Arm CPU 數(shù)量將使投資能夠創(chuàng)建基于 Arm 的出色服務器 CPU,就像英特爾能夠在客戶端業(yè)務中利用 x86 接管 90 年代和 00 年代的服務器 CPU 業(yè)務一樣。


最終的結論是,AWS 需要做一個定制的 Arm 服務器處理器。順便說一句,如果這份文件在其成立 10 周年之際公開發(fā)布以展示它的遠見,那將是一件令人驚奇的事情。讓我們擴展 James Hamilton 的這篇論文,看看使用 AWS 設計的基于 Arm 的 CPU 與外部同類產品相比可以提供優(yōu)勢的兩種主要方式。


首先,它們?yōu)?AWS 提供了一種降低成本并為客戶提供更好價值的方法。它將如何實現(xiàn)這一目標?根據(jù) James Hamilton 的觀點,它可以通過使用 Arm 設計的 Neoverse 核心來利用 Arm 在移動領域的規(guī)模。它還可以利用臺積電的制造規(guī)模,該規(guī)模遠超英特爾,主要是由于智能手機市場。當然,使用臺積電還可以獲得領先的工藝節(jié)點,領先于英特爾。


我們估計到 2022 年亞馬遜的內部 Graviton 2 和 3 CPU 將達到近 100 萬個。僅這一數(shù)量就足以證明將核心設計外包給 Arm 的內部 CPU 計劃是合理的,尤其是在亞馬遜繼續(xù)替代 AMD 和Intel 的CPU 是自己采購的。亞馬遜的垂直整合策略是顯而易見的,即使唯一的好處是更便宜的 CPU。


圖片


將亞馬遜的 Graviton 單位體積與一般市場進行比較,與英特爾和 AMD 相比仍然相形見絀。雖然我們認為亞馬遜憑借其內部安裝在 Arm 服務器領域的出貨量超過了Ampere Computing ,但與 x86 供應商相比仍有很大差距。


圖片


現(xiàn)在,如果我們檢查平均銷售價格,由于 48 核和 64 核服務器 CPU 的高度組合以及無與倫比的 IO 能力,AMD 獲得了業(yè)內最高的銷售價格。Ampere Computing 的 ASP 相似,大約在 600 美元左右。我們使用了我們自己對 Graviton 2 和 Graviton 3 的制造、包裝和測試成本的估算。請注意,IP 許可成本未計算在內,但可能不會那么高,因為亞馬遜與 Arm 達成了一個非常友好的合作協(xié)議。


圖片


如果假設 CPU 是 1 對 1 的替代品,那么亞馬遜改用內部芯片可為他們節(jié)省數(shù)億美元。當然,并不是所有的 CPU 都是平等的。即使是 AMD 的上一代 Milan 在許多方面仍然比英特爾、亞馬遜或Ampere 當前一代芯片更快。即使忽略異常值,Graviton 在 2022 年的潛在節(jié)省也超過 3 億美元?,F(xiàn)在,亞馬遜的 CPU比英特爾的性能更高。同時,功耗更低。這一事實層出不窮,節(jié)省的資金開始快速增長。我們認為 Graviton 的總開發(fā)成本可能在每年約 1 億美元的范圍內,這為他們節(jié)省了超過 2 億美元。


商業(yè)芯片供應商正在不可逆轉地損失數(shù)億美元,并很快損失數(shù)十億美元的 TAM。英特爾是這里最大的輸家,從一家將數(shù)百萬個 CPU 銷售到云端的芯片公司,轉變?yōu)橐患覍@些 Graviton3 CPU 進行利潤率顯著降低的封裝的制造公司。


同樣重要的是,內部 CPU 使亞馬遜能夠設計 CPU 以最大限度地提高密度并最大限度地減少服務器和系統(tǒng)級能源,這對總體擁有成本有很大幫助。一個易于理解的工程決策是,亞馬遜將 Graviton 3 設計為只有 64 個內核,盡管它有足夠的空間來擴展芯片尺寸和功率。


將此與AMD 的 96 核 Epyc 進行對比,后者速度更快,但也具有更高的功率。亞馬遜有意識的工程決策使他們能夠在每個 1U 服務器上放置 3 個CPU。同時,AMD Genoa服務器每 1U 最多 2 個 CPU,并且由于功率限制,它通常最終成為 2U 大小的服務器。一些與 AMD 和英特爾不同的更細微的工程選擇圍繞著 Graviton 的是后者是云原生的。


當然,我們不應忘記,競爭也增加了英特爾和 AMD 降低 CPU 價格的壓力。AWS 也節(jié)省了他們的 x86 CPU!AMD 和英特爾必須在很大程度上超越亞馬遜,以證明他們在商業(yè)芯片上的巨額利潤是合理的。我們毫不懷疑 AMD 在設計 CPU 內核和 SoC 方面更勝一籌,而英特爾也可以做到這一點,但他們是否可以超過 2 倍以證明其約 60% 的數(shù)據(jù)中心利潤率是合理的?毫無疑問,這是個艱難的提議。


微軟和谷歌都在進行內部服務器 CPU 方面的工作,但他們還沒有批量安裝任何東西。即使他們做到了,也很難想象他們能夠擊敗亞馬遜的第三代或者第四代產品。亞馬遜的巨大規(guī)模,尤其是在通用計算和存儲相關的垂直領域,不容小覷。這將在未來許多年繼續(xù)推動云計算的持久優(yōu)勢。


下一個計算時代


到目前為止,我們只是對亞馬遜贊不絕口,但在我們甚至可以開始談論云服務提供商的未來之前,必須介紹亞馬遜優(yōu)勢的背景和現(xiàn)實。


總的來說,亞馬遜、半導體和科技都是 S 型曲線的故事。亞馬遜作為一家公司,致力于不斷發(fā)展。他們從未真正退出投資周期。在很多方面,他們在文化上都具備總能找到下一件大事的能力,而不一定是在他們的毒牙扎進去后就榨取最大價值。


亞馬遜的文化、圍繞其云服務提供商模型的有意識的商業(yè)決策,以及與定制計算和網絡芯片相關的技術選擇,可能會讓他們在下一個計算時代束手無策。雖然云的前兩個時代將繼續(xù)發(fā)揮作用,亞馬遜將從成為寡頭壟斷市場中領先的不受監(jiān)管的公用事業(yè)公司中獲取巨大價值,但下一個時代不一定屬于他們。來自現(xiàn)有競爭對手和領先的新競爭對手的巨大競爭壓力。


*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: 自研芯片

技術專區(qū)

關閉