Blog

Amazon發布強大新一代AI晶片,應對Nvidia供應短缺挑戰!

Blog Image
Amazon發布強大新一代AI晶片,應對Nvidia供應短缺挑戰!

November 29, 2023

重點摘要:
  1. Nvidia晶片供應短缺,預計持續至2025年,迫使科技公司開發自定義晶片以滿足日益增長的人工智慧需求。
  2. Amazon在其年度re:Invent大會上發布了新一代AI晶片「AWS Trainium2」,性能和能源效率分別比前代提高4倍和2倍,可擴展至100,000個晶片的集群。
  3. Amazon還宣布了基於Arm架構的「Graviton4」晶片,用於推斷,其計算性能、核心數和儲存帶寬均有顯著提升,並將於未來幾個月在Amazon EC2 R8g實例中提供。



新聞內文:
人工智慧的需求不斷增長,通常需要在GPU上進行訓練和運行,而GPU的供應短缺。據報導,Nvidia最優性能的晶片已售罄,直到2024年才有供應。晶片製造商TSMC的CEO最近對此表示不太樂觀,他表示,Nvidia以及其他競爭對手的GPU供應短缺可能會延續到2025年。

為了減少對GPU的依賴,財力雄厚的公司(即科技龍頭)正在開發自定義晶片,用於創造、換代和產品化AI模型。Amazon是其中之一,今天在其年度re:Invent大會上發布了用於模型訓練和推斷(即運行訓練過的模型)的最新一代晶片。

首款晶片是AWS Trainium2,據Amazon稱,它的性能和能源效率比2020年12月發布的第一代「Trainium」要好4倍和2倍。Trainium2將在AWS雲端中以16個晶片的集群形式提供,可擴展到AWS的「EC2 UltraCluster」產品的100,000個晶片。

Amazon表示,100,000個Trainium晶片提供了65 exaflops的計算能力,相當於每個單個晶片的650 teraflops(「Exaflops」和「teraflops」衡量晶片每秒可以執行多少計算操作)。可能有複雜因素使得這種估算不一定非常準確。但是假設一個Tranium2晶片確實可以提供約200 teraflops的性能,那麼它的性能遠高於Google於2017年左右推出的自定義AI訓練晶片的容量。

Amazon表示,100,000個Trainium晶片的集群可以在幾週內訓練出一個擁有3000億參數的大型語言模型AI,這大約是OpenAI的GPT-3的1.75倍,也是文字生成的前身「GPT-4」。

Amazon計劃於明年某個時候向AWS客戶提供Trainium2實例,但並未具體說明。

Amazon今天早上宣布的第二款晶片是基於Arm架構的Graviton4,用於推斷。「Graviton4」是AmazonGraviton晶片家族的第四代(根據「Graviton)後面的「4」來看),與Amazon的其他推斷晶片「Inferentia」不同。

Amazon聲稱,Graviton4的計算性能提高了30%,核心數增加了50%,內部儲存帶寬增加了75%,比前一代Graviton處理器「Graviton3」(但不包括更近期的Graviton3E)在AmazonEC2上運行要好。與Graviton3相比,「Graviton4」的另一個升級是,Amazon稱所有Graviton4的物理硬體界面都是「加密的」,顯然更好地保護了具有高度加密要求的客戶的AI訓練工作負載和數據。(我們已經向Amazon詢問了「加密」的具體含義,一旦收到回復,我們將更新本文)。

Amazon計劃在Amazon EC2 R8g實例中提供Graviton4,這些實例今天已經可以預覽,並計劃在未來幾個月內提供正式版本。

新聞原址: https://techcrunch.com/2023/11/28/amazon-unveils-new-chips-for-training-and-running-ai-models/