Amazon發布強大新一代AI晶片，應對Nvidia供應短缺挑戰！

Blog

November 29, 2023

重點摘要：

Nvidia晶片供應短缺，預計持續至2025年，迫使科技公司開發自定義晶片以滿足日益增長的人工智慧需求。
Amazon在其年度re:Invent大會上發布了新一代AI晶片「AWS Trainium2」，性能和能源效率分別比前代提高4倍和2倍，可擴展至100,000個晶片的集群。
Amazon還宣布了基於Arm架構的「Graviton4」晶片，用於推斷，其計算性能、核心數和儲存帶寬均有顯著提升，並將於未來幾個月在Amazon EC2 R8g實例中提供。

新聞內文：
人工智慧的需求不斷增長，通常需要在GPU上進行訓練和運行，而GPU的供應短缺。據報導，Nvidia最優性能的晶片已售罄，直到2024年才有供應。晶片製造商TSMC的CEO最近對此表示不太樂觀，他表示，Nvidia以及其他競爭對手的GPU供應短缺可能會延續到2025年。

為了減少對GPU的依賴，財力雄厚的公司（即科技龍頭）正在開發自定義晶片，用於創造、換代和產品化AI模型。Amazon是其中之一，今天在其年度re:Invent大會上發布了用於模型訓練和推斷（即運行訓練過的模型）的最新一代晶片。

首款晶片是AWS Trainium2，據Amazon稱，它的性能和能源效率比2020年12月發布的第一代「Trainium」要好4倍和2倍。Trainium2將在AWS雲端中以16個晶片的集群形式提供，可擴展到AWS的「EC2 UltraCluster」產品的100,000個晶片。

Amazon表示，100,000個Trainium晶片提供了65 exaflops的計算能力，相當於每個單個晶片的650 teraflops（「Exaflops」和「teraflops」衡量晶片每秒可以執行多少計算操作）。可能有複雜因素使得這種估算不一定非常準確。但是假設一個Tranium2晶片確實可以提供約200 teraflops的性能，那麼它的性能遠高於Google於2017年左右推出的自定義AI訓練晶片的容量。

Amazon表示，100,000個Trainium晶片的集群可以在幾週內訓練出一個擁有3000億參數的大型語言模型AI，這大約是OpenAI的GPT-3的1.75倍，也是文字生成的前身「GPT-4」。

Amazon計劃於明年某個時候向AWS客戶提供Trainium2實例，但並未具體說明。

Amazon今天早上宣布的第二款晶片是基於Arm架構的Graviton4，用於推斷。「Graviton4」是AmazonGraviton晶片家族的第四代（根據「Graviton）後面的「4」來看），與Amazon的其他推斷晶片「Inferentia」不同。

Amazon聲稱，Graviton4的計算性能提高了30%，核心數增加了50%，內部儲存帶寬增加了75%，比前一代Graviton處理器「Graviton3」（但不包括更近期的Graviton3E）在AmazonEC2上運行要好。與Graviton3相比，「Graviton4」的另一個升級是，Amazon稱所有Graviton4的物理硬體界面都是「加密的」，顯然更好地保護了具有高度加密要求的客戶的AI訓練工作負載和數據。（我們已經向Amazon詢問了「加密」的具體含義，一旦收到回復，我們將更新本文）。

Amazon計劃在Amazon EC2 R8g實例中提供Graviton4，這些實例今天已經可以預覽，並計劃在未來幾個月內提供正式版本。

新聞原址： https://techcrunch.com/2023/11/28/amazon-unveils-new-chips-for-training-and-running-ai-models/

Watch more News：

Amazon考慮對Alexa收費：即將離職的執行長戴夫·林普揭露AI運行成本高昂
Alexa轉型為「超級代理人」：Amazon的新大型語言模型與數千設備整合，強調實用性與用戶隱私
Google為青少年推出更安全、更智能的AI搜尋體驗：SGE進一步優化
企業謹慎探索生成式AI：潛力巨大但挑戰眾多
OpenAI揭露GPT-4視覺功能：有巨大潛力，但安全隱憂仍待解決