Blog

AI的未來:從全能到專門化,追求高效與節能的新趨勢

Blog Image
AI的未來:從全能到專門化,追求高效與節能的新趨勢

January 8, 2024

重點摘要:
  1. 產業正轉向部署更小型、更專門化的人工智慧模型,以提高效率,這與過去在硬體領域從依賴中央處理單元(CPU)轉向使用圖形處理單元(GPU)、張量處理單元(TPU)等硬體加速器的趨勢相似。
  2. 傳統的CPU設計用於通用計算,但其通用性帶來成本和效率上的折衷。對比之下,GPU、TPU等專門的硬體引擎雖功能較少,但因專注於特定任務而更高效。
  3. 在大型語言模型(LLM)領域,也發生著類似的轉變。像GPT-4這樣的通用模型雖強大,但其通用性導致了高成本。因此,出現了更專門化的模型,如CodeLlama和Llama-2-7B,這些模型在特定任務上表現出色且更節能。



新聞內文:
近期產業轉向部署更小型、更專門化的人工智慧模型,此舉更高效。這反映了我們之前在硬體領域所見證的轉型。即採用圖形處理單元(GPU)、張量處理單元(TPU)和其他硬體加速器,作為提高計算效率的手段。

兩種情況的簡單解釋都歸結於物理學。

中央處理單元(CPU)的權衡
CPU被設計為通用計算引擎,目的在執行任意處理任務,從數據排序、計算到控制外部裝置。它們處理廣泛的記憶體存取模式、計算操作和控制流程。

然而,這種通用性帶來了成本。由於CPU硬體元件支援廣泛的任務和決策,這就要求更多的晶片用於電路、更多的能量來驅動它,當然還有時間來執行這些操作。

這種權衡雖然提供了多功能性,但固有地降低了效率。

這直接解釋了為何過去10-15年,專門化計算逐漸成為常態。

GPU、TPU、NPU等
如今,談論AI時不能不提到GPU、TPU、NPU以及各種形式的AI硬體引擎。

這些專門的引擎,簡而言之,不像CPU那樣通用。這意味著它們執行的任務比 CPU少,但因為它們的通用性較低,因此更高效。它們將更多的晶體管和能量用於實際計算和數據存取,而較少支援通用任務(以及與何時計算、存取相關的各種決策)。

由於它們更簡單且經濟,系統可以擁有更多這樣的計算引擎並且並行工作,因此每單位時間和每單位能量可以執行更多操作。

大型語言模型的平行轉變
大型語言模型(LLM)領域正在發生平行的演化。

就像CPU一樣,像GPT-4這樣的通用模型因其通用性和執行復雜任務的能力而令人印象深刻。但這種通用性也不可避免地來自於成本,包括參數數量(據傳聞是數以萬億計的參數跨越模型集合)以及相關的計算和記憶體存取成本。

這促使了專門化模型的興起,例如CodeLlama,它可以以較低的成本執行編碼任務(可能甚至更準確)。另一個例子,「Llama-2-7B」可以以較低的成本很好地執行典型的語言操作任務,例如實體提取。Mistral、Zephyr等都是能力強大的小型模型。

這一趨勢呼應了從單靠CPU到融合專門計算引擎(如GPU)的現代系統的轉變。在需要並行處理簡單操作的任務中,GPU表現出色,例如AI、模擬和圖形渲染,這些構成這些領域大部分的計算需求。

簡單操作需要較少的電子
在LLM的世界中,未來在於部署眾多更簡單的模型來執行大多數AI任務,只有在真正需要它們的能力時才使用更大、更耗資源的模型。幸運的是,許多企業應用,如非結構化數據操作、文本分類、摘要等,都可以使用更小、更專門化的模型來完成。

這背後的原則很直接:簡單操作需要較少的電子,轉化為更高的能源效率。這不僅僅是技術選擇;這是由物理學的基本原則所決定的必然性。因此,AI的未來不在於建造更大的通用模型,而在於擁抱專業化的力量,實現可持續、可擴展和高效的AI解決方案。


新聞原址: https://venturebeat.com/ai/specialized-models-how-ai-is-following-the-path-of-hardware-evolution/