Blog

瑞士科學家創新突破:快速前饋網路大幅提升神經網路效率

Blog Image
瑞士科學家創新突破:快速前饋網路大幅提升神經網路效率

November 27, 2023

重點摘要:
  1. 瑞士蘇黎世聯邦理工學院的研究人員開發了一種新技術,能顯著提升神經網路的速度,透過改變推論過程來減少計算需求。
  2. 他們提出了「快速前饋」層(FFF),使用條件矩陣乘法(CMM),以取代傳統前饋網路中的「密集矩陣乘法」(DMM),從而顯著減少計算負載。
  3. 這項技術在FastBERT模型上的應用表現出色,能夠在保持高性能的同時大幅減少計算需求,為解決大型語言模型的內存和計算瓶頸問題提供了新的解決方案。



新聞內文:
瑞士蘇黎世聯邦理工學院(ETH Zurich)的研究人員開發了一種新技術,可以明顯提升神經網路的速度。他們已經證明,改變推論過程可以大幅減少這些網路的計算需求。

在對BERT進行的實驗中,BERT是各種語言任務中使用的變換器模型,他們實現了計算量超過99%的驚人減少。這種創新技術也可以應用於大型語言模型(LLM)中使用的變換器模型,為更快、更高效的語言處理開辟了新的可能性。

快速前饋網路
作為支持LLM的神經網路,變換器包含各種層,包括注意力層和前饋層。前饋層占模型參數的相當大一部分,由於需要計算所有神經元和輸入維度的乘積,因此計算成本高昂。

然而,研究人員的論文顯示,在推論過程中,並不需要所有前饋層內的神經元都對每個輸入進行活躍操作。他們提出了引入「快速前饋」層(FFF)來替代傳統的前饋層。

FFF使用一種稱為條件矩陣乘法(CMM)的數學操作,取代了傳統前饋網路中使用的「密集矩陣乘法」(DMM)。

在DMM中,所有輸入參數都與網路的所有神經元相乘,這是計算密集型且效率低下的過程。另一方面,CMM以使每個輸入在處理時不需要超過少數幾個神經元的方式來處理推論。

透過為每個計算標識正確的神經元,FFF可以顯著減少計算負載,從而實現更快、更高效的語言模型。

快速前饋網路的應用
為驗證他們的創新技術,研究人員開發了FastBERT,這是對Google的「BERT變換器模型」的修改。FastBERT透過將中間前饋層替換為快速前饋層來革新模型。FFF將其神經元排列成平衡的二叉樹,在根據輸入條件執行僅一個分支。

為評估FastBERT的性能,研究人員在通用語言理解評估(GLUE)基準的幾個任務上對不同變種進行了微調。GLUE是一套廣泛用於培訓、評估和分析自然語言理解系統的數據庫。

結果令人印象深刻,FastBERT的性能與相似大小和訓練程式的基礎BERT模型相媲美。FastBERT的不同變種在單個A6000 GPU上進行了一天的訓練後,仍保持了原始BERT模型性能的至少96.0%。值得注意的是,他們的最佳FastBERT模型在使用自己的前饋神經元僅占0.3%的情況下,與原始BERT模型的性能相匹配。

研究人員認為,在LLM中引入快速前饋網路具有龐大的加速潛力。例如,在GPT-3中,每個變換器層的前饋網絡包含49,152個神經元。

研究人員指出:「如果可訓練,這個網路可以被具有最大深度15的快速前饋網路所替代,該網路只包含65536個神經元,但在推論中只使用16個。這相當於GPT-3神經元的約0.03%」。

有待改進
對於傳統前饋神經網路中使用的數學操作:「密集矩陣乘法」,已經進行了重大的硬體和軟體改善。

研究人員寫道:「密集矩陣乘法是計算歷史上最優化的數學操作」。「人們已經付出了巨大的努力來設計內部儲存、晶片、指令集和軟體例程,以儘可能快地執
行它。這些進步中的許多進步,不論是因為它們的複雜性還是競爭優勢,都被保密起來,僅透過強大但有限制的編程接口提供給最終使用者」。

相比之下,目前還沒有有效的在地實現條件矩陣乘法的方法,這是快速前饋網路中使用的操作。目前沒有流行的深度學習框架提供了可以用於實現CMM的界面,除了高級模擬之外。

研究人員開發了基於CPU和GPU指令的CMM操作的自己實現,這在推論期間實現了驚人的78倍速度提高。

然而,研究人員認為,通過更好的硬體和算法以及對該算法的低級實現,可能存在超過300倍的推論速度提高的潛力。這可以顯著解決語言模型生成每秒令牌數量的主要挑戰之一。

研究人員寫道:「在BERT-base模型的規模上,理論上可以實現341倍的加速,我們希望我們的工作將激發實現條件神經執行的原語作為設備編程接口的一部分的努力」。

這項研究是解決大型語言模型的內存和計算瓶頸的更廣泛努力的一部分,為更高效和更強大的AI系統鋪平了道路。

新聞原址: https://venturebeat.com/ai/how-can-ai-better-understand-humans-simple-by-asking-us-questions/