Blog

Stability AI公布新的FreeWilly語言模型,使用最小且高度合成的資料進行訓練

Blog Image
Stability AI公布新的FreeWilly語言模型,使用最小且高度合成的資料進行訓練

July 25, 2023

兩種全新的大型語言模型(LLM)正式亮相,對於90年代的孩子們,他們將立即認出這些名字:FreeWilly1和FreeWilly2。

這兩種新的LLM模型是由Stability AI在上週五公開的,該公司是Stable Diffusion影像生成AI的背後公司,並由前英國對沖基金經理Emad Mostaque創立,他被指控誇大了自己的履歷。這兩種新的LLM模型都是基於Meta的LLaMA和LLaMA 2開源模型的版本,但是在全新、較小的資料集上進行訓練,其中包括合成資料。



這兩種模型在複雜推理、語言細節以及回答法律和數學等專業領域的複雜問題方面表現出色。

Stability的子公司CarperAI以「非商業授權」的方式發布了FreeWillys,這意味著它們不能用於賺錢/企業/商業目的,而是旨在推動AI社區的研究和開放獲取。

較小的鯨魚,更環保
模型的名字是在微軟研究人員開發的「Orca」AI訓練方法上玩了一個文字遊戲,該方法允許「較小」的模型(接觸到更有限的資料的模型)達到與接觸到大規模資料集的大型基礎模型相同的性能。 (並非指現實生活中會沉船的虎鯨。)

具體來說,FreeWilly1和FreeWilly2使用了60萬個資料點進行訓練——只有原始Orca資料集大小的10%——並且使用了由Enrico Shippole創建的四個資料集的指令,這意味著他們比原始Orca模型和大多數領先的LLM要便宜得多、更環保(使用較少的能源,碳足跡較低)。在某些情況下,模型仍然產生了出色的性能,可以與ChatGPT在GPT-3.5上的表現相媲美,甚至超過。

在合成資料上的訓練顯示出前景
隨著LLM的擴散,一個問題浮現出來:當使用它們生成更多的內容,然後將這些模型的未來更新和未來的模型訓練在這些由AI生成的內容/資料上會發生什麼?

一篇開放存取的論文描述了一種「模型崩潰」的過程,在這個過程中,接受了大量AI生成資料訓練的LLM的表現比那些接受人類生成資料訓練的前輩們表現得更差。

然而,在訓練FreeWillys時,Stability AI使用了另外兩個LLM生成了50萬個範例和10萬個合成範例,並且發現FreeWillys仍然表現良好,顯示合成資料可能是解決模型崩潰的答案——以及避免使用受版權或專有資料的方法。

與Stability AI一起游向未來
Stability AI希望這些模型能在開放獲取LLM領域設定新的標準,提升自然語言理解能力並實現複雜的任務。

Stability AI團隊表示:「我們對這些模型將為AI社區帶來的無窮可能性以及他們將激發的新應用感到興奮。」他們對致力於實現這一里程碑的研究人員、工程師和合作者表示感謝。

研究人員和開發者可以按原樣獲取FreeWilly2的權重,而FreeWilly1的權重則以對原始模型的增量形式發布。



新聞原址: https://venturebeat.com/ai/stability-ai-unveils-new-freewilly-language-models-trained-using-minimal-and-highly-synthetic-data/