Blog

Google DeepMind啟動機器人技術革命:打造全新「Open X-Embodiment」數據庫,邁向通用機器人新紀元

Blog Image
Google DeepMind啟動機器人技術革命:打造全新「Open X-Embodiment」數據庫,邁向通用機器人新紀元

November 6, 2023

重點摘要:
  1. Google DeepMind與33家研究機構合作推出「Open X-Embodiment」機器人功能數據庫,旨在推動機器人技術發展。
  2. Open X-Embodiment數據庫包含來自22個機器人實例的500多個技能和15萬項任務,並成功訓練了RT-1-X模型,實現50%的成功率。
  3. 機器人技術的未來發展趨向於通用機器人,並探討生成AI在機器人技術中的核心作用,以及模擬在數據收集和分析中的重要性。



新聞內文:
Google DeepMind最近與33家研究機構合作推出了「Open X-Embodiment」,這是一個機器人功能數據庫。這個數據庫被研究人員比喻為「ImageNet」,它是自2009年創作以來現在擁有超過1400萬張圖片的重要數據庫。

研究人員Quan Vuong和Pannag Sanketi在當時指出:「正如ImageNet推動了計算機視覺研究一樣,我們相信Open X-Embodiment可以推動機器人技術的發展。建立一個多樣性機器人示範數據集是培訓通用模型的關鍵步驟,該模型可以控制多種不同類型的機器人,遵循多樣性的指令,執行關於複雜任務的基本推理並有效地概括」。

在宣布時,Open X-Embodiment包含了來自22個機器人實例的500多個技能和15萬項任務。雖然不及ImageNet的數量,但這是一個良好的開始。然後,Google DeepMind使用這些數據訓練了其RT-1-X模型,並用它來訓練其他實驗室的機器人,報告成功率達50%,而這與團隊內部開發的方法相比。

這確實是機器人學習的一個令人興奮的時刻。我已經多次在這些頁面上重複了這一點,但這確實是一個令人興奮的時刻。我已經與許多不同角度解決這個問題的團隊進行了交談,效果越來越好。訂製機器人的時代尚未結束,但似乎我們正在逐漸看到通用機器人成為可能的世界。

模擬無疑將是這個方程的重要部分,還有人工智慧(包括生成類型)。對於一些公司來說,在建立通用任務的硬體方面,似乎有些將軍前面擺放砲車的趨勢,但幾年之後,誰知道呢?

文森特·范胡克(Vincent Vanhoucke)是我一直試圖聯繫的人。如果我有空,他就沒有。就像在黑夜中相遇那樣的情況。幸運的是,我們終於在上週末成功合作。

范胡克是「Google DeepMind」的機器人主管,他在今年五月才接任這個職位。然而,他已經在公司待了超過16年,最近擔任Google AI Robotics的杰出科學家。總體來說,他可能是談論Google的機器人野心以及如何實現的最佳人選。
以下是與他進行的對話。

范胡克是「Google DeepMind」的機器人主管,他在今年五月才接任這個職位。

Q:DeepMind的機器人團隊是在DeepMind的歷史的哪個時候成立的?

A:我最初不在DeepMind的這一邊。我是Google Research的一部分。我們最近與DeepMind的努力合併了。所以,在某種程度上,我對DeepMind的參與是非常最近的。但Google DeepMind在機器人研究方面有著更長的歷史。它始於逐漸認為感知技術變得非常非常出色的觀點。

很多計算機視覺、音訊處理等方面的技術正在發生巨變,幾乎達到了人類水平。我們開始問自己:「好吧,假設這在未來幾年內持續下去,那會有什麼後果?」一個明確的結果是,突然間在現實世界環境中擁有機器人是真正的可能性。能夠在日常環境中實際進化和執行任務,完全基於具有非常強大的感知能力。我最初是在研究通用人工智慧和計算機視覺。我過去也做過語音識別。我看到了問題的本質,決定轉向使用機器人作為我們研究的下一個階段。

我了解到,很多Everyday Robots團隊的成員最終加入了這個團隊。Google在機器人領域的歷史遠不止如此。距離Alphabet進行了所有這些收購(波士頓動力等)已經過去了10年。似乎來自那些公司的很多人已經填滿了Google現有的機器人團隊。

團隊中有相當一部分成員來自這些收購。那是在我之前的時代。我真的參與了計算機視覺和語音識別,但我們仍然有很多這些人。我們越來越多地得出結論,整個機器人問題都被通用人工智慧問題所涵蓋。真正解決智能的部分是任何有意義的在現實世界中進行機器人操作的關鍵。我們將很多努力轉向解決感知問題,理解和控制在通用人工智慧背景下將是一個有力問題的關鍵。

很多計算機視覺、音訊處理等方面的技術正在發生巨變,幾乎達到了人類水平。

一部分Everyday Robots團隊被我的團隊吸收。我們繼承了他們的機器人,並仍在使用它們。到目前為止,我們一直在繼續發展他們真正開創並正在研究的技術。整個動力仍然存在,但焦點略有不同,不同於最初由團隊設想的。我們真的更加關注智慧部分,而不是機器人建造。

Q:您提到團隊搬進了Alphabet X辦公室。在跨團隊協作和共享資源方面,是否有更深層次的合作?

A:這是一個非常實際的決定。這裡有良好的Wi-Fi、穩定的電力和充足的空間。

我希望所有Google大樓都有良好的Wi-Fi。

你希望如此,對吧?但我們搬進來純粹是一個非常平凡的決定。我必須說,其中很多決定是因為這裡有一家很好的咖啡館。我們之前的辦公室食物不太好,人們開始抱怨。那裡沒有隱藏的計劃。我們喜歡與X的其他部門密切合作。我認為那裡有很多協同作用。他們有很多優秀的機器人專家正在進行多個項目的研究。我們與Intrinsic有合作關係,我們希望加以培養。對我們來說在這裡工作非常有道理,而且這座建築物很美麗。

在某種程度上,Intrinsic的工作與他們的平台有些重疊。例如無代碼機器人和機器人學習等。它們與通用和生成AI有一些重疊。

有趣的是,機器人技術已經從每個角落變得非常定制化,並採用了非常不同的專業知識和技能。在很大程度上,我們正在努力實現通用目的的機器人,無論是應用於工業環境還是家庭環境。由非常強大的AI核心驅動,其背後的原則非常相似。我們真的在努力探索如何支持盡可能廣泛的應用領域,這是新的和令人興奮的。這是一個全新的領域,有很多可以探索的東西。

我喜歡問人們,他們認為我們離可以合理稱之為通用目的機器人還有多遠。

通用目的機器人的定義有一些微妙之處。我們真的關注通用方法。一些方法可以應用於工業機器人、家用機器人或人行道機器人,具有所有這些不同的實例和形狀。我們不是基於有一個通用的實例可以為您做任何事,而是如果您有一個非常特定於您的問題的實例,那也可以。沒問題。我們可以快速微調它以解決您具體的問題。所以這是一個重要的問題:通用目的機器人會出現嗎?這是很多人都在討論的一個問題,關於通用目的機器人是否會出現以及何時會出現。

到目前為止,定制機器人取得了更多的成功。我認為,在某種程度上,技術尚未成熟,無法實現更通用的機器人。商業模式是否會將我們帶到這個地方是一個很好的問題。在我們對技術有更多信心之前,這個問題無法回答。這是我們現在正在推動的。我們看到更多跡象 - 不依賴於特定實例的非常通用的方法是可行的。我們最新做的事情是這個RTX項目。我們參觀了許多學術實驗室(我想我們現在有30個不同的合作夥伴),然後請他們看看他們的任務和收集的數據。讓我們將它們放入一個共同的數據儲存庫中,然後在其上訓練一個大型模型,看看會發生什麼。

到目前為止,定制機器人取得了更多的成功。

Q:生成AI在機器人技術中將發揮什麼作用?

A:我認為它將起到非常核心的作用。有這個大型語言模型革命。每個人都開始問,我們是否可以使用大量語言模型來為機器人做一些事情,我認為這可能會非常膚淺。你知道的,「讓我們只是追隨當天的潮流,看看我們可以做什麼」,但事實證明這是非常深刻的。這是因為,如果你想一下,語言模型不真正關注語言。它們關注的是常識推理和對日常世界的理解。因此,如果一個大型語言模型知道你正在尋找一杯咖啡,你可以在廚櫃中或桌子上找到它。

將咖啡杯放在桌子上是有意義的。將桌子放在咖啡杯上是毫無意義的。這類簡單的事實,你通常不會考慮,因為對你來說是完全明顯的。很難向一個具體的系統傳達這一點。這些知識真的很難編碼,而這些大型語言模型具有這種知識,並以一種非常易於訪問和使用的方式對其進行編碼。因此,我們能夠將這種常識推理應用於機器人規劃。我們已經能夠將其應用於機器人的互動、操作、人機互動,並具有具有這種常識的代理,可以在模擬環境中對事物進行推理,並與感知一起使用,這對機器人問題來說真的非常核心。

我們已經能夠將其應用於機器人的互動、操作、人機互動,並具有具有這種常識的代理,可以在模擬環境中對事物進行推理,並與感知一起使用,這對機器人問題來說真的非常核心。

Q:模擬可能是收集數據進行分析的一個重要部分。

A:對,這是其中一個因素。模擬的挑戰在於需要填補模擬到現實之間的差距。模擬是現實的一種近似。使之非常精確且非常反映現實可能非常困難。模擬器的物理特性必須很好。模擬中現實的視覺渲染必須非常好。這實際上是生成AI開始發揮作用的另一個領域。您可以想像,與其必須運行物理模擬器,不如使用圖像生成或某種生成模型。

Q:Tye Brady最近告訴我,亞馬遜正在使用模擬來生成包裹。

A:這是有道理的。此外,我認為在未來,除了僅僅生成資產之外,您還可以想像生成未來。想像一下,如果機器人執行了一個動作,會發生什麼情況?並驗證它是否真的做了你想要的事情,並將其用作未來規劃的一種方式。這有點像機器人做夢,使用生成模型,而不必在現實世界中進行。

新聞原址: https://techcrunch.com/2023/11/04/google-deepminds-robotics-head-on-general-purpose-robots-generative-ai-and-office-ai/