DeepMind革新機器人技術：推出AutoRT和RT-Trajectory，開啟AI驅動的多功能機器人時代

Blog

January 5, 2024

重點摘要：

DeepMind新推出的AutoRT系統利用大型基礎模型，實現多目的機器人操作。這包括使用視覺語言模型獲取情境意識，並指揮多達20台機器人執行超過6,000項任務。
RT-Trajectory是DeepMind團隊的另一項創新，它通過對影片輸入的學習，提高機器人執行任務的效率。該技術在影片上疊加二維手臂動作草圖，幫助模型學習如何更有效地控制機器人。
DeepMind團隊的這些進展顯示了利用大規模機器人學習和大型基礎模型進行更複雜、多任務操作的可能性。這些發展不僅提升了機器人操作的效率，而且還開啟了利用現有數據庫中的知識的新途徑。

新聞內文：
2024 年將是生成AI大型基礎模型與機器人技術交叉領域的重要一年。這一領域的各種應用潛力，從學習到產品設計，正引起極大的興趣。Google的
「DeepMind Robotics」研究團隊是探索這一領域潛力的眾多團隊之一。在今天的部落格文章中，該團隊突出了旨在讓機器人更好地理解人類所需的持續研究。

傳統上，機器人專注於反覆執行單一任務。單一目的的機器人在那一件事上往往表現出色，但當變化或錯誤意外引入時，即使它們也會遇到困難。

新宣布的AutoRT旨在利用大型基礎模型來達到多種目的。在DeepMind團隊提供的標準示例中，系統首先利用視覺語言模型（VLM）來獲得更好的情境意識。AutoRT能夠管理一組裝備有攝像頭的協作機器人，以獲取它們環境和物體的佈局。

與此同時，大型語言模型建議可由硬體完成的任務，包括其終端執行器。許多人認為，LLM是實現有效理解更自然語言命令的機器人的關鍵，減少了硬編碼技能的需求。

該系統在過去大約七個月中已經進行了大量測試。AutoRT能夠同時指揮多達 20台機器人，總共52台不同裝置。DeepMind 總共收集了約77,000次試驗，包括超過6,000項任務。

該團隊的另一項新進展是「RT-Trajectory」，它利用影片輸入進行機器人學習。許多團隊正在探索使用YouTube影片作為大規模訓練機器人的方法，但RT-Trajectory添加了一個有趣的層面，在影片上疊加了一個二維手臂動作草圖。

該團隊指出：「這些軌跡以RGB圖像的形式提供了低層次、實用的視覺提示，幫助模型學習其機器人控制政」。

DeepMind表示，這種訓練的成功率是其RT-2訓練的兩倍，即63%對29%，同時測試了41項任務。

該團隊指出：「RT-Trajectory利用了所有機器人數據集中存在的豐富機器人運動訊息，但目前尚未充分利用」。「RT-Trajectory不僅代表了在建造能夠在新情況下高效準確移動的機器人的道路上又向前邁進了一步，而且還解鎖了現有數據庫中的知識」。

新聞原址： https://techcrunch.com/2024/01/04/google-outlines-new-methods-for-training-robots-with-video-and-large-language-models/

Watch more News：

消費電子領域再現興奮：Rabbit R1發佈活動引爆熱潮
AI武器化與監控：如何在創新與安全之間找到平衡
賈倫·拉尼爾警告：生成式AI將對「精神、政治和經濟」造成腐蝕性影響
巴黎新創Nabla完成2400萬美元融資，推出AI醫療助手提升醫療服務效率
Google的醫療AI聊天機器人已經開始在醫院中進行測試