Google DeepMind 發表兩款基於 Gemini 2.0 的人工智能(AI)模型,分別為 Gemini Robotics 和 Gemini Robotics-ER,標誌着 AI 在現實世界的應用邁進新階段。這兩款模型不僅能夠理解及回應語言、圖像和影片等資訊,更進一步實現物理行動,讓 AI 具備「具身推理」(Embodied Reasoning),即像人類一樣感知環境並作出實際行動。
Gemini Robotics:結合視覺、語言與動作的 AI
Gemini Robotics 以 Gemini 2.0 為基礎,加入了機械控制功能,令 AI 不只是停留於數碼世界,還能實際操作機械人執行各種任務。該模型具備三大核心能力:
- 通用性(Generality):能夠適應不同情境,解決未曾學習過的新問題,並處理多種環境與物件。
- 互動性(Interactivity):可即時理解並回應自然語言指令,亦能感知環境變化,隨時調整行動。
- 靈巧度(Dexterity):能夠執行需要精細操控的複雜任務,如摺紙或將零食封裝進密實袋。
測試結果顯示,Gemini Robotics 在通用性測試基準上的表現超越現有視覺-語言-動作(VLA)模型逾兩倍,進一步推動機械人在現實世界的應用。
Gemini Robotics-ER:提升空間理解能力
另一款模型 Gemini Robotics-ER 強化 AI 的空間感知能力,使機械人可更靈活運用 Gemini 2.0 進行複雜場景的決策與操作。Google DeepMind 亦與一眾研究人員合作,讓開發者利用該技術研發更多應用場景。
與 Apptronik 合作打造未來人形機械人
Google DeepMind 正與機械人技術公司 Apptronik 合作,基於 Gemini 2.0 研發新一代人形機械人。其 Apollo 機械人平台便是其中一個示範案例,展示 Gemini Robotics 如何適應不同機械結構,進行更複雜的任務。
Google DeepMind 表示,未來將繼續探索 Gemini Robotics 的應用,並邀請特選測試者參與開發,期望將 AI 技術更廣泛應用於現實世界。
The post Google 進軍物理機械人領域 Gemini Robotics 將 AI 融入現實世界 appeared first on 香港 unwire.hk 玩生活.樂科技.
Comments are closed, but trackbacks and pingbacks are open.