-
作者
-
發佈日期
2026-06-25
-
閱讀時間
4分鐘
-
字體大小
Google 於 2026 年 6 月 24 日宣布將 Computer Use 功能直接整合至 Gemini 3.5 Flash,令 AI 模型不再只回答問題,而是能看懂螢幕介面並自主點擊、輸入文字、填寫表單及執行多步驟工作流程。
從獨立模型到內置工具
Computer Use 功能此前只以獨立模型 Gemini 2.5 Computer Use 形式提供,Google 這次直接將其整合至主流 Gemini 3.5 Flash 模型,開發者毋須再另外呼叫獨立模型即可使用相關能力。Google DeepMind 模型評估頁面及技術評估檔案顯示,Gemini 3.5 Flash 在 OSWorld-Verified UI Control 基準測試中取得 78.4% 成績,達到迄今最佳表現。
支援三大環境
新功能支援瀏覽器、手機及桌面三大操作環境。開發者透過 Gemini API 及 Gemini Enterprise Agent Platform 可將 Gemini 3.5 Flash 構建成能自動測試軟件、審查無障礙檔案、操作企業應用程式的 AI Agent,大幅提升長時間自動化任務效率。
企業安全措施同步推出
Google 亦針對安全風險推出兩項可選企業保護機制:一是對敏感或不可逆操作強制要求用戶確認;二是一旦偵測到間接提示注入攻擊(prompt injection)即自動停止任務。Google 表示訓練階段已採用針對性對抗訓練(adversarial training),以降低 AI Agent 在真實環境中被惡意指令操控風險,並建議開發者同步結合安全沙盒隔離及嚴格存取控制以達到多層次防禦。
即日起可試用
開發者現可透過 Browserbase 提供示範環境試用此功能,或直接參考 Google 在 Gemini API 及 Gemini Enterprise Agent Platform 發布參考實作及檔案開始開發。
資料來源:Google Blog