研究指 AI 助理仍會發生失誤　針對 Claude Computer Use 模式進行測試

By 香港網絡 On 11 月 24, 2024

研究指 AI 助理仍會發生失誤　針對 Claude Computer Use 模式進行測試

研究指 AI 助理仍會發生失誤　針對 Claude Computer Use 模式進行測試

作者
發佈日期

2024-11-23
閱讀時間

2分鐘
字體大小

Anthropic 於去年 10 月推出了 Claude「Computer Use」功能，可以讓大型語言模型直接控制電腦，進行各種操作。新加坡國立大學 Show Lab 對此進行深入測試，研究目前 AI 代理的能力與限制。

Claude 的 Computer Use 功能屬於 GUI（圖形使用者介面）代理，也就是透過分析真人用戶看到的介面，針對指令進行互動，讓用戶無需 API 即可自動化各種操作。研究團隊測試了 Claude 在網頁搜尋、工作流程、辦公生產力和遊戲等方面的表現，並從規劃、執行和評估三個維度進行評估。

研究結果顯示，Claude 在執行複雜任務方面表現出色。它能夠合理規劃多步驟任務、協調不同應用程式之間的操作，並持續評估進度。然而，模型也經常出現一些真人不會犯的基本錯誤，例如未能滾動網頁找到按鈕，或是在簡單的文字編輯時失誤，而且模型往往無法正確評估自己的錯誤。

研究認為對企業而言，目前這項技術尚未成熟到可大規模部署的程度。模型行為的不穩定性可能帶來不可預測的結果，且透過 GUI 介面執行工作的效率遠低於 API。研究人員建議，這類工具更適合用於產品團隊的創意探索和方案迭代，而非直接用於生產環境。

來源：VentureBeat

相關文章:

傳 OpenAI 準備明年推出 AI 助理　可控制電腦自主行動

Amazon CEO 讚揚 AI 助理可節省 4,500 名開發人員一年工作量

分享到 :

最新影片

Follow 我們 :

Prev Post

中國 AI DeepSeek 號稱超越 OpenAI o1 具備推理能力、能輸出「AI 思考過程」

Next Post

OpenAI 考慮開發自家瀏覽器　進一步挑戰 Google 地位

Leave A Reply