美國研究：AI 搜尋引擎太有自信　付費不等於更準確、甚至更有自信提供錯回應

人工智能搜尋引擎備受關注，但其準確性仍受質疑。美國哥倫比亞大學 Tow Center for Digital Journalism 最新研究顯示，八款主流 AI 搜尋引擎（包括 ChatGPT Search、Perplexity 及 Grok-3 Search）在 1600 次測試中，超過六成的回應未能準確引用新聞內容。研究指出，這些工具往往以極高的自信提供錯誤答案，令人對其可靠性憂慮。

測試方法

研究團隊測試了 ChatGPT Search、Perplexity、Perplexity Pro、DeepSeek Search、Microsoft Copilot、Grok-2 Search、Grok-3 Search 及 Google Gemini 共八款 AI 工具。測試方式為選取 20 家出版商的文章摘錄，要求 AI 識別文章出處、出版機構、發佈日期及網址等資訊，合共進行 1600 次查詢（20 個出版商 × 10 篇文章 × 8 款 AI）。

研究人員根據三大準則手動評估 AI 回應的正確性：

能否從正確文章抽取資訊
是否提供正確的出版商資訊
是否提供正確的網站來源

根據以上準則，研究團隊為 AI 評分，評分標準分為六級（下圖左起）：

完全正確：所有準則均正確
正確但不完整：部分回應正確，惟資訊有所遺漏
部分錯誤：部分內容正確，部分內容錯誤
完全錯誤：所有準則均錯誤或有重大遺漏
無回應：未提供任何資訊
爬網程式被封鎖：網站的 robots.txt 設定禁止 AI 使用爬蟲（自動數據搜刮）檢索內容

回應錯誤率高達 94%，但 AI 依然自信滿滿

整體而言，大部分 AI 未能從正確的文章中提取資訊，整體錯誤率約 60%，各款 AI 表現亦差異懸殊。例如，Perplexity 的錯誤率為 37%，但 Grok-3 的錯誤率高達 94%，表現尤其不理想。

此外，研究發現 AI 工具用詞極具自信，甚少使用「看起來」、「可能」或「或許」等詞語，亦極少承認無法找到資料。例如 ChatGPT 在 200 個回應中錯誤識別 134 篇文章，但僅 15 次表示缺乏信心。即使無法確定答案，多數 AI 仍會提供回應，而非選擇拒絕回答。

在所有 AI 當中，Copilot 是唯一較常承認自身限制的工具，其拒絕回答的比例甚至高於實際回應數。

下圖可見回應準確性及 AI 的自信度，基本上大部份回應均處於「自信」區域，但大多回應均是紅色（部分錯誤或完全錯誤）。

▲綜觀 8 個平台逾 60% 機會出錯，但回應時自信度甚高

相關文章:

【教學】AI 執相修圖 Google Gemini 2.0 Flash　輸入文字即可 PS 圖片毋須技術

【評測】Samsung 全新中階機 Galaxy A56 / A36 極速抵港　新色搶眼 + 更多 AI 功能下放 + 開售詳情公佈

【評測】Mac Studio 2025 M3 Ultra 版本實測本地 LLM 大型語言模型 + AI 繪圖效能

收費 AI 會更自信地提供錯誤答案

理論上付費 AI 擁有更高的算力資源，應提供更準確的回應，但研究結果卻顯示相反的趨勢。例如：

Grok-3 Search（40 美元/月）錯誤率達 76%，甚至比免費版 Grok-2 Search 更差
Perplexity Pro（20 美元/月）錯誤率亦高於免費版

儘管收費版本的 AI 確實能提供更多正確資訊，但它們亦更傾向以極高自信提供錯誤答案，而非選擇拒絕回答，使用戶更難察覺錯誤資訊的存在。報告指，付費 AI 的「權威語氣」容易令使用者產生「準確性錯覺」，更難分辨訊息真偽。

▲與免費版本相比，收費版本可更有自信地提供錯誤答案

平台屏蔽爬蟲與否和 AI 準確性無關

目前 8 款受測 AI 當中，五款（ChatGPT、Perplexity、Perplexity Pro、Copilot 及 Gemini）已公開其數據搜刮工具的名稱，讓網站選擇是否封鎖。然而研究發現，AI 可否檢索網站內容，與其準確度並無明顯關係。例如 Perplexity Pro 理論上無法存取研究團隊提供的 90 篇文章，但仍成功識別三分之一內容。 National Geographic 已封鎖 Perplexity 的爬蟲，但 Perplexity 仍成功識別研究團隊提供的 10 篇付費文章。發現顯示某些 AI 可能透過其他方式間接存取受限制內容，即使聲稱「尊重 robots.txt 設定」，實際操作或與宣稱不符。

▲AI 可否瀏覽網站與能否提供正確回應並無直接關係

事實上，開發者 Robb Knight 及 Wired 早於去年已報導 Perplexity 疑似無視機械人排除協議（Robot Exclusion Protocol）。此外，《Press Gazette》本月亦指出，即使《New York Times》已封鎖 Perplexity 的數據搜刮工具，該報仍於 1 月成為 Perplexity 最常引用的新聞來源，獲得 146,000 次推薦瀏覽量。當 AI 無法直接存取受限網站時，ChatGPT 相較其他 AI，選擇拒絕回答的比例較高。然而，從整體表現來看，ChatGPT 亦傾向胡亂提供錯誤答案，而非承認無法作答。

在所有已公開數據搜刮工具資訊的 AI 中，Copilot 為唯一未被任何網站封鎖的工具。研究團隊推測，這或與其使用與 Bing 搜尋引擎相同的爬蟲 BingBot 有關。若出版商希望封鎖 Copilot，則需同時將內容從 Bing 搜尋結果中移除，因此許多網站或許因顧及流量影響，而未選擇封鎖 Copilot。理論上 Copilot 應能存取所有受測查詢內容，但實測結果卻顯示，其拒絕作答的比例最高，與預期結果大相逕庭。

另一方面 Google 推出 Google-Extended 數據搜刮工具，讓出版商得以選擇封鎖 Gemini 的數據搜刮權限，同時仍保留其內容在 Google 搜尋結果中的可見性。

研究團隊測試的 20 家出版商中，有 10 家允許 Gemini 存取其內容，但 Gemini 僅有一次測試提供了完全正確的回應。此外，若查詢涉及政治議題，Gemini 仍傾向拒絕作答，並回應：「目前我無法提供關於選舉及政治人物的資訊。我致力於提供準確答案，惟仍可能出現錯誤。在我努力改進有關選舉與政治的回應方式期間，您可嘗試使用 Google 搜尋。」

▲上圖為 Gemini 拒絕作答涉及政治的問題之例子

機械人排除協議（Robot Exclusion Protocol）雖無法律約束力，但已成為業界普遍接受的標準，用以指示網站的哪些內容可供數據搜刮工具存取。若 AI 無視該協議，將剝奪出版商自主決定其內容是否可納入搜尋結果或用於 AI 模型訓練的權利。

允許 AI 存取內容確實可能提升網站在生成式搜尋結果中的曝光率，但出版商未必樂見其成，背後考量或涉及多個層面。例如他們可能希望透過內容賺取收益，或擔憂 AI 生成的摘要會扭曲甚至誤解其報導。新聞媒體聯盟（News Media Alliance）主席 Danielle Coffey 去年曾表示，出版商必須拒絕 AI 數據搜刮，否則將失去內容變現的機會，影響整個新聞業的發展。

平台無法提供資料來源

AI 輸出回應時經常會援引外部資料來源，以增強答案可信度，例如 Grok 會鼓勵用戶從 X 獲得最新鮮資訊，但仍然經常援引傳統新聞機構，換言之，AI 經常引用傳統出版商的公信力以提升可靠性。據研究顯示，當 AI 引用 BBC 等受信賴的品牌作為來源時，受眾更容易信任該答案。而當 AI 提供錯誤資訊時，受影響的不只是自身聲譽，其引用的品牌公信力亦會受損。

▲生成式 AI 搜尋工具時常表示自己引用大品牌出版商，但實際並非如此

總結：AI 準確性存隱憂　用戶需提高警覺

研究結果顯示，目前的 AI 搜尋引擎仍存在嚴重準確性問題，即便收費版本亦無法確保更高可信度。尤其是 AI 傾向自信滿滿地提供錯誤答案，使用戶更難察覺其謬誤，甚至可能無意中助長錯誤資訊的傳播。此外某些 AI 可能未完全遵守機械人排除協議（Robot Exclusion Protocol），透過其他管道間接存取受限制的內容，對新聞機構的內容權益帶來挑戰。在 AI 搜尋技術尚未成熟前，用戶應保持審慎態度，避免過度依賴 AI 回應，並透過多方查證確保資訊準確性。

資料來源：Columbia Journalism Review、how to geek、nlemanlab