free web page counters

美國研究:AI 搜尋引擎太有自信 付費不等於更準確、甚至更有自信提供錯回應

美國研究:AI 搜尋引擎太有自信 付費不等於更準確、甚至更有自信提供錯回應
12

人工智能搜尋引擎備受關注,但其準確性仍受質疑。美國哥倫比亞大學 Tow Center for Digital Journalism 最新研究顯示,八款主流 AI 搜尋引擎(包括 ChatGPT Search、Perplexity 及 Grok-3 Search)在 1600 次測試中,超過六成的回應未能準確引用新聞內容。研究指出,這些工具往往以極高的自信提供錯誤答案,令人對其可靠性憂慮。

 

測試方法

研究團隊測試了 ChatGPT Search、Perplexity、Perplexity Pro、DeepSeek Search、Microsoft Copilot、Grok-2 Search、Grok-3 Search 及 Google Gemini 共八款 AI 工具。測試方式為選取 20 家出版商的文章摘錄,要求 AI 識別文章出處、出版機構、發佈日期及網址等資訊,合共進行 1600 次查詢(20 個出版商 × 10 篇文章 × 8 款 AI)。

 

 

 

研究人員根據三大準則手動評估 AI 回應的正確性:

  1. 能否從正確文章抽取資訊
  2. 是否提供正確的出版商資訊
  3. 是否提供正確的網站來源

 

根據以上準則,研究團隊為 AI 評分,評分標準分為六級(下圖左起):

  • 完全正確:所有準則均正確
  • 正確但不完整:部分回應正確,惟資訊有所遺漏
  • 部分錯誤:部分內容正確,部分內容錯誤
  • 完全錯誤:所有準則均錯誤或有重大遺漏
  • 無回應:未提供任何資訊
  • 爬網程式被封鎖:網站的 robots.txt 設定禁止 AI 使用爬蟲(自動數據搜刮)檢索內容

 

 

回應錯誤率高達 94%,但 AI 依然自信滿滿

整體而言,大部分 AI 未能從正確的文章中提取資訊,整體錯誤率約 60%,各款 AI 表現亦差異懸殊。例如,Perplexity 的錯誤率為 37%,但 Grok-3 的錯誤率高達 94%,表現尤其不理想。

 

此外,研究發現 AI 工具用詞極具自信,甚少使用「看起來」、「可能」或「或許」等詞語,亦極少承認無法找到資料。例如 ChatGPT 在 200 個回應中錯誤識別 134 篇文章,但僅 15 次表示缺乏信心。即使無法確定答案,多數 AI 仍會提供回應,而非選擇拒絕回答。

 

在所有 AI 當中,Copilot 是唯一較常承認自身限制的工具,其拒絕回答的比例甚至高於實際回應數。

 

下圖可見回應準確性及 AI 的自信度,基本上大部份回應均處於「自信」區域,但大多回應均是紅色(部分錯誤或完全錯誤)。

 

▲綜觀 8 個平台逾 60% 機會出錯,但回應時自信度甚高

相關文章:

  • 【教學】AI 執相修圖 Google Gemini 2.0 Flash 輸入文字即可 PS 圖片毋須技術
  •  

  • 【評測】Samsung 全新中階機 Galaxy A56 / A36 極速抵港 新色搶眼 + 更多 AI 功能下放 + 開售詳情公佈
  •  

  • 【評測】Mac Studio 2025 M3 Ultra 版本 實測本地 LLM 大型語言模型 + AI 繪圖效能
  •  

    收費 AI 會更自信地提供錯誤答案

    理論上付費 AI 擁有更高的算力資源,應提供更準確的回應,但研究結果卻顯示相反的趨勢。例如:

    • Grok-3 Search(40 美元/月)錯誤率達 76%,甚至比免費版 Grok-2 Search 更差
    • Perplexity Pro(20 美元/月)錯誤率亦高於免費版

     

    儘管收費版本的 AI 確實能提供更多正確資訊,但它們亦更傾向以極高自信提供錯誤答案,而非選擇拒絕回答,使用戶更難察覺錯誤資訊的存在。報告指,付費 AI 的「權威語氣」容易令使用者產生「準確性錯覺」,更難分辨訊息真偽。

     

     

    ▲與免費版本相比,收費版本可更有自信地提供錯誤答案

     

    平台屏蔽爬蟲與否和 AI 準確性無關

    目前 8 款受測 AI 當中,五款(ChatGPT、Perplexity、Perplexity Pro、Copilot 及 Gemini)已公開其數據搜刮工具的名稱,讓網站選擇是否封鎖。然而研究發現,AI 可否檢索網站內容,與其準確度並無明顯關係。例如 Perplexity Pro 理論上無法存取研究團隊提供的 90 篇文章,但仍成功識別三分之一內容。 National Geographic 已封鎖 Perplexity 的爬蟲,但 Perplexity 仍成功識別研究團隊提供的 10 篇付費文章。發現顯示某些 AI 可能透過其他方式間接存取受限制內容,即使聲稱「尊重 robots.txt 設定」,實際操作或與宣稱不符。

     

    ▲AI 可否瀏覽網站與能否提供正確回應並無直接關係

     

    事實上,開發者 Robb Knight 及 Wired 早於去年已報導 Perplexity 疑似無視機械人排除協議(Robot Exclusion Protocol)。此外,《Press Gazette》本月亦指出,即使《New York Times》已封鎖 Perplexity 的數據搜刮工具,該報仍於 1 月成為 Perplexity 最常引用的新聞來源,獲得 146,000 次推薦瀏覽量。當 AI 無法直接存取受限網站時,ChatGPT 相較其他 AI,選擇拒絕回答的比例較高。然而,從整體表現來看,ChatGPT 亦傾向胡亂提供錯誤答案,而非承認無法作答。

     

    在所有已公開數據搜刮工具資訊的 AI 中,Copilot 為唯一未被任何網站封鎖的工具。研究團隊推測,這或與其使用與 Bing 搜尋引擎相同的爬蟲 BingBot 有關。若出版商希望封鎖 Copilot,則需同時將內容從 Bing 搜尋結果中移除,因此許多網站或許因顧及流量影響,而未選擇封鎖 Copilot。理論上 Copilot 應能存取所有受測查詢內容,但實測結果卻顯示,其拒絕作答的比例最高,與預期結果大相逕庭。

     

    另一方面 Google 推出 Google-Extended 數據搜刮工具,讓出版商得以選擇封鎖 Gemini 的數據搜刮權限,同時仍保留其內容在 Google 搜尋結果中的可見性。

     

    研究團隊測試的 20 家出版商中,有 10 家允許 Gemini 存取其內容,但 Gemini 僅有一次測試提供了完全正確的回應。此外,若查詢涉及政治議題,Gemini 仍傾向拒絕作答,並回應:「目前我無法提供關於選舉及政治人物的資訊。我致力於提供準確答案,惟仍可能出現錯誤。在我努力改進有關選舉與政治的回應方式期間,您可嘗試使用 Google 搜尋。」

    ▲上圖為 Gemini 拒絕作答涉及政治的問題之例子

     

    機械人排除協議(Robot Exclusion Protocol)雖無法律約束力,但已成為業界普遍接受的標準,用以指示網站的哪些內容可供數據搜刮工具存取。若 AI 無視該協議,將剝奪出版商自主決定其內容是否可納入搜尋結果或用於 AI 模型訓練的權利。

     

    允許 AI 存取內容確實可能提升網站在生成式搜尋結果中的曝光率,但出版商未必樂見其成,背後考量或涉及多個層面。例如他們可能希望透過內容賺取收益,或擔憂 AI 生成的摘要會扭曲甚至誤解其報導。新聞媒體聯盟(News Media Alliance)主席 Danielle Coffey 去年曾表示,出版商必須拒絕 AI 數據搜刮,否則將失去內容變現的機會,影響整個新聞業的發展。

     

    平台無法提供資料來源

    AI 輸出回應時經常會援引外部資料來源,以增強答案可信度,例如 Grok 會鼓勵用戶從 X 獲得最新鮮資訊,但仍然經常援引傳統新聞機構,換言之,AI 經常引用傳統出版商的公信力以提升可靠性。據研究顯示,當 AI 引用 BBC 等受信賴的品牌作為來源時,受眾更容易信任該答案。而當 AI 提供錯誤資訊時,受影響的不只是自身聲譽,其引用的品牌公信力亦會受損。

     

    ▲生成式 AI 搜尋工具時常表示自己引用大品牌出版商,但實際並非如此

     

    總結:AI 準確性存隱憂 用戶需提高警覺

    研究結果顯示,目前的 AI 搜尋引擎仍存在嚴重準確性問題,即便收費版本亦無法確保更高可信度。尤其是 AI 傾向自信滿滿地提供錯誤答案,使用戶更難察覺其謬誤,甚至可能無意中助長錯誤資訊的傳播。此外某些 AI 可能未完全遵守機械人排除協議(Robot Exclusion Protocol),透過其他管道間接存取受限制的內容,對新聞機構的內容權益帶來挑戰。在 AI 搜尋技術尚未成熟前,用戶應保持審慎態度,避免過度依賴 AI 回應,並透過多方查證確保資訊準確性。

     

    資料來源:Columbia Journalism Review、how to geek、nlemanlab

    相關文章:

  • 【教學】AI 執相修圖 Google Gemini 2.0 Flash 輸入文字即可 PS 圖片毋須技術
  •  

  • 【評測】Samsung 全新中階機 Galaxy A56 / A36 極速抵港 新色搶眼 + 更多 AI 功能下放 + 開售詳情公佈
  •  

  • 【評測】Mac Studio 2025 M3 Ultra 版本 實測本地 LLM 大型語言模型 + AI 繪圖效能
  •  

    The post 美國研究:AI 搜尋引擎太有自信 付費不等於更準確、甚至更有自信提供錯回應 appeared first on 香港 unwire.hk 玩生活.樂科技.

    Comments are closed, but trackbacks and pingbacks are open.