維基媒體指去年以來頻寬用量大增 指責網絡 AI 爬蟲耗用珍貴資源

維基媒體基金會近日發佈報告指出,自 2024 年 1 月以來,多媒體內容下載頻寬使用量激增 50%。然而這並非因為人類讀者突然對維基百科文章或維基共享資源的影片、檔案產生強烈興趣,而是來自 AI 爬蟲的大規模擷取行為。這些自動化程式正大量抓取維基媒體的開放授權圖像、影片、文章等內容,用於訓練生成式人工智能模型。

此類機械人流量的突然增加可能導致維基媒體頁面和資源的存取速度變慢,特別是在高關注度事件期間。例如,當美國前總統卡特在去年 12 月去世時,人們對他與列根總統辯論影片的高度興趣導致部分用戶頁面加載緩慢。維基媒體表示:「雖然我們能夠應對人類讀者在此類事件期間造成的流量高峰,但爬蟲機械人產生的流量前所未有,並帶來日益增長的風險和成本。」

基金會解釋,人類讀者傾向於查詢特定且經常相似的主題,尤其是當某內容成為熱門話題時。維基媒體會在距離用戶最近的數據中心為多次請求的內容建立快取,從而加快內容提供速度。但長時間未被存取的文章和內容必須從核心數據中心提供,這會消耗更多資源,因此成本更高。由於 AI 爬蟲傾向於大量讀取頁面,它們存取了必須從核心數據中心提供的冷門頁面。

維基媒體發現,消耗資源的流量中有 65% 來自機械人,這已對其網站可靠性團隊造成持續干擾,他們必須不斷阻止爬蟲,以免嚴重影響實際讀者的頁面存取速度。基金會指出:「真正的問題在於,這種擴張大多發生在缺乏足夠歸因的情況下,而歸因對吸引新用戶參與至關重要。」作為一個依靠人們捐款營運的基金會,維基媒體需要吸引新用戶並讓他們關心其事業。「我們的內容是免費的,但我們的基礎設施不是。」維基媒體現正尋求在下一財政年度建立可持續的方式,讓開發者和再使用者存取其內容,因為他們預見 AI 相關流量不會很快減緩。

來源:維基媒體

相關文章:

  • 孫東:政府將全力拓展應用 AI 人工智能 陳茂波指 AI 加速培育新生產力
  •  

  • 【財政預算案2025】政府預留 37 億加快河套香港園區建設 人工智能、數據科學企業年內進駐
  •  

    The post 維基媒體指去年以來頻寬用量大增 指責網絡 AI 爬蟲耗用珍貴資源 appeared first on 香港 unwire.hk 玩生活.樂科技.