人工智能(AI)助理已成為數百萬人每天獲取新聞信息的主要途徑之一,但歐洲廣播聯盟(EBU)與英國廣播公司(BBC)主導的大型研究發現,ChatGPT等AI助理普遍錯誤呈現新聞內容,比例將近一半。
《自由時報》報道,研究發現,AI助理無論在任何語言、地區或平台上,均持續錯誤呈現新聞內容。這些錯誤包括將新聞與諷刺內容混淆、日期錯誤,甚至憑空捏造事件。45%的AI答覆「至少有一項重大問題」,每5則答覆中就有一則存在嚴重的正確性問題,包括虛構細節與過時信息。
BBC報道,共有18個國家的22家公共服務媒體參與這項研究,涵蓋14種語言,針對4種主流AI工具進行深入測試,發現多項系統性問題。這項研究是以BBC今年2月發表的研究為基礎,該研究首次指出AI在處理新聞內容上的問題。
參與媒體的專業記者共評估超過3000筆由OpenAI的ChatGPT、微軟的Copilot、Google的Gemini與Perplexity生成的回覆,關鍵標準包括:準確性、資料來源、區分意見與事實,以及提供背景脈絡等。
研究發現,45%的AI回覆至少存在一項重大問題;31%出現嚴重的來源問題,包括缺失、誤導或錯誤引用;20%有嚴重的準確性錯誤,包含虛構或過時信息。例如,問到「天主教教宗是誰」時,ChatGPT回答「方濟各」,Copilot和Gemini的答案也是「方濟各」,但方濟各已於今年4月蒙主寵召,現任教宗為良十四世(Leo XIV)。
研究指出,Gemini表現最差,有76%的回答出現重大問題,比例超過其他助理的兩倍,主要因為其資料來源表現不佳。相較於BBC今年稍早的研究,雖有些許改善,但錯誤率仍然偏高。
EBU副秘書長坦德指出,這項研究證實,這些問題是跨國、跨語言的系統性現象,恐將危及公眾信任。