研究人員從多個來源選取測試查詢語句,包括“WildChat”數(shù)據(jù)集中用戶向 ChatGPT 提出的具體問題、AllSides 平臺上列出的政治議題,以及亞馬遜上被搜索次數(shù)最多的 100 種商品。
研究發(fā)現(xiàn),生成式 AI 搜索工具所引用的信息來源,其所在網(wǎng)站的受歡迎程度往往低于傳統(tǒng)搜索前 10 名的網(wǎng)站,這是根據(jù)域名追蹤工具
 Tranco 的測量結(jié)果得出的。相較于傳統(tǒng)谷歌搜索結(jié)果中的鏈接,AI 引擎引用的網(wǎng)站更有可能不在 Tranco 統(tǒng)計的全球前 1,000 
名或前 1,000,000 名域名之內(nèi)。其中,Gemini 搜索尤為明顯:其引用來源的中位數(shù)排名落在 Tranco 前 1,000 
名之外,表明其高度依賴不常見的網(wǎng)站資源。
此外,AI 搜索引擎引用的內(nèi)容往往在相同關(guān)鍵詞的傳統(tǒng)谷歌搜索結(jié)果中幾乎不會出現(xiàn)在靠前位置。例如,在谷歌 AI 概覽引用的來源中,有 53% 并未出現(xiàn)在對應(yīng)查詢的傳統(tǒng)谷歌搜索前十名結(jié)果中;更有 40% 的來源甚至未進入前 100 名。
當(dāng)然,這些差異并不意味著 AI 生成的結(jié)果就一定“更差”。研究發(fā)現(xiàn),基于 GPT 的搜索更傾向于引用企業(yè)官網(wǎng)和百科類網(wǎng)站作為信息源,而幾乎從不引用社交媒體內(nèi)容。
一項基于大語言模型的分析工具顯示,AI
 
搜索結(jié)果所涵蓋的可識別“概念”數(shù)量,與傳統(tǒng)搜索前十條結(jié)果相當(dāng),說明兩者在信息細(xì)節(jié)、多樣性與新穎性方面水平相近。但與此同時,研究人員也指出:“生成式引擎往往會對信息進行壓縮,有時會省略次要或模糊的內(nèi)容,而這些內(nèi)容在傳統(tǒng)搜索結(jié)果中仍得以保留?!边@一點在面對含義模糊的搜索詞(如多名公眾人物共用的名字)時尤為突出,此時“傳統(tǒng)搜索結(jié)果的信息覆蓋更為全面”。
另一方面,AI 搜索引擎也有其優(yōu)勢 —— 它們能夠?qū)㈩A(yù)訓(xùn)練獲得的“內(nèi)部知識”與引用網(wǎng)頁中的信息相結(jié)合。這一點在“GPT-4o 搭配搜索工具”中表現(xiàn)得尤為明顯:該模式常常不提供任何外部引用鏈接,而是直接基于自身訓(xùn)練數(shù)據(jù)給出答案。
然而,這種對預(yù)訓(xùn)練數(shù)據(jù)的依賴在查詢時效性強的信息時也可能成為短板。當(dāng)研究人員使用谷歌 9 月 15 日“實時熱搜榜”中的關(guān)鍵詞進行測試時,發(fā)現(xiàn)“GPT-4o 搭配搜索工具”經(jīng)常回應(yīng)諸如“您能否提供更多詳細(xì)信息?”之類的提示,而非主動搜索最新的網(wǎng)絡(luò)資訊。
盡管研究人員并未最終判定 AI 搜索引擎整體上優(yōu)于或劣于傳統(tǒng)搜索鏈接,但他們呼吁未來應(yīng)加強對生成式搜索系統(tǒng)的評估方法研究,強調(diào)需綜合考慮信息來源的多樣性、概念覆蓋的完整性,以及信息整合能力等維度,以建立更科學(xué)的評價體系。