“黑天鵝”羽下:AI在信息戰(zhàn)場(chǎng)上的光影雙面
原創(chuàng)【51CTO.com原創(chuàng)稿件】 面對(duì)突如其來(lái)的疫情,大眾對(duì)于信息的即時(shí)性、透明度和傳達(dá)效率有了更高的關(guān)注。相比2003年“非典”時(shí)期,此次疫情爆發(fā)后,信息洪流也更為洶涌。移動(dòng)傳播時(shí)代,人人皆是自媒體,不僅是信息接收端,也是無(wú)數(shù)輿論的中轉(zhuǎn)站,各種資訊的生產(chǎn)端。形形色色的疫情信息不僅降低了輿論場(chǎng)的“信噪比”,也為各種謠言提供了適宜的溫床。
2020年2月上旬,世界衛(wèi)生組織在一次會(huì)議中提出了“infodemic”一詞,即information+epidemic,可以直白地理解為“信息疫情”。因?yàn)橐咔榘l(fā)生至今,在海量信息的轟炸下,人們往往難辨真?zhèn)?,信息的更新時(shí)時(shí)牽動(dòng)著公眾神經(jīng),催生著不安、擔(dān)憂、焦慮、恐懼。群體情緒“過(guò)載”之下,對(duì)于疫情管控的考驗(yàn)無(wú)疑更加嚴(yán)峻。值得注意的是,人工智能在本次疫情相關(guān)的輿情梳理中開(kāi)始扮演“沙里淘金”的角色,運(yùn)用NLP(自然語(yǔ)言處理)技術(shù)“提純”有效信息,關(guān)聯(lián)信息線索,打造公共危機(jī)事件里的信息中樞。
進(jìn)擊的LDA:挖掘文本語(yǔ)義的利器
NLP被譽(yù)為人工智能皇冠上的明珠 ,因?yàn)樽匀徽Z(yǔ)言是人類智慧的凝練,“讓機(jī)器理解自然語(yǔ)言”寄托了人們對(duì)于AI最初的幻想——讓機(jī)器聽(tīng)懂人話,和人交談,甚至理解語(yǔ)言背后的文化、意圖與情感。發(fā)展到今天,可以說(shuō)“凡是文本飛舞的地方,NLP技術(shù)就會(huì)燃燒”。
LDA(潛在狄利克雷分配)主題模型是NLP中非?;A(chǔ)、大眾認(rèn)知度也比較高的模型。當(dāng)我們寫(xiě)文章時(shí),可能多數(shù)人是先確定文章的幾個(gè)關(guān)鍵主題,然后圍繞這幾個(gè)主題遣詞造句成文。這一過(guò)程的逆向操作就是LDA做的事。通俗來(lái)說(shuō),就是根據(jù)給定的文檔,讓計(jì)算機(jī)反推其主題分布,包括推測(cè)分析網(wǎng)上各篇文章分別寫(xiě)了哪些主題,且各篇文章中各個(gè)主題出現(xiàn)的概率大小。
在傳統(tǒng)的方法中,判斷兩個(gè)文檔的相似性是通過(guò)識(shí)別兩個(gè)文檔中有多少共有詞。這種方法的局限性在于沒(méi)有考慮到語(yǔ)義背后的關(guān)聯(lián)。
比如:
“同人小說(shuō)站A03獲得雨果獎(jiǎng)?!?/p>
“藝術(shù)創(chuàng)作不是孤島。”
這兩句話沒(méi)有共有詞,但事實(shí)上,前者是獲獎(jiǎng)新聞,后者是獲獎(jiǎng)致辭。兩者主題是相似的??梢?jiàn)判斷文檔相似性時(shí)需要考慮到文檔中的潛在詞或者兩篇文檔間的聯(lián)系。在主題模型中,主題就像一個(gè)袋子,里面裝了出現(xiàn)概率較高的單詞,這些單詞與這個(gè)主題有很強(qiáng)的相關(guān)性。可以說(shuō),LDA模型是語(yǔ)義挖掘的利器。
疫情期間,使用LDA在數(shù)據(jù)集中提取主題也有落地應(yīng)用。今年2月14日,“新冠肺炎疫情AI話題分析平臺(tái)”正式上線。這個(gè)平臺(tái)由清華大學(xué)人工智能研究院、RealAI共同研發(fā)推出。在底層算法支持上,平臺(tái)采用WarpLDA主題提取算法研發(fā)。相比傳統(tǒng)的Gibbs采樣算法,WarpLDA在訪存效率、并行度方面更有優(yōu)勢(shì),可用于上億級(jí)別文本的主題提取。
去偽存真:提取有效信息
51CTO記者在調(diào)查中了解到,這個(gè)平臺(tái)除了疫情數(shù)字的實(shí)時(shí)播報(bào)以外,更側(cè)重對(duì)疫情相關(guān)的熱點(diǎn)話題進(jìn)行分析。
“無(wú)論是疫情一線故事、防控措施,還是科普知識(shí)、辟謠信息,只要傳播廣熱度高,都可以在平臺(tái)上找到。所以我們平臺(tái)的定位更像一個(gè)‘疫情話題熱榜’?!盧ealAI的工作人員這樣介紹。
?
??
打開(kāi)移動(dòng)端的平臺(tái)界面,可以看到:截止目前,上線的具體板塊包括“今日熱點(diǎn)”關(guān)鍵詞、“熱點(diǎn)地區(qū)排行”、“實(shí)時(shí)熱點(diǎn)”話題排行、“最近三天”熱點(diǎn)排行、“官方發(fā)布消息”,這些模塊合組合在一起,為公眾在海量碎片化內(nèi)容中構(gòu)建了一個(gè)信息入口。
從這些模塊的設(shè)置可以看到,針對(duì)信息“過(guò)載”的困擾,該平臺(tái)對(duì)海量信息進(jìn)行了自動(dòng)抓取,識(shí)別公眾關(guān)注的熱點(diǎn)新聞、輿論趨勢(shì)、地區(qū)關(guān)注度變化,并在這一過(guò)程中完成對(duì)于消息真實(shí)性的甄別,一定程度上保證了輸出信息的可靠性。就如何完成有效信息的過(guò)濾,RealAI方面給出了具體說(shuō)明。
首先在新聞源的抓取上,平臺(tái)會(huì)優(yōu)先抓取官方渠道信息,比如全國(guó)各地區(qū)衛(wèi)健委官方網(wǎng)站、新華網(wǎng)、人民網(wǎng)等權(quán)威媒體,平臺(tái)會(huì)給予這些渠道的新聞更高的權(quán)重。一般來(lái)說(shuō),在社交網(wǎng)絡(luò)平臺(tái)上,“謠言”更容易產(chǎn)生和傳播,因此諸如微博、自媒體這類渠道,權(quán)重會(huì)相對(duì)較低。
另外,官方渠道發(fā)布的文章內(nèi)容更為嚴(yán)肅,風(fēng)格更為一致,在新聞抓取時(shí)比較容易集中在一個(gè)主題下。相較之下,那些無(wú)中生有的謠言,無(wú)論是文本呈現(xiàn)還是行文用詞通常風(fēng)格迥異,在做新聞聚合的時(shí)候更容易分散,不容易被歸納成一個(gè)熱點(diǎn)主題。
鑒于當(dāng)前NLP領(lǐng)域中LDA主題模型的發(fā)展還有比較大的外展空間,平臺(tái)在運(yùn)營(yíng)過(guò)程中也會(huì)有人工把控,補(bǔ)充機(jī)器的不足之處。
針對(duì)網(wǎng)絡(luò)謠言和假新聞,AI技術(shù)其實(shí)在疫情之前就開(kāi)始嶄露頭角。2019年,阿里巴巴在愚人節(jié)推出了“AI謠言粉碎機(jī)”。據(jù)悉,這個(gè)算法模型要判斷信息真?zhèn)?,首先?huì)找到初始信息源,分析用戶畫(huà)像,辨別發(fā)布者的可信度。然后尋找網(wǎng)上所有信息源,分析相關(guān)鏈接的域名來(lái)辨別傳播載體的可信度,最后將正文里的關(guān)鍵論證進(jìn)行提煉,與知識(shí)圖譜里的權(quán)威知識(shí)庫(kù)做匹配,驗(yàn)證關(guān)聯(lián)度,如果互為印證,可信度就較高,自相矛盾,可信度就降低。在SemEval全球語(yǔ)義測(cè)試中,這項(xiàng)AI技術(shù)的識(shí)別準(zhǔn)確率達(dá)到了81%。
見(jiàn)微知著:預(yù)警傳染軌跡
人工智能除了可以過(guò)濾海量信息外,還可以從信息海的蛛絲馬跡中預(yù)判危機(jī)的爆發(fā)。這對(duì)于提升危機(jī)事件的迅速響應(yīng)能力,控制事件擴(kuò)散規(guī)模有著至關(guān)重要的作用。此次新冠肺炎在武漢爆發(fā)之初沒(méi)有得到有效遏制,信息梳理的缺位也是原因之一。事實(shí)上,今年1月時(shí)就有報(bào)道指出,一家致力于公共健康風(fēng)險(xiǎn)評(píng)估的加拿大公司BlueDot在2019年12月底就向其客戶通報(bào)了這種新型冠狀病毒。
在外媒采訪中,BlueDot創(chuàng)始人解釋:“公司的早期預(yù)警系統(tǒng)使用AI(包括NLP和ML),通過(guò)每天分析65種語(yǔ)言的約10萬(wàn)篇文章,來(lái)跟蹤100多種傳染病爆發(fā)情況。這些數(shù)據(jù)有助于公司知道何時(shí)通知客戶潛在的傳染病爆發(fā)和擴(kuò)散?!?/p>
從目前公開(kāi)的資料來(lái)看,BlueDot沒(méi)有披露使用的算法,他們避開(kāi)信息比較混亂的社交媒體,通過(guò)采集多語(yǔ)種的新聞報(bào)道、官方公告和動(dòng)物疾病報(bào)告,綜合全球航空動(dòng)態(tài)和天氣數(shù)據(jù),為客戶提供預(yù)警。
BlueDot聲稱,他們的數(shù)據(jù)源主要來(lái)自三方面,一個(gè)是全球新聞報(bào)道,設(shè)置關(guān)鍵詞基本與流行疾病、動(dòng)物疾病、公共衛(wèi)生有關(guān);一個(gè)是航空公司的票務(wù)數(shù)據(jù),通過(guò)全球機(jī)票數(shù)據(jù)庫(kù)的數(shù)據(jù)來(lái)跟蹤疑似感染人口的流動(dòng),預(yù)測(cè)感染可能波及和擴(kuò)散的城市,及時(shí)告知客戶相關(guān)信息;還有就是監(jiān)測(cè)某個(gè)地區(qū)一定時(shí)期內(nèi)的氣候、溫度及牲畜變化情況。此前,BlueDot準(zhǔn)確預(yù)測(cè)了病毒在最初出現(xiàn)的幾天內(nèi)將從武漢傳播到泰國(guó)曼谷、韓國(guó)首爾、中國(guó)臺(tái)北和日本東京。
放眼全球,AI雖然已經(jīng)在疾病預(yù)防中有所建樹(shù),未來(lái)也可能成為公共健康規(guī)劃中的可信工具,但目前的疾病預(yù)測(cè)算法還都需要面對(duì)預(yù)測(cè)模型的缺陷。谷歌在2008年發(fā)布的流感趨勢(shì)預(yù)測(cè)工具Flu Trends就是一個(gè)典型。
Flu Trends可以監(jiān)測(cè)數(shù)百萬(wàn)用戶的健康數(shù)據(jù),提供幾十個(gè)國(guó)家的流感趨勢(shì)預(yù)測(cè)。但在2012年的一次流感爆發(fā)事件中,疾控中心匯總各地?cái)?shù)據(jù)后發(fā)現(xiàn)谷歌的預(yù)測(cè)比實(shí)際情況夸大了近1倍。后來(lái)研究發(fā)現(xiàn),谷歌的工程師們并不了解搜索關(guān)鍵字和流感傳播之間有什么關(guān)聯(lián),對(duì)于各種信息背后的關(guān)聯(lián)也沒(méi)有深入解析,最終導(dǎo)致了荒謬的結(jié)果。之后工程師們不斷進(jìn)行著算法的微調(diào),但是每當(dāng)修正完一處,總有另一處出現(xiàn)了意想不到的誤差。在瞬息萬(wàn)變的信息抗疫戰(zhàn)場(chǎng)上,可以說(shuō),唯一不變的就是一直在變的“算法”。
光影雙生:AI帶來(lái)的輿情風(fēng)險(xiǎn)
在信息戰(zhàn)場(chǎng)上,AI可以發(fā)揮輿論的積極導(dǎo)向作用,但不可輕忽的是,如果AI被不正當(dāng)?shù)厥褂茫部梢哉T發(fā)輿論恐慌。技術(shù)本身沒(méi)有價(jià)值觀,但技術(shù)的使用者有價(jià)值取向。在不同的利益方手中,AI技術(shù)必然會(huì)產(chǎn)生不一樣的后果。
2019年AI換臉app在社交媒體上的火爆一度引發(fā)爭(zhēng)議。只需要一張人臉照片,就可以用AI換臉技術(shù),“嫁接”到選定視頻的某個(gè)人物身上,由此生成的視頻畫(huà)面流暢,人物表情自然,幾可亂真。合成圖像、合成語(yǔ)音,充斥在網(wǎng)絡(luò)里的合成品使“眼見(jiàn)不一定為實(shí),耳聽(tīng)也不一定為真”。
這些技術(shù)給眾多使用者帶來(lái)了有趣的體驗(yàn),但也有人質(zhì)疑AI開(kāi)啟了潘多拉魔盒,踩著倫理和法律的底線反復(fù)橫跳,帶來(lái)了事關(guān)版權(quán)、肖像權(quán)、個(gè)人隱私的隱患,甚至可能引發(fā)盜竊、詐騙、情色視頻制作等“技術(shù)作惡”亂象。
?
??
更為嚴(yán)重的是,如果利用AI技術(shù)惡意虛構(gòu)新聞事件大肆傳播,極有可能導(dǎo)致謠言的“發(fā)酵升級(jí)”,甚至影響輿論走向。
一家美國(guó)的制片公司“猴爪”在2018年利用AI制作了這樣一段視頻:奧巴馬對(duì)美國(guó)現(xiàn)任總統(tǒng)特朗普進(jìn)行嚴(yán)厲批評(píng)。但實(shí)際上奧巴馬的表情和動(dòng)作合成自“猴爪”創(chuàng)始人皮爾。更極端地考慮,如果官方的新聞發(fā)布平臺(tái)或一些權(quán)威機(jī)構(gòu)的媒體號(hào)被黑客控制,散播AI合成的文本、視頻、音頻,就更容易操作輿論,煽動(dòng)公眾情緒,造成輿情風(fēng)波。
此外,“機(jī)器人水軍”也值得警惕,其存在本身影響著輿論生態(tài),而且在一些平臺(tái)上已形成規(guī)模。比如網(wǎng)店利用機(jī)器人水軍刷好評(píng),相比雇人灌水這種操作,機(jī)器自動(dòng)生成的信息密度更大,侵蝕性更強(qiáng),也更容易將真實(shí)評(píng)價(jià)淹沒(méi)于無(wú)形。可以想象,如果在社會(huì)事件中引入機(jī)器人水軍,那么輿論被裹挾是必然,真相被掩蓋,公眾被蒙蔽,甚至可能將國(guó)家安全置于險(xiǎn)地。更諷刺的是,大多數(shù)人可能對(duì)此一無(wú)所覺(jué)。長(zhǎng)此以往,即使“黑天鵝”不再來(lái),“灰犀牛”也會(huì)不期而至。
參考資料:An AI Epidemiologist Sent the First Warnings of the Wuhan Virus https://www.wired.com/story/ai-epidemiologist-wuhan-public-health-warnings/amp
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】















 
 
 





 
 
 
 