Web 2.0社交相關(guān)性排序算法探秘
FriendFeed最近推出了搜索功能,相信Facebook不久之后也會(huì)跟進(jìn)。
對(duì)社交網(wǎng)絡(luò)的“活動(dòng)流(streams of activities,指人們?cè)谏缃痪W(wǎng)絡(luò)中所從事的一系列活動(dòng)信息)”進(jìn)行實(shí)時(shí)搜索是當(dāng)前的一大熱點(diǎn),包括谷歌和微軟在內(nèi)的所有互聯(lián)網(wǎng)企業(yè)都意識(shí)到,將自己信賴的人當(dāng)做過濾器來使用的價(jià)值所在。實(shí)時(shí)搜索曾一度被稱作社交搜索,如今它正在逐漸發(fā)展壯大。它將首先被用于“活動(dòng)流”,隨后則會(huì)被應(yīng)用于整個(gè)網(wǎng)絡(luò)。
社交相關(guān)性排序算法(Social Relevancy Rank)即將誕生。屆時(shí),當(dāng)你搜索“活動(dòng)流”時(shí),所得的結(jié)果不會(huì)再按照時(shí)間順序排列,而是會(huì)根據(jù)每條信息與用戶的“社交圖譜(social graph)”之間的相關(guān)性來排列。也就是說,那些與你關(guān)系更為緊密的人將會(huì)排在前面。這種模式的流程如何?實(shí)際上,需要通過一個(gè)算法,就像谷歌的Page Rank一樣。
以好友為依據(jù)
將你所關(guān)注的人排在搜索結(jié)果的前端是一種顯而易見的做法,但Twitter目前仍未采用?,F(xiàn)在,當(dāng)你在Twitter上搜索“Wilco”時(shí),所得的結(jié)果會(huì)按照時(shí)間先后排列。這種方式其實(shí)并沒有很好的體現(xiàn)“相關(guān)性”,因?yàn)樗阉鹘Y(jié)果中的多數(shù)信息都來自于陌生人。但如果所列信息來自于你所關(guān)注的人,那么搜索結(jié)果就將更為有用。
Twitter目前并不支持這種模式,但FriendFeed卻已經(jīng)很好地采納了這一模式。FriendFeed會(huì)根據(jù)用戶的社交圖譜對(duì)搜索結(jié)果進(jìn)行過濾。對(duì)于FriendFeed而言,要做到這一點(diǎn)并不困難。一方面,它了解你所關(guān)注的人;另一方面,它會(huì)將高端feed搜索技術(shù)整合到了用戶的社交圖譜中。
這種方式聽起來很很棒,但也存在一個(gè)問題。搜索“Wilco”時(shí),效果不錯(cuò),因?yàn)檫@支樂隊(duì)剛剛推出了新專輯,但是很多其他的關(guān)鍵詞卻無法返回任何結(jié)果。道理很簡單,你在Facebook上的好友以及在Twitter上所關(guān)注的人不可能對(duì)你所感興趣的每個(gè)話題都發(fā)表評(píng)論。問題在于數(shù)據(jù)稀疏,也就是缺乏可信賴的觀點(diǎn)。
尋找更多數(shù)據(jù)來源
很明顯,想要解決數(shù)據(jù)稀疏的問題就需要更多的數(shù)據(jù)。解決方案之一就是整合其他可信賴的資源,比如拓寬社交圖譜。例如,搜索結(jié)果所列的內(nèi)容未必來自于你直接關(guān)注的人,它還會(huì)包含那些你關(guān)注的人所關(guān)注的其他人。在Facebook中,就是所謂的“好友的好友”。你或許會(huì)認(rèn)為,自己并不熟悉這些人的觀點(diǎn),因而并不信任他們,但“六度分隔理論”表明,人們的社交圈都很小,因此,這類內(nèi)容通常會(huì)擁有相同的價(jià)值。
還有一種社交相關(guān)性排序算法是將興趣類似的人整合到一起,這也就是所謂的“興趣鄰居(taste neighbors)”。這種方法在垂直社交網(wǎng)絡(luò)中非常普遍,例如Last.fm、Flixster和Goodreads等。這些網(wǎng)絡(luò)都能夠幫助你了解,除好友之外還有哪些人與你類似。然而,這種運(yùn)算成本較高,而且非常耗時(shí)。如果Twitter要完成類似的功能,就需要根據(jù)人們所發(fā)布的鏈接和Twitter信息的語義來判定。即使這一問題非常棘手,但隨著時(shí)間的推移,應(yīng)該可以解決。
群體因素
除了使用社交圖譜的“第二度”和“興趣鄰居”外,社交相關(guān)性排序還可以為具有影響力的人賦予更高的權(quán)重。在缺乏任何其他衡量標(biāo)準(zhǔn)時(shí),那些擁有數(shù)十萬名關(guān)注者的人有可能會(huì)比其他陌生人具備更高的相關(guān)性。使用關(guān)注者的數(shù)量來衡量剩余的“活動(dòng)流”是一種不錯(cuò)的方式。
總之,將來自陌生人的無數(shù)信息機(jī)械地整合在一起并非上策。正如人們很少會(huì)查看谷歌搜索***頁以后的內(nèi)容一樣,以時(shí)間順序排列的Twitter信息也將很快令人厭倦。社交相關(guān)性排序需要將群體的共同感受考慮進(jìn)來,以此來提供一種過濾標(biāo)準(zhǔn),從未為你提供更多的結(jié)果。
***算法
***的社交相關(guān)性排序算法并不存在,即使Page Rank也不夠***,但我們依然覺得它很有用。正如Page Rank在互聯(lián)網(wǎng)中所起的作用一樣,假以時(shí)日,社交相關(guān)性排序也將幫助我們了解社交網(wǎng)絡(luò)中無窮無盡的“活動(dòng)流”的意義所在。這種排序?qū)?huì)對(duì)我們了解好友的方式產(chǎn)生深遠(yuǎn)的影響。
假以時(shí)日,社交相關(guān)性排序還將改變通用網(wǎng)絡(luò)搜索。如今,通用網(wǎng)絡(luò)搜索的結(jié)果是自動(dòng)根據(jù)相關(guān)性和新鮮度進(jìn)行排序的,一旦將社交相關(guān)性排序考慮進(jìn)去,搜索結(jié)果就將根據(jù)社交元素重新排序。
【編輯推薦】