微信技術(shù)團(tuán)隊(duì)采訪:他們改變了微信的涵義
微信語(yǔ)音團(tuán)隊(duì)負(fù)責(zé)人盧鯉
我們時(shí)常聽到對(duì)張小龍關(guān)于微信設(shè)計(jì)的研究,但很少注意到微信背后的技術(shù)團(tuán)隊(duì)。在早期版本中,由于主打信息溝通功能,微信技術(shù)上并無(wú)亮點(diǎn),直到 4.3 版本之后,語(yǔ)音識(shí)別、掃一掃功能陸續(xù)的加入,新技術(shù)加上傳感器的結(jié)合正在重新定義微信。
在昨天的“微信·公眾”合作伙伴大會(huì)上,微信發(fā)布了語(yǔ)音開放平臺(tái),正式跳出微信范疇,與科大訊飛、云知聲等語(yǔ)音公司進(jìn)行競(jìng)爭(zhēng)。同時(shí)在本次大會(huì)上,微信通過(guò)展示控制冰箱、印美圖、電視等設(shè)備,凸顯其在物聯(lián)網(wǎng)中發(fā)揮樞紐作用的潛力。
微信的這些技術(shù)團(tuán)隊(duì)都?xì)w在模式識(shí)別中心團(tuán)隊(duì)里,在記者之前的采訪中,詳細(xì)的剖析了這個(gè)團(tuán)隊(duì)的工作領(lǐng)域、在微信迭代中扮演的角色。那次采訪我們還了解到了不少關(guān)于技術(shù)方面的信息,趁著這次“微信·公眾”合作伙伴大會(huì)召開之際發(fā)出來(lái)。
模式識(shí)別中心在應(yīng)用層上有 2 大塊,分別是語(yǔ)音和掃一掃,在微信團(tuán)隊(duì)看來(lái),它們是人身體的延伸,有著很高的戰(zhàn)略意義,所以必須有自主核心技術(shù)。
語(yǔ)音是站在了更高的起點(diǎn)上
微信語(yǔ)音識(shí)別給人突然冒出來(lái)的感覺(jué),它的帶隊(duì)人是盧鯉,中科大博士畢業(yè),研究方向是語(yǔ)音識(shí)別這塊。2011 年蘋果發(fā)布 Siri 后,語(yǔ)音一下子被大家重視起來(lái),這其中也包括騰訊。騰訊在 2011 年底將語(yǔ)音識(shí)別作為科研項(xiàng)目在北京研究院?jiǎn)?dòng),盧鯉進(jìn)入騰訊帶隊(duì),帶領(lǐng) 3 個(gè)人進(jìn)行攻堅(jiān)。
其實(shí)從技術(shù)上講,老牌的科大訊飛雖然積累了十年,但是由于相關(guān)的行業(yè)論文在技術(shù)研究上已經(jīng)大大進(jìn)步,知識(shí)儲(chǔ)備更齊全,所以盧鯉算是站在一個(gè)更高的起點(diǎn)上,可以做到速度比科大訊飛快得多。
另外,按照云知聲創(chuàng)始人梁家恩的說(shuō)法,語(yǔ)音識(shí)別是“會(huì)者不難”,懂的人做起來(lái)要容易得多。盧鯉和梁家恩也互相認(rèn)識(shí),都是中科大出身,百度、搜狗的語(yǔ)音負(fù)責(zé)人也都是來(lái)自同門。
當(dāng)然,做技術(shù)攻堅(jiān),其中的辛苦也是不為人知。語(yǔ)音識(shí)別技術(shù)從簡(jiǎn)單,到可以用,再到好用,中間是一個(gè)漫長(zhǎng)的過(guò)程。盧鯉把每半年算一個(gè)節(jié)點(diǎn),從研發(fā)開始 到微信 5.0 發(fā)布,總共 3 個(gè)節(jié)點(diǎn),每一個(gè)節(jié)點(diǎn)性能都有 40% 的提升,但是直到***那個(gè)半年,語(yǔ)音識(shí)別才有真正的質(zhì)變。
“這就相當(dāng)于一個(gè)人吃了 9 張餅沒(méi)吃飽,吃了***一張飽了。”盧鯉說(shuō)道。
這期間,他們經(jīng)歷過(guò)兩次封閉開發(fā),也有過(guò)張小龍的“循循善誘”。據(jù)悉,產(chǎn)品上線后,用戶數(shù)量上升曲線都很健康,使用率很高。
在微信 5.0 的語(yǔ)音轉(zhuǎn)文字功能中,很多人發(fā)現(xiàn)它的表現(xiàn)不輸科大訊飛。騰訊在語(yǔ)音識(shí)別這塊雖然起步不早(不到 2 年),但是在實(shí)際應(yīng)用上已經(jīng)走在了前列。
以自然的方式融入產(chǎn)品
Siri 雖然發(fā)布很成功,引爆了這個(gè)市場(chǎng),但是最終卻淪為用戶調(diào)侃的對(duì)象,屬于半成品。而語(yǔ)音該如何在微信中呈現(xiàn),避免言過(guò)于實(shí)的現(xiàn)象,不僅考驗(yàn)著技術(shù),還考驗(yàn)著產(chǎn)品能力。
盧鯉認(rèn)為,語(yǔ)音是不是入口不重要,也不在乎,在乎的是語(yǔ)音識(shí)別能做什么事,就像從一個(gè)地方到另一個(gè)地方,最重要的是能到達(dá),而不是中間發(fā)生了什么。
語(yǔ)音在微信中的呈現(xiàn)形式有三種:語(yǔ)音搜索通訊錄、語(yǔ)音鬧鐘、語(yǔ)音轉(zhuǎn)文字。從微信 4.3 到微信 5.0,語(yǔ)音的介入在一步一步深入,但同時(shí)也是受到嚴(yán)格限制,僅限于指定的功能,他們認(rèn)為一旦放開使用范圍,很容易面臨華而不實(shí)的境地。
Siri 包含了語(yǔ)音識(shí)別、語(yǔ)義識(shí)別、搜索等,形成一個(gè)閉環(huán),大多數(shù)語(yǔ)音 App 也是如此,但問(wèn)題是,Siri 等產(chǎn)品暗示著用戶可以做好任何事情,在技術(shù)還沒(méi)準(zhǔn)備好的情況下,產(chǎn)品很容易變?yōu)殡u肋。微信的考慮是反其道行之,讓用戶明白只能做這些事情,不要制造額外的 期待。而且語(yǔ)音與通訊工具的結(jié)合,天然更加默契,盧鯉覺(jué)得:
“通訊錄語(yǔ)音搜索,這在微信里是多么的自然。”
隨著微信·公眾合作伙伴大會(huì)的召開,微信的語(yǔ)音終于平臺(tái)化,并加強(qiáng)垂直領(lǐng)域的體驗(yàn),這都為微信商業(yè)化締造了機(jī)會(huì)。他們接下來(lái)的研發(fā)目標(biāo)仍然是提升精準(zhǔn)度,完善技術(shù)細(xì)節(jié),與人腦進(jìn)行“PK”。
掃一掃的新技術(shù)有很多
微信掃一掃負(fù)責(zé)人劉海龍
按照掃一掃負(fù)責(zé)人劉海龍所說(shuō),掃一掃功能可以識(shí)別圖像、文字、人臉、物體檢索,甚至是增強(qiáng)現(xiàn)實(shí),目前微信只推出了文字、圖像識(shí)別,這是很多因素綜合 的結(jié)果。值得注意的是,微信掃一掃是采用視頻的方式,數(shù)據(jù)在實(shí)時(shí)進(jìn)行著傳輸,不借助本地的資源,掃一掃功能雖然是來(lái)源于之前推出的 App 搜搜慧眼,但后者仍然是拍完照再上傳識(shí)別。
實(shí)時(shí)自動(dòng)的檢測(cè),讓用戶操作少了一步,就像搖一搖搜歌,結(jié)果會(huì)實(shí)時(shí)顯示歌曲播放的位置。從上傳后識(shí)別到實(shí)時(shí)識(shí)別,這并不是簡(jiǎn)單的技術(shù)遷移,這考驗(yàn)著 對(duì)流量、處理速度的要求,以及云數(shù)據(jù)庫(kù)搭建。這樣做的好處不僅提升用戶體驗(yàn),而且使得前端輕,重活交給后端,以盡量讓微信保持輕量化。
在掃一掃這塊,微信可以說(shuō)儲(chǔ)備了一大批新潮的技術(shù),包括名片識(shí)別、人臉識(shí)別、實(shí)景識(shí)別、物品檢索、增強(qiáng)現(xiàn)實(shí)等。現(xiàn)有的街景掃描中,微信是根據(jù)你的地 理位置而不是圖像匹配,但劉海龍說(shuō),實(shí)景掃描這個(gè)是可以做的,但問(wèn)題是這一功能需要大量流量和高速傳輸?shù)木W(wǎng)絡(luò),目前還不適合上線。4G 的上馬將是很多新應(yīng)用的機(jī)會(huì),目前很多的工作還在與流量較勁。
掃一掃為何要放 5 個(gè)功能,為何二維碼、條形碼沒(méi)有歸一類?這背后同樣是微信對(duì)產(chǎn)品設(shè)計(jì)的思考。劉海龍認(rèn)為,5 個(gè)按鈕清晰的告訴用戶可以做什么,同時(shí)也提醒用戶,只能做這些事情。掃一掃功能的理想狀態(tài)應(yīng)該是用戶需要時(shí)出現(xiàn),不需要時(shí)不出現(xiàn)。
以后,如果流量問(wèn)題解決了,掃一張電影海報(bào)不再是指向影評(píng)網(wǎng)站,而是人從畫面中走出來(lái),自動(dòng)播放預(yù)告片等。另外,物品檢索、商品掃描等,這些事以前 PC 都做不了。
掃描的未來(lái)是讓攝像頭成為人類視覺(jué)的延伸,連接現(xiàn)實(shí)與虛擬世界,由于占據(jù)了極其重要的地位,微信的掃一掃很快會(huì)變得更加強(qiáng)大。
可以肯定的是,很多功能內(nèi)部已經(jīng)在逐個(gè)測(cè)試,視成都度、用戶需求是否上線。據(jù)說(shuō)微信一次版本更新前會(huì)制作幾十個(gè)版本,從中挑一個(gè)***的版本上線。甚至,他們還會(huì)制作一個(gè)搭載新功能的微信推送給 100 萬(wàn)測(cè)試用戶,研究使用率,語(yǔ)音轉(zhuǎn)文字功能正是這樣測(cè)試通過(guò)的。
微信快節(jié)奏的版本迭代并沒(méi)有讓他們工作狀態(tài)太過(guò)辛苦,做前沿研究,和算法有很大關(guān)系,死憋是做不出來(lái)的,需要閑暇狀態(tài)下的靈光一現(xiàn),一旦想通了,做起來(lái)就快了。但由于有了微信,他們幾乎是 24 小時(shí)在線,隨時(shí)溝通工作。
在采訪中,他們多次提到得益于微信平臺(tái),他們的技術(shù)才能有如此大的應(yīng)用空間。微信緊貼用戶,通過(guò)對(duì)攝像頭、麥克風(fēng)以及其他傳感器上進(jìn)行應(yīng)用挖掘,已經(jīng)大大改變微信的內(nèi)涵,微信不再是通訊工具,而是個(gè)人和企業(yè)的服務(wù)助手。