全球頂級AI科學(xué)家許主洪加盟阿里!IEEE Fellow,五萬被引論文數(shù),曾任Salesforce集團副總裁
AI的新進展頻頻,人才動態(tài)也愈加重磅。
新年第一則大牛人事動向,引發(fā)業(yè)內(nèi)關(guān)注。
許主洪,IEEE Fellow,新加坡管理大學(xué)終身教授,被曝加盟阿里。
許主洪是誰?1998級清華計算機系本科,碩博畢業(yè)于港中文,谷歌學(xué)術(shù)五萬引大佬。
多篇關(guān)于多模態(tài)預(yù)訓(xùn)練論文,深刻影響了業(yè)內(nèi)大模型研發(fā),阿里Qwen、谷歌RT-2都曾引用過其研究成果。
產(chǎn)業(yè)界,他曾擔任全球最大企業(yè)軟件廠商Salesforce集團副總裁、亞洲研究院創(chuàng)始院長,從0到1搭建了Salesforce亞洲人工智能研究體系。
現(xiàn)在,阿里方面已經(jīng)證實。他將出任阿里集團副總裁,向阿里AI To C業(yè)務(wù)負責人吳嘉匯報,專注于AI To C業(yè)務(wù)的多模態(tài)基礎(chǔ)模型及Agents相關(guān)基礎(chǔ)研究與應(yīng)用解決方案。
誰是許主洪?
在加盟阿里之前,他曾在工業(yè)界和學(xué)術(shù)界均擁有超20年經(jīng)驗,曾在新加坡南洋理工大學(xué)、新加坡管理大學(xué)擔任教授。
研究方向包括機器學(xué)習(xí)的基礎(chǔ)研究和人工智能多個領(lǐng)域的應(yīng)用研究,包括多媒體信息檢索、計算機視覺、大數(shù)據(jù)分析、社交媒體、智能網(wǎng)絡(luò)安全、計算金融和智慧城市等。
谷歌學(xué)術(shù)顯示,其發(fā)表300余篇人工智能頂級學(xué)術(shù)論文,被引五萬余次,2020年至今被引近四萬次。
2019年當選為IEEE Fellow,同一年當選的還有知名大佬、CMU教授邢波。
時間回到1998年,他來到清華大學(xué)計算機系讀書,本科畢業(yè)前往港中文攻讀碩博。
2007年他來到了新加坡南洋理工大學(xué)。期間他負責開源了一個機器學(xué)習(xí)庫LIBOL,里面有一大批經(jīng)典和先進的在線學(xué)習(xí)算法,用于解決大規(guī)模機器學(xué)習(xí)任務(wù),滿足各種新興大數(shù)據(jù)挖掘應(yīng)用的需求。
能夠看到的是,從那時候開始,他就已經(jīng)在深入思考連接技術(shù)到應(yīng)用之間這一橋梁。
隨后他去到新加坡管理大學(xué),2020年獲終身教職。
轉(zhuǎn)折點在2019年,他正式選擇踏入工業(yè)界,將自身技術(shù)積累真正融入進產(chǎn)業(yè)應(yīng)用當中去。
他的實戰(zhàn)場是全球最大企業(yè)軟件廠商Salesforce,幫助他們補齊AI基礎(chǔ)研究與應(yīng)用這一板塊。
他主導(dǎo)開創(chuàng)了多個行業(yè)先河的人工智能項目和產(chǎn)品,包括不限于多模態(tài)系列模型BLIP、代碼生成神器CodeGen、通用CRM助手Einstein GPT。
(CRM是客戶關(guān)系管理軟件系統(tǒng)。Einstein GPT支持包括 Slack、銷售、服務(wù)、營銷、商務(wù)和應(yīng)用程序構(gòu)建器)
另一個實戰(zhàn)場是2023年,乘著大模型的技術(shù)熱潮,他創(chuàng)辦了AI初創(chuàng)公司HyperGAI。
期間發(fā)布了多款多模態(tài)基礎(chǔ)模型,特點是在不增加計算成本的情況下,實現(xiàn)當前世界頂尖模型的水平。
在GPT-4V和Gemini Pro等大語言模型都在專注于文本的當下,他們在多模態(tài)理解和生成上面取得了不少突破,并且有很強的應(yīng)用屬性在里面。
比如像HPT 1.5 端側(cè)多模態(tài)模型,只有4B大小,性能卻優(yōu)于當時微軟新推出的Phi-3-Vision(4B)多模態(tài)模型,并在多項基準測試中達到了GPT-4V的性能。
除了一些評測之外,模型還展示了移動端上的使用效果,能夠識別圖中的關(guān)鍵信息。
同時它也具備強大的推理能力,可以理解并解答幾何題。
學(xué)術(shù)領(lǐng)域,他憑借深厚的專業(yè)素養(yǎng)和杰出的研究能力,發(fā)表了眾多頂級學(xué)術(shù)論文,研究成果備受行業(yè)矚目。
而在產(chǎn)業(yè)界,他將前沿技術(shù)與實際應(yīng)用緊密結(jié)合,成功推動了AI多個領(lǐng)域的突破與落地,成為連接學(xué)術(shù)與產(chǎn)業(yè)之間的橋梁。
深刻影響多模態(tài)大模型研發(fā)
問題是有了這位頂尖AI科學(xué)家的加盟,對于阿里來說意味著什么?
在許主洪的專業(yè)擅長中,不難找到線索和答案。
在他諸多論文中,有兩篇BLIP系列論文最為矚目,累計引用過萬,其中BLIP-2始終高居引用榜首。
更早之前還有技術(shù)博主專門研讀了他的成果,表示GPT-4V現(xiàn)在還像個黑匣子,而BLIP系列研究不僅在各種視覺任務(wù)中表現(xiàn)出SOTA的性能,也可能是打破黑匣子的有效解決方案。
2023年,各種大語言模型剛剛興起的時候,業(yè)內(nèi)就已經(jīng)在思考LLM涌現(xiàn)的通用性和泛化能力,是否也能在視覺領(lǐng)域中實現(xiàn)。
一個統(tǒng)一的視覺與語言的框架,以及一個能將它們與LLM結(jié)合起來的框架,成為自然而然的技術(shù)需求。
在眾多創(chuàng)新方法中,BLIP脫穎而出,它統(tǒng)一了視覺語言任務(wù)的理解與生成能力,并通過引入Captioner-Filter機制減少了監(jiān)督文本的噪聲,從而提高模型的訓(xùn)練質(zhì)量。
模型核心在于獨特的編碼器-解碼器混合架構(gòu)(MED),該架構(gòu)由視覺編碼器、文本編碼器和多模態(tài)編碼器三部分組成。
每個模塊都有相關(guān)的預(yù)訓(xùn)練目標,所有三個模塊都根據(jù)這些預(yù)訓(xùn)練目標進行聯(lián)合訓(xùn)練。
這系列論文所在的語言視覺智能一站式庫LAVIS,GitHub超過萬顆星,足以見其在業(yè)內(nèi)的影響力。在這個庫里還有各種BLIP的衍生,比如X-InstructBLIP、BLIP-Diffusion等等。
而將時間拉回現(xiàn)在,隨著大模型發(fā)展的深入,多模態(tài)能力作為核心屬性,正在重塑著AI的應(yīng)用范式。
總結(jié)來說,多模態(tài)讓大模型從“單一功能工具”轉(zhuǎn)變?yōu)椤叭艿腁gent”,其應(yīng)用場景將不斷地深入與拓寬。
核心體現(xiàn)在兩個方面:
其一,突破單模態(tài)局限,實現(xiàn)更全面的認知與交互。多模態(tài)大模型通過融合文本、圖像、音頻、視頻等異構(gòu)數(shù)據(jù),能夠構(gòu)建更接近人類認知、近乎人類水平的模型。
這種跨模態(tài)的語義對齊能力,使AI能理解復(fù)雜場景中的隱含關(guān)聯(lián),比如識別圖像中的隱喻或情感表達。像夸克、通義APP這種軟件,在其智能工具、ChatBot屬性之上,集成更多多模態(tài)功能之后,就能實現(xiàn)更多精細化功能,成為日常的AI全能助手。
更多樣化更復(fù)雜的任務(wù)需求也將得到滿足,多維之間的感知交互,能夠?qū)崿F(xiàn)AI在更多終端和硬件的落地,比如AI眼鏡——據(jù)稱是已經(jīng)明確的阿里AI to C業(yè)務(wù)未來探索方向。當然這些還只是單點功能或產(chǎn)品形態(tài),多模態(tài)能力還在于更多應(yīng)用場景的賦能。
所以第二個方面就是:拓展更多應(yīng)用場景,釋放行業(yè)生產(chǎn)力。
比如醫(yī)療場景,多模態(tài)模型融合醫(yī)學(xué)影像、基因數(shù)據(jù)和臨床文本,支持個性化診療方案生成。教育場景,結(jié)合圖文、視頻和語音的多模態(tài)教學(xué)助手,可動態(tài)適配學(xué)生學(xué)習(xí)風(fēng)格,提供沉浸式學(xué)習(xí)體驗。
但上述場景對阿里來說不是計劃,而是已經(jīng)部署落地的實踐,并且還展現(xiàn)出“干中學(xué)”的技術(shù)迭代潛力。
在夸克落地的業(yè)務(wù)中,其“靈知”學(xué)習(xí)大模型在考研數(shù)學(xué)題上的正確率和得分率已經(jīng)比肩OpenAI最新發(fā)布的o1模型,且遠超國內(nèi)其他模型。
所以了解了多模態(tài)能力與阿里AI to C業(yè)務(wù)布局的關(guān)系,或許也就看懂了許主洪的加盟。
這一次他要連接的是AI多模態(tài)能力在C端產(chǎn)品、應(yīng)用上的端對端閉環(huán)能力。
做面向用戶的AI技術(shù)創(chuàng)新
大模型的發(fā)展路線,目前可以總結(jié)為兩條,一個是面向大模型更高級智能水平的技術(shù)演進,一個是面向應(yīng)用和用戶價值/體驗的AI技術(shù)創(chuàng)新。阿里AI To C業(yè)務(wù)尤其是夸克呈現(xiàn)出后者的特點。
于阿里而言,許主洪是人工智能學(xué)術(shù)界的領(lǐng)路人,在產(chǎn)業(yè)界同樣擁有豐富的應(yīng)用研發(fā)和產(chǎn)品創(chuàng)新經(jīng)驗——尤其他不僅搭建了Salesforce亞洲人工智能研究體系,還將研究成果轉(zhuǎn)化為實際應(yīng)用——主導(dǎo)的多個AI創(chuàng)新項目,將學(xué)術(shù)成果轉(zhuǎn)化為商業(yè)應(yīng)用,推動了AI技術(shù)產(chǎn)業(yè)化進程。
這種學(xué)術(shù)與產(chǎn)業(yè)的雙重背景,使得許主洪不僅具備深厚的學(xué)術(shù)研究功底,還擁有將技術(shù)轉(zhuǎn)化為實際產(chǎn)品的豐富經(jīng)驗。這種能力就是阿里AI To C業(yè)務(wù)所需要的。
而以夸克為代表的阿里AI To C業(yè)務(wù),在大模型能力上也一直注重實用性,強調(diào)以應(yīng)用產(chǎn)品驅(qū)動大模型的研發(fā)、升級方向。
產(chǎn)品追求的不是“顛覆”,而是拳拳到肉,解決用戶的核心需求。夸克大模型的典型特點就是不卷參數(shù)和打榜,而是依據(jù)使用場景提供專業(yè)技術(shù)能力,衍生出通識、醫(yī)療、教育等垂類模型。
這種對用戶價值的核心追求,也是AI驅(qū)動之下,夸克迅猛崛起,成為國內(nèi)增長最快、勢頭最猛、用戶使用最多的AI全能助手——沒有之一。
量子位智庫統(tǒng)計,在APP端,前10個月國內(nèi)AI APP三日留存數(shù)據(jù)顯示,夸克是唯一突破40%的產(chǎn)品,也是唯一突破兩億累計下載量的。
△圖源:量子位智庫
如果說一年前還相對低調(diào),高速增長下的夸克現(xiàn)在也攤牌了,夸克已經(jīng)完成了品牌升級——2億人的AI全能助手。
當然,這也是技術(shù)、產(chǎn)品、場景等全方位要素驅(qū)動之下的結(jié)果,天時地利皆具備,現(xiàn)在阿里整個AI To C業(yè)務(wù)要發(fā)力,就是時候在“人和”——人才上點燃東風(fēng)。
許主洪的加盟可能還只是開始的開始。有消息稱,阿里AI To C業(yè)務(wù)正在組建頂級AI算法研究和工程團隊,吸引大量業(yè)內(nèi)頂級人才加盟。
而頂級科學(xué)家+頂尖團隊,再加上高速前進的AI業(yè)務(wù)和場景,夸克也好,阿里AI To C業(yè)務(wù)布局也好,有機會把AI創(chuàng)新帶入中國最熟悉的范式之下——技術(shù)驅(qū)動產(chǎn)品,產(chǎn)品反哺技術(shù),并且在規(guī)模最大的用戶市場迭代之下,實現(xiàn)綜合實力的超車。
AI不是移動互聯(lián)網(wǎng),但用戶需求和產(chǎn)品體驗的價值線,大道至簡,一以貫之,未曾改變。