偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

KDD 2021之百度:學術研究與技術應用相結合

企業(yè)動態(tài)
在與人類息息相關的生命健康領域,百度也取得了長足進步:在AI+醫(yī)療多個方向上探索,構建醫(yī)療AI中臺、面向醫(yī)療場景提供各種AI解決方案;更進一步尋覓生物計算的密碼

 

  8月14日至18日,國際數據挖掘與知識發(fā)現大會 KDD 2021在線上正式舉行。此前本屆KDD入選論文已經揭曉,百度被收錄的多篇論文,其突出的特點是學術研究與技術應用緊密結合,再次展現百度在AI領域的技術實力。

  ACM SIGKDD(簡稱KDD)國際數據挖掘與知識發(fā)現大會至今已連續(xù)舉辦了26屆,是世界數據挖掘最高級別的學術會議之一,有數據挖掘領域“世界杯”之稱,每年吸引了大量數據挖掘、機器學習、大數據和人工智能等領域的研究學者、從業(yè)人員參與。

  百度在AI技術方向多年創(chuàng)新積累,數據挖掘和知識發(fā)現也是重點關注和持續(xù)投入的相關領域,并擁有多項技術成果和應用落地案例。在多年為KDD輸送優(yōu)質論文的基礎上,百度今年的被收錄論文再次體現了技術與應用緊密融合的趨勢。

  生物計算與醫(yī)療:生命健康里的AI新可能

  在與人類息息相關的生命健康領域,百度也取得了長足進步:在AI+醫(yī)療多個方向上探索,構建醫(yī)療AI中臺、面向醫(yī)療場景提供各種AI解決方案;更進一步尋覓生物計算的密碼,推出生物計算平臺螺旋槳PaddleHelix。此次KDD 2021中,百度發(fā)表了論文聚焦生命健康領域,提出了相關的新型圖神經網絡模型和醫(yī)學實體關系循證框架。

  1. 三維結構感知的交互式圖神經網絡 —— 用于蛋白質-配體親和力預測的新型圖神經網絡模型

  Structure-aware Interactive Graph Neural Networks for the Prediction of Protein-Ligand Binding Affinity

 

  藥物設計的一個關鍵步驟是準確的預測蛋白質-配體的親和力(protein-ligand binding affinity)。最近的研究進展已經證明,使用圖神經網絡 (GNNs) 來學習蛋白質-配體復合物(protein-ligand complexes)的表示,比傳統(tǒng)方法可以更準確地預測親和力。然而,現有的模型通常將蛋白質-配體復合物視為拓撲圖,并沒有充分利用分子的三維結構信息。同時GNN模型也忽略了原子之間基本的遠距離相互作用。為此,我們提出了一種新型的三維結構感知的交互式圖神經網絡 (SIGN),它由兩個部分組成:基于極坐標的圖注意力層 (PGAL) 和成對交互式池化層 (PiPool)。具體來說,PGAL層首先迭代執(zhí)行節(jié)點-邊聚合過程以更新節(jié)點和邊的表征,在這個過程可以同時保留原子之間的距離和角度信息。然后,SIGN可以通過PiPool層來對交互邊進行池化操作,隨后通過重建交互矩陣的學習任務來反映蛋白質-配體的全局交互信息。在兩個基準數據集上的實驗結果驗證了SIGN預測效果的優(yōu)越性。

  2. 基于大規(guī)模機器閱讀理解的醫(yī)學實體關系循證

  Medical Entity Relation Verification with Large-scale Machine Reading Comprehension

 

  醫(yī)學實體關系驗證是構建企業(yè)級醫(yī)學知識圖譜的關鍵步驟?,F有的信息抽取的方法專注于實體關系的挖掘,但并不能對挖掘的關系提供有效的循證支撐,這在真實醫(yī)學應用場景下是不可接受的。因此,設計一種以循證為基礎的醫(yī)學實體關系驗證框架是十分必要的。

  針對上述場景,我們提出了一種基于大規(guī)模機器閱讀理解技術的醫(yī)學實體關系循證框架。該框架中我們設計了多種創(chuàng)新性的方法和模塊來提高醫(yī)學實體關系循證的效率和準確率。比如,為了解決醫(yī)學實體的多樣性和變體問題,我們提出了一種近義詞感知(synonym-aware)的召回模型;為了更好的利用醫(yī)學的領域知識,我們創(chuàng)造性的設計了基于關系感知(relation-aware)的證據探測模塊和基于醫(yī)學本體增強(medical ontology-enhanced)的聚合模塊,來共同提高整體循證模型的效果。此外,為了解決證據標簽缺乏的問題,我們提出了一種新穎的基于交互協(xié)調訓練的新方法(interactive-collaborative training)來提升標注效率,提升證據準確率。通過實驗驗證,我們提出的循證框架超越多個現有的基于事實驗證的最好基線方法(state-of-the-art baselines)。該框架已經應用在了百度臨床輔助系統(tǒng)(CDSS)上,多方位支撐CDSS產品矩陣的可解釋循證,幫助了上萬名醫(yī)生。

  POI檢索、推薦等為用戶提供更好、更便捷的智能化位置服務

  作為國內智能化位置服務的代表產品之一,百度地圖日均位置服務請求已突破了1200億次。

  怎樣讓用戶在使用百度地圖時能夠獲得更好、更快、更方便的服務?KDD 2021中選論文中,百度延續(xù)以往在百度地圖方面的技術研究、進行了升級和創(chuàng)新,覆蓋POI即時檢索、多語言POI檢索、POI推薦和基于自監(jiān)督元學習的路線耗時預估辦法等。

  3. MST-PAC:基于元學習的時空個性化POI即時檢索

  Meta-Learned Spatial-Temporal POI Auto-Completion for the Search Engine at Baidu Maps

 

  POI即時檢索(POI Auto-Completion)是百度地圖POI搜索引擎的特色功能之一。POI即時檢索旨在幫助用戶以最少的輸入(理想情況下只需要用戶輸入一個字符),在搜索結果列表頁的首位即時給出用戶想找的POI,因此能夠大幅降低輸入成本并顯著提升搜索效率。POI即時檢索效果不僅與用戶輸入的字符以及輸入習慣有關,也與用戶發(fā)起檢索的時間與空間相關。統(tǒng)計數據顯示17.9%的地圖用戶在不同的時間或地點使用過相同的前綴尋找過不同的POI??紤]到時空數據分布的不均衡性,我們提出了一種基于元學習的時空個性化POI即時檢索方法,并使用高效MapReduce算法對其進行訓練(縮寫為MST-PAC)。MST-PAC能夠顯著克服時空數據分布不均的問題,并能以較少的訓練樣本快速適應冷啟動的時空場景。MST-PAC已在百度地圖成功部署,每天處理數十億檢索請求,這表明MST-PAC是一種具有實用價值且能夠大規(guī)模落地的POI即時檢索工業(yè)解決方案。

  4. 基于異構圖與注意力匹配網絡的多語言POI檢索

  HGAMN: Heterogeneous Graph Attention Matching Network for Multilingual POI Retrieval at Baidu Maps

 

  多語言POI檢索旨在幫助用戶使用自己熟悉的語言查找到由其他語言所描述的POI。該功能在出境旅游時尤為重要,因為本地POI往往缺乏多語言翻譯,要用完全陌生的語言進行查詢對大部分用戶來說不太現實。數據稀疏是多語言檢索任務面臨的挑戰(zhàn)之一。為此,我們提出了一種基于異構圖的注意力匹配網絡(HGAMN)。首先,在異構圖的幫助下,我們能夠有效建立起低頻POI與高頻POI之間,以及POI與其不同語言的查詢表達之間的關聯(lián)。其次,我們使用基于注意力的網絡對該圖的節(jié)點表示進行學習后,能夠顯著緩解數據稀疏問題。HGAMN已在百度地圖成功部署,每天響應數億搜索請求,這表明HGAMN是一種實用且魯棒的多語言POI檢索工業(yè)解決方案。

  5. SSML: 基于自監(jiān)督元學習的在途路線耗時預估方法

  SSML: Self-Supervised Meta-Learner for En Route Travel Time Estimation at Baidu Maps

 

  路線耗時預估旨在根據路線和出發(fā)時間預測用戶的到達時間,是地圖產品必不可少的基礎功能之一。在途路線耗時預估是路線耗時預估在用戶駕駛過程中的細分場景任務,旨在估算出從用戶當前位置到目的地的剩余時間。然而,現有方法未考慮從起點到當前位置的用戶駕駛行為,從而很難快速適應用戶的駕駛習慣,并據此及時調整剩余的預估耗時。為此,本文提出利用已行駛路線所觀察到的少量用戶駕駛行為,來提升在途路線耗時預估的準確率。我們將該任務建模為一個小樣本學習問題,把已行駛路線中觀察到的用戶行為作為訓練樣本,同時把剩余路線中未發(fā)生的行為作為測試樣本。我們提出了一種基于自監(jiān)督元學習的在途路線耗時預估方法(SSML),并使用自監(jiān)督學習進行數據增強,從而得以快速適應用戶的駕駛行為、提升模型的預測效果?;诎俣鹊貓D大規(guī)模真實數據集的實驗表明,SSML是一種具有實用價值與穩(wěn)健性的在途路線耗時預估工業(yè)解決方案。

  6. CHAML:基于課程式元學習框架的POI推薦技術

  Curriculum Meta-Learning for Next POI Recommendation

 

  POI推薦,作為廣受用戶歡迎的POI發(fā)現方式,是百度地圖的特色功能之一。該功能旨在結合當前的時空場景和用戶使用習慣,快速發(fā)現其潛在感興趣的POI。但是,由于『用戶-POI』交互的天然長尾效應,現有技術很難為數據稀疏的冷啟動城市提供令人滿意的POI推薦。本文提出了一種將隱藏在豐富數據中的知識從熱門城市遷移到冷啟動城市的構想。為了達成這一構想,我們設計了一種新的課程式元學習(CHAML)框架。CHAML框架能夠分別從城市和用戶兩個層面,考慮樣本的訓練難度,并以此來增強元學習訓練過程。同時,我們設計了一種由易到難的課程式學習方案,用于樣本抽樣,以幫助元學習模型收斂到更好的狀態(tài)。目前,CHAML已經用于百度地圖的POI推薦業(yè)務,并且取得顯著的應用效果。

  新技術助力百度搜索引擎性能與效果提升

  如何進一步優(yōu)化提升百度搜索引擎的體驗和效率,是百度技術人員一直關注的問題。此次KDD 2021百度中選論文中,有數篇圍繞百度搜索引擎性能效果提升探討了最新技術研究成果,包含使用百度先進的中文預訓練語言模型文心(ERNIE),快速近鄰檢索(ANN)和快速最大內積檢索(MIPS),高效智能在線推理系統(tǒng)JiZhi(極智)等。

  7. 基于預訓練語言模型的百度搜索排序

  Pre-trained Language Model based Ranking in Baidu Search

 

  排序作為搜索的核心,在滿足用戶的信息需求方面起著至關重要的作用。近來,基于預訓練語言模型 (PLM) 的微調方法取得了當前最好的效果。然而,在大規(guī)模搜索引擎中應用基于PLM的排序模型卻并不容易:1. PLM的計算成本過高,尤其是對于排序中的長文本,限制了他們在低延時系統(tǒng)中的部署;2. 現有的預訓練目標與相關性無關,直接應用相關性無關的PLM模型,是限制基于PLM的排序模型的另一個主要障礙;3. 現有的排序模型需要和其他排序模型共同應用,因此模型與其他模型的兼容性對于一個排序系統(tǒng)來說也至關重要。

  在本工作中,我們提出了一系列如何成功部署最先進的中文預訓練語言模型(ERNIE)的技術。首先,我們闡明了如何高效地抽取文檔的摘要,并提出了能強大的Pyramid-ERNIE 架構將查詢、標題和摘要三者建模。然后,我們提出了一個范式來精細地利用大規(guī)模的有噪聲和偏見的點擊后行為數據進行面向相關性的預訓練。其次,我們還提出了一種為在線排名系統(tǒng)量身定制的人工錨定微調策略,旨在保證基于PLM的排序模型和其他模塊的兼容性。最后,大量的離線和在線實驗結果表明,所提出的方法可以顯著提高了搜索引擎的性能。

  8. 預訓練語言模型在百度大規(guī)模網頁召回中的應用

  Pre-trained Language Model for Web-scale Retrieval in Baidu Search

 

  召回是網頁搜索中的重要階段,其功能在于從海量網頁庫中找到一個相對較小的相關候選集。其中,基于語義相關的召回有助于展現更多高質量的搜索結果給用戶。但是,搭建和部署一個高效的語義召回模型,在搜索引擎業(yè)務中一直面臨著諸多挑戰(zhàn)。本文介紹了目前百度搜索中所使用的基于預訓練語言模型的召回系統(tǒng)。此系統(tǒng)采用了百度自研的中文預訓練語言ERNIE,通過應用基于多層Transformer的模型結構,以及多階段的訓練流程,賦予了召回系統(tǒng)強大的語義匹配能力。同時,本文還介紹了基于預訓練的召回模型在整個召回系統(tǒng)中的工作流程。通過嚴謹的離線和線上實驗驗證,基于預訓練語言模型的召回系統(tǒng)已全量部署在百度搜索業(yè)務中,提升了百度搜索的整體效果。

  9. 基于模調節(jié)近鄰圖的最大內積檢索

  Norm Adjusted Proximity Graph for Fast Inner Product Retrieval

      快速近鄰檢索(ANN)和快速最大內積檢索(MIPS)是工業(yè)界超大規(guī)模排序系統(tǒng)的核心,在搜索引擎公司的各項主要業(yè)務中發(fā)揮了巨大作用。有關ANN和MIPS的各項前沿研究在百度已經有了很長的歷史。從2019年開始,通過學術論文百度逐步而系統(tǒng)地對外公開了自主開發(fā)的各項ANN和MIPS核心技術。這篇KDD 2021論文就是其中之一。

  最大內積檢索(MIPS)旨在快速查找與檢索向量(Query)內積最大的候選向量,原本是學術界和工業(yè)界的一個重大難題。最大內積檢索之所以具有挑戰(zhàn)是因為內積不符合三角關系,即內積不是度量標準(Metric Measure)。傳統(tǒng)的快速向量檢索技術多為Metric Measure所設計,如歐式距離和余弦距離。這些傳統(tǒng)方法并不適用于最大內積檢索。比如針對Metric Measure效果非常好的圖索引方法就不能直接應用到最大內積檢索中。在本文中我們提出模調節(jié)圖索引結構,將針對Metric Measure的圖索引結構擴展到最大內積檢索任務中。大量實驗表明,該方法相比于之前有代表性的內積檢索方法,有很大的性能優(yōu)勢。我們提出的方法NAPG相比于之前有代表性的MIPS方法ip-NSW,Greedy-MIPS和Rang-LSH,在檢索性能上有巨大優(yōu)勢。在同等召回率水平上,該方法可以處理的查詢數遠多于其他方法。

  10. JIZHI:百度面向網絡應用的實時高效模型預估系統(tǒng)

  JIZHI: A Fast and Cost-Effective Model-As-A-Service System for Web-Scale Online Inference at Baidu

 

  對于來自數億級用戶的巨量預估請求,如何能夠以超低成本支撐起超大規(guī)模離散稀疏深度模型進行高效的實時在線推理仍然具有極大挑戰(zhàn)性。在本文中,我們構建了一套高效智能在線推理系統(tǒng)JiZhi(極智),將每個請求的推理過程轉換為一個階段式的事件驅動處理流(SEDP),創(chuàng)新性的以全局最優(yōu)視角自適應精細化調整各個階段最合理的架構算法和參數,動態(tài)調度模型預估算力的分配,更加智能通用的適應各種預估應用場景。通過多層次自適應緩存機制,大幅減少了由超大規(guī)模稀疏模型參數引起的計算成本和數據訪問延遲,進一步加速在線推理過程。此外,JiZhi還實現了智能資源管理機制,從系統(tǒng)運行期歷史中學習最佳的資源分配計劃,調整負載控制策略,最大限度的提高JIZHI的系統(tǒng)吞吐。JIZHI已在百度20多個業(yè)務場景落地,從端到端的實現成本、服務延遲、系統(tǒng)吞吐量、資源消耗等角度展現出了JIZHI系統(tǒng)顯著的優(yōu)勢,在保障模型效果的前提下節(jié)省了大量的實現、硬件和基礎設施的應用成本。

  AI+房地產評估:從地理分布、人口流動性分布、居民人口學分布等多個角度構建豐富的特征集,以對房地產價值進行全面綜合的剖析。

  11. MugRep: 一種面向房地產評估的多任務層次圖表示學習框架

  MugRep: A Multi-Task Hierarchical Graph Representation Learning Framework for Real Estate Appraisal

 

  房地產評估是指對房地產的市場價值進行公正評價的過程,其對房地產市場的各種參與者(如房地產經紀人、估價師、貸款人和買家)的決策過程起著至關重要的作用。然而,要做到準確的對房地產進行評估并不容易,將主要面臨三個方面的挑戰(zhàn):(1) 房地產價值復雜的影響因素;(2) 房地產交易間的異步時空依賴;(3) 城市居民社區(qū)間的多元相關性。針對以上幾大挑戰(zhàn),本文提出了一種多任務層次圖表示學習框架 (MugRep),用來準確的評估房地產。具體來說,通過獲取和整合多源城市數據,本文首先從地理分布、人口流動性分布、居民人口學分布等多個角度構建豐富的特征集,以對房地產價值進行全面綜合的剖析。然后,我們提出了一種演化的房地產交易事件圖卷積模塊,以融合房地產交易之間的異步時空依賴。此外,為了進一步從居民社區(qū)的視角提取有價值的知識,我們設計了一種分層異構的社區(qū)圖卷積模塊,以捕獲居民社區(qū)之間的多元相關性。最后,我們引入以城區(qū)作為劃分的多任務學習模塊,以生成不同分布的房地產評估意見。我們在兩個真實數據集上進行了大量的實驗,結果證明了MugRep及其組件和特性的有效性。

  AI+人才管理:聚焦新領域的創(chuàng)新突破

  一直以來,百度在“AI+人才管理”方面也實現了深厚的技術研究積累,今年年初就有相關研究成果登上國際頂級刊物Nature子刊Nature Communications。在KDD 2021的被錄取論文中,百度相關研究團隊展現了在工作流動行為預測、人才需求預測等方面的最新研究成果。

  12. 基于異構圖注意力表征的工作流動行為預測

  Attentive Heterogeneous Graph Embedding for Job Mobility Prediction

 

  在當今人才經濟時代,跳槽頻繁現象已經成為新常態(tài)。因此,對工作流動預測的研究應運而生,它能使組織和個人在多個方面獲益。本文聚焦在工作流動預測任務,現有研究主要集中在對個體層面的職業(yè)軌跡建模,而很大程度上忽略在宏觀層面上職業(yè)流動的影響(例如,在公司與公司或崗位與崗位之間的人才流動)。實際上,這種宏觀層面上的職業(yè)流動信息能夠反映出人才市場的趨勢,對個人的跳槽決定會產生一定影響。為此,本文提出一種建模宏觀層面職業(yè)流動行為影響來輔助預測個體層面的工作流動框架(Ahead)。首先,從觀測到的職業(yè)軌跡鏈中構造異質企業(yè)-崗位網絡來保留宏觀層面的職業(yè)流動信息。其次,本文構建了AHGN模塊從異質圖中獲取崗位和企業(yè)豐富的語義表征。其中提出了兩種聚合器,分別用來聚合內部和外部鄰居的信息,以及一種新穎的類型注意機制被用來融合兩種聚合器的信息以更新節(jié)點表示。最后在公開互聯(lián)網數據集上的實驗結果從多個角度證明了本文方法的有效性。

  13. 基于注意力序列模型的人才需求預測

  Talent Demand Forecasting with Attentive Neural Sequential Model

 

  人才需求預測(Talent Demand Forecasting)技術是指根據公開互聯(lián)網數據對未來公司的人才招聘需求進行預測的技術。在當今瞬息萬變的商業(yè)環(huán)境中,根據公開數據及時預測各個企業(yè)在招聘市場中的人才需求趨勢,不僅可以幫助企業(yè)指定合適的人才斬落,保持自身人才競爭力,還可以幫助政府從宏觀角度對人力市場的供需關系進行分析。雖然已有很多在招聘市場分析方面的工作,但由于細粒度人才需求時間序列的稀疏性和招聘市場復雜的時序模式,仍然沒有有效的方法可以預測細粒度的人才需求動態(tài)。為此,在本文中,我們提出了一種數據驅動的注意力序列模型,即人才需求注意力網絡(TDAN),用于預測公開市場中的細粒度人才需求。我們首提取多個粒度級別上人才需求的時間序列,并使用矩陣分解技術提取公司和職位的內在屬性。然后,我們設計了一種混合注意力模塊來捕捉公司的趨勢和行業(yè)的趨勢,用以增強細粒度人才需求的信息。接著設計了一個相關性注意力時序模塊,用于對隨公司和職位變化的復雜的時間相關性進行建模。最后,在大規(guī)模公開互聯(lián)網數據集上進行了大量實驗,結果驗證了所提方法在細粒度人才需求預測方面的有效性,展示了其對招聘趨勢建模的可解釋性。

責任編輯:張誠 來源: 互聯(lián)網
相關推薦

2014-09-04 02:25:24

百度世界大會2014直達號BaiduEye

2012-03-23 12:12:37

百度開發(fā)者大會

2024-01-09 07:48:07

推薦排序算法策略數據背景

2012-05-24 13:55:02

XML

2012-12-18 10:57:32

2012年度IT博客大IT博客大賽博客

2015-01-18 15:16:03

百度百度移動分發(fā)百度91

2014-07-25 17:12:39

數據庫WOT2014MongoDB

2018-09-06 18:37:45

百度云

2013-01-31 09:15:08

偷拍插件美杜莎

2013-08-22 17:08:50

2015-03-02 10:35:25

百度專利經費

2013-07-01 17:21:21

百度云推送免費云推送移動開發(fā)

2013-03-11 10:16:52

百度BAE

2021-06-03 15:22:37

百度智能云AI原生

2013-08-26 09:15:38

百度輕應用

2012-07-06 16:01:26

華為服務器

2013-12-30 11:15:23

2013-08-28 14:43:19

2010-08-12 15:33:00

百度筆試
點贊
收藏

51CTO技術棧公眾號