偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

“郁金香”打造智能問答助手,暢通疫情防控期政務信息觸達渠道

新聞 人工智能
面對突如其來的疫情,大眾對于信息的即時性、透明度和傳達效率有了更高的關注。

面對突如其來的疫情,大眾對于信息的即時性、透明度和傳達效率有了更高的關注。在此背景下,北京市經(jīng)濟和信息化局和CCF大數(shù)據(jù)專家委員會,聯(lián)合北京智源人工智能研究院,共同舉辦了科技戰(zhàn)疫·大數(shù)據(jù)公益挑戰(zhàn)賽。一支名為“郁金香”的算法團隊在595支參賽隊伍中表現(xiàn)突出,取得了A榜第、B榜第的不俗成績。

據(jù)悉,郁金香是一支算法和工程經(jīng)驗豐富的業(yè)界團隊,其成員以一覽群智公司成員為主,也有來自于印信科技的得力外援。成員都是深耕NLP深度學習、信息檢索/互聯(lián)網(wǎng)搜索、數(shù)據(jù)挖掘等領域的資深專家。整個算法開發(fā)從立項到測評結束歷時30天。

本次比賽通過DataFountain平臺進行,圍繞“疫情政務問答助手”這一賽題展開。疫情政務問答助手旨在通過對惠民惠企政策數(shù)據(jù)的收集與處理,通過人機對話式問答的方式,對用戶提出的政策疑問快速、準確地定位相關政策文檔以及其內(nèi)相關內(nèi)容返回給用戶,幫助各行業(yè)企業(yè)準確掌握相關政策,更好地復工復產(chǎn)。

疫情政務問答是一個結合全文檢索和閱讀理解的復雜任務,其任務設置非常貼近人類在面對信息時的判斷邏輯:面對問題,參賽系統(tǒng)不光要找出文檔庫中的相關文檔,還要定位出其中跟問題最相關的內(nèi)容。這就跟人類在文檔中檢索時的流程類似:為什么這個文檔與問題最相關?是因為里面有這么一段話,能夠最好地回答待解決的問題。 

有的放矢:直面疫情政務問答復雜

對于學界大部分機器閱讀理解任務數(shù)據(jù)集,提問及其答案所在文檔往往是直接對應的,閱讀理解模型無須在海量文檔中去尋找相關文檔。但在真實場景中,對于用戶給出的一個問題,首先我們需要確定其答案在哪個文檔中,然后才能通過閱讀理解模型來找出實際答案。而這個答案文檔往往需要通過檢索這一步驟得到。因而在疫情政務問答這個任務中,其中有兩個因素會影響任務效果:其一,檢索模塊不一定能夠保證精準召回包含答案的文檔;其二,在召回的多篇可能存在答案的文檔里,正確答案所在的位置不確定。而且政務文檔篇幅一般都很長,答案可能也很長,這也會加大任務難度。

在信息檢索和認知智能方面的深厚經(jīng)驗和快速迭代改善模型的能力,是郁金香團隊成功的兩大關鍵。郁金香團隊采用基于ElasticSearch的全文檢索模塊和基于Transformer結構的閱讀理解模型方案,綜合展示了其在問題理解、內(nèi)容搜索、答案提取等多個環(huán)節(jié)的全面算法能力。問答系統(tǒng)主要分為“信息檢索”和“閱讀理解”兩部分。“郁金香”在設計疫情政務問答系統(tǒng)時以競賽為目標、實用性為導向,針對疫情文本的領域特殊性,在整個方案的細節(jié)上進行了多重優(yōu)化。整體方案在競賽中取得了優(yōu)異成績,也再次驗證了相關文本理解技術通用方案的先進性

在競賽中,郁金香團隊攻克了幾大技術難題:

難題1:中文分詞作為中文自然語言理解中的基礎技術,其準確程度直接影響著下游任務的效果。在ES中,ik是常用的中文分詞工具。但由于政務文本的領域特殊性,ik工具的效果受到很大限制。

應對1:針對政務文檔的特殊性,郁金香團隊利用多種語義理解工具,對文檔進行語義信息理解, 通過對文檔進行深度解析,提取出其中的實體名詞、長名詞、專有名詞、新詞等關鍵要素構建了自定義詞典,以保證實際分詞效果。

難題2:檢索模塊中一種常見的誤召回是由于事件主體不匹配導致的。舉例來說,有人提問:“蘇州市如何推行政務服務事項網(wǎng)上辦理?”檢索結果可能是其他地區(qū)“推進政務服務事項網(wǎng)上辦理”的相關內(nèi)容。

應對2:在政務問答請求中,文本的事件主體往往是唯一且一致的。所以在文本理解中,郁金香團隊進行了事件主體的提取,來保證事件主體相匹配。同時為了避免強規(guī)則過濾造成的誤殺,方案將事件主體放到了一個新的索引域中。查詢時如果問句中能夠發(fā)現(xiàn)事件主體,就增加對事件主體索引域的查詢。此外,對于請求中的行政區(qū)劃類事件主體特別設置了對于其上級行政區(qū)劃的容錯處理。

難題3:賽題訓練數(shù)據(jù)較少,閱讀理解模型泛化能力受限。

應對3:郁金香團隊采用集成學習技術,實現(xiàn)了全面的融合模型方案集成模型中內(nèi)含了近二十個基礎模型,并對不同模型智能分配權重。權重的分配取決于模型在驗證集上的表現(xiàn)。對于使用全量數(shù)據(jù)訓練的模型,其權重更高。同時加入Fast Gradient Method(FGM)算法,生成對抗樣本,進一步提高模型的泛化能力。

難題4:政務文檔往往很長,遠超閱讀理解模型的長度限制。在進行閱讀理解任務時,長文檔需要被截斷成多個文本片段。然而簡單的進行定長截斷很容易讓答案丟失,并脫離上下文語境。

應對4:郁金香團隊發(fā)現(xiàn)絕大部分答案都是在一個句子中,所以采用了基于中文分句的分段算法進行文本預處理。具體來說,將中文分句后的句子序列作為文本基本片段,規(guī)定最長子段落是滿足最長序列長度的最長連續(xù)句子序列,得到滿足條件的片段。進而通過衡量兩個子片段的交叉度,優(yōu)化子片段整體冗余度,來選取切分合理的子片段,以保證消除冗余的同時也能降低答案丟失的風險。

多點開花:智能語義搜索引擎的應用

這一智能問答系統(tǒng)的方案不僅在競賽中有出色表現(xiàn),也已經(jīng)在智能搜索、智能問答方實現(xiàn)了應用落地。此方案以自然語言作為交互形式,極大提高了用戶體驗。

據(jù)了解,華夏基金研報智能搜索系統(tǒng)就是應用該方案的典型之一。券商的研報對股民價值很高,但研報長,文字多,投資者要從中獲得對自身有益的投資參考往往耗時耗力。如今,這一研報智能搜索系統(tǒng)針對研報中的預評級、跟蹤報告、走勢圖、調(diào)研紀要、投資建議等搜索意圖,通過NL2SQL以及結合研報問答助手的閱讀理解,幫助投資者更快、更簡單、更效的讀懂研報。只需要一個日常語言的問題,相關關鍵內(nèi)容即時展現(xiàn),極大提高了信息獲取的效率。

此外,基于該技術方案的智能語義搜索引擎產(chǎn)品支持不同行業(yè)不同領域的場景拓展。這一產(chǎn)品用知識圖譜融合行業(yè)領域內(nèi)的知識庫,集成問答助手模型通過自然語言“問答式”的語義輸入為用戶提供更精準的智能檢索服務。

面向政府,這一搜索引擎可以針對政府內(nèi)海量數(shù)據(jù)的治理、語義解析、智能查詢,助力政府搭建智能化信息綜合應用平臺;面向電商,支持針對電商領域目標商品的精準檢索,可根據(jù)用戶畫像推薦更為個性化的搜索結果;面向媒體,支持大型媒體網(wǎng)站的應用場景,將海量信息進行深度整合,深度挖掘數(shù)據(jù)價值;面向金融,通過整合金融市場信息,進行動態(tài)獲取、解析,為金融機構提供更全面、精準的金融數(shù)據(jù)和信息;面向公安,基于公安系統(tǒng)的行業(yè)特點,可以提供針對公安行業(yè)的信息檢索、問題研判和知識管理平臺。

傳統(tǒng)的搜索引擎一般是通過簡單機械式的條件組合進行查詢,交互體驗較差,列表形式過于單一,而且針對多源異構數(shù)據(jù)的處理能力不足。相較而言,智能語義搜索引擎產(chǎn)品支持多源異構數(shù)據(jù)融合,搜索結果形式呈現(xiàn)多樣,支持針對自然語言“問答式”的語義輸入,搜索功能強大,搜索結果也更為便捷。

【小結】基于語義理解的智能對話、智能搜索越來越多地深入我們的日常生活。放眼未來,相關應用依托基于世界構建的巨大的知識圖譜,結合語義理解,提供給用戶前所未有的便捷體驗。相比傳統(tǒng)的檢索技術,以語義理解為基石的智能對話、智能檢索為人機交互提供了更智能、更高效、更善解人意的互動。當搜索不再限于幾個關鍵詞的形態(tài),當搜索引擎對各垂直領域連接程度逐漸加深,智能對話、智能搜索可能真正實現(xiàn)“無處不在”。

 

責任編輯:Captain 來源: 51CTO
相關推薦

2020-02-18 09:08:58

騰訊微信小程序

2021-10-10 22:02:25

比特幣區(qū)塊鏈科技

2020-03-12 13:43:41

人工智能AI疫情防控

2016-10-12 09:07:14

大數(shù)據(jù)打通信息

2020-02-10 18:37:25

微軟

2017-07-03 15:04:35

2020-03-16 16:24:51

華為

2010-01-21 21:54:20

數(shù)據(jù)傳輸系統(tǒng)BRTH3C

2020-02-12 07:21:03

人工智能AI疫情防控

2020-03-04 10:10:07

云計算疫情云辦公

2021-09-13 22:31:24

人工智能疫情技術

2010-01-26 10:04:12

2021-02-03 12:05:39

區(qū)塊鏈疫情數(shù)據(jù)

2017-05-24 09:32:10

政務云方案云計算

2018-01-12 12:23:48

政務信息化場景

2017-03-10 11:00:38

信息孤島智慧政務杭州

2022-11-24 11:00:28

AI人工智能

2021-12-26 10:00:53

大數(shù)據(jù)大數(shù)據(jù)技術

2016-12-12 16:26:09

華為湖北財政廳

2010-01-15 09:46:24

點贊
收藏

51CTO技術棧公眾號