偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

“郁金香”打造智能問答助手,暢通疫情防控期政務(wù)信息觸達(dá)渠道

新聞 人工智能
面對(duì)突如其來的疫情,大眾對(duì)于信息的即時(shí)性、透明度和傳達(dá)效率有了更高的關(guān)注。

面對(duì)突如其來的疫情,大眾對(duì)于信息的即時(shí)性、透明度和傳達(dá)效率有了更高的關(guān)注。在此背景下,北京市經(jīng)濟(jì)和信息化局和CCF大數(shù)據(jù)專家委員會(huì),聯(lián)合北京智源人工智能研究院,共同舉辦了科技戰(zhàn)疫·大數(shù)據(jù)公益挑戰(zhàn)賽。一支名為“郁金香”的算法團(tuán)隊(duì)在595支參賽隊(duì)伍中表現(xiàn)突出,取得了A榜第、B榜第的不俗成績

據(jù)悉,郁金香是一支算法和工程經(jīng)驗(yàn)豐富的業(yè)界團(tuán)隊(duì),其成員以一覽群智公司成員為主,也有來自于印信科技的得力外援。成員都是深耕NLP深度學(xué)習(xí)、信息檢索/互聯(lián)網(wǎng)搜索、數(shù)據(jù)挖掘等領(lǐng)域的資深專家。整個(gè)算法開發(fā)從立項(xiàng)到測評(píng)結(jié)束歷時(shí)30天。

本次比賽通過DataFountain平臺(tái)進(jìn)行,圍繞“疫情政務(wù)問答助手”這一賽題展開。疫情政務(wù)問答助手旨在通過對(duì)惠民惠企政策數(shù)據(jù)的收集與處理,通過人機(jī)對(duì)話式問答的方式,對(duì)用戶提出的政策疑問快速、準(zhǔn)確地定位相關(guān)政策文檔以及其內(nèi)相關(guān)內(nèi)容返回給用戶,幫助各行業(yè)企業(yè)準(zhǔn)確掌握相關(guān)政策,更好地復(fù)工復(fù)產(chǎn)。

疫情政務(wù)問答是一個(gè)結(jié)合全文檢索和閱讀理解的復(fù)雜任務(wù),其任務(wù)設(shè)置非常貼近人類在面對(duì)信息時(shí)的判斷邏輯:面對(duì)問題,參賽系統(tǒng)不光要找出文檔庫中的相關(guān)文檔,還要定位出其中跟問題最相關(guān)的內(nèi)容。這就跟人類在文檔中檢索時(shí)的流程類似:為什么這個(gè)文檔與問題最相關(guān)?是因?yàn)?/span>里面有這么一段話,能夠最好地回答待解決的問題。 

有的放矢:直面疫情政務(wù)問答復(fù)雜

對(duì)于學(xué)界大部分機(jī)器閱讀理解任務(wù)數(shù)據(jù)集,提問及其答案所在文檔往往是直接對(duì)應(yīng)的,閱讀理解模型無須在海量文檔中去尋找相關(guān)文檔。但在真實(shí)場景中,對(duì)于用戶給出的一個(gè)問題,首先我們需要確定其答案在哪個(gè)文檔中,然后才能通過閱讀理解模型來找出實(shí)際答案。而這個(gè)答案文檔往往需要通過檢索這一步驟得到。因而在疫情政務(wù)問答這個(gè)任務(wù)中,其中有兩個(gè)因素會(huì)影響任務(wù)效果:其一,檢索模塊不一定能夠保證精準(zhǔn)召回包含答案的文檔;其二,在召回的多篇可能存在答案的文檔里,正確答案所在的位置不確定。而且政務(wù)文檔篇幅一般都很長,答案可能也很長,這也會(huì)加大任務(wù)難度。

在信息檢索和認(rèn)知智能方面的深厚經(jīng)驗(yàn)和快速迭代改善模型的能力,是郁金香團(tuán)隊(duì)成功的兩大關(guān)鍵。郁金香團(tuán)隊(duì)采用基于ElasticSearch的全文檢索模塊和基于Transformer結(jié)構(gòu)的閱讀理解模型方案,綜合展示了其在問題理解、內(nèi)容搜索、答案提取等多個(gè)環(huán)節(jié)的全面算法能力。問答系統(tǒng)主要分為“信息檢索”和“閱讀理解”兩部分。“郁金香”在設(shè)計(jì)疫情政務(wù)問答系統(tǒng)時(shí)以競賽為目標(biāo)、實(shí)用性為導(dǎo)向,針對(duì)疫情文本的領(lǐng)域特殊性,在整個(gè)方案的細(xì)節(jié)上進(jìn)行了多重優(yōu)化。整體方案在競賽中取得了優(yōu)異成績,也再次驗(yàn)證了相關(guān)文本理解技術(shù)通用方案的先進(jìn)性。

在競賽中,郁金香團(tuán)隊(duì)攻克了幾大技術(shù)難題:

難題1:中文分詞作為中文自然語言理解中的基礎(chǔ)技術(shù),其準(zhǔn)確程度直接影響著下游任務(wù)的效果。在ES中,ik是常用的中文分詞工具。但由于政務(wù)文本的領(lǐng)域特殊性,ik工具的效果受到很大限制。

應(yīng)對(duì)1:針對(duì)政務(wù)文檔的特殊性,郁金香團(tuán)隊(duì)利用多種語義理解工具,對(duì)文檔進(jìn)行語義信息理解, 通過對(duì)文檔進(jìn)行深度解析,提取出其中的實(shí)體名詞、長名詞、專有名詞、新詞等關(guān)鍵要素,構(gòu)建了自定義詞典,以保證實(shí)際分詞效果。

難題2:檢索模塊中一種常見的誤召回是由于事件主體不匹配導(dǎo)致的。舉例來說,有人提問:“蘇州市如何推行政務(wù)服務(wù)事項(xiàng)網(wǎng)上辦理?”檢索結(jié)果可能是其他地區(qū)“推進(jìn)政務(wù)服務(wù)事項(xiàng)網(wǎng)上辦理”的相關(guān)內(nèi)容。

應(yīng)對(duì)2:在政務(wù)問答請求中,文本的事件主體往往是唯一且一致的。所以在文本理解中,郁金香團(tuán)隊(duì)進(jìn)行了事件主體的提取,來保證事件主體相匹配。同時(shí)為了避免強(qiáng)規(guī)則過濾造成的誤殺,方案將事件主體放到了一個(gè)新的索引域中。查詢時(shí)如果問句中能夠發(fā)現(xiàn)事件主體,就增加對(duì)事件主體索引域的查詢。此外,對(duì)于請求中的行政區(qū)劃類事件主體特別設(shè)置了對(duì)于其上級(jí)行政區(qū)劃的容錯(cuò)處理。

難題3:賽題訓(xùn)練數(shù)據(jù)較少,閱讀理解模型泛化能力受限。

應(yīng)對(duì)3:郁金香團(tuán)隊(duì)采用集成學(xué)習(xí)技術(shù),實(shí)現(xiàn)了全面的融合模型方案集成模型中內(nèi)含了近二十個(gè)基礎(chǔ)模型,并對(duì)不同模型智能分配權(quán)重。權(quán)重的分配取決于模型在驗(yàn)證集上的表現(xiàn)。對(duì)于使用全量數(shù)據(jù)訓(xùn)練的模型,其權(quán)重更高。同時(shí)加入Fast Gradient Method(FGM)算法,生成對(duì)抗樣本,進(jìn)一步提高模型的泛化能力。

難題4:政務(wù)文檔往往很長,遠(yuǎn)超閱讀理解模型的長度限制。在進(jìn)行閱讀理解任務(wù)時(shí),長文檔需要被截?cái)喑啥鄠€(gè)文本片段。然而簡單的進(jìn)行定長截?cái)嗪苋菀鬃尨鸢竵G失,并脫離上下文語境。

應(yīng)對(duì)4:郁金香團(tuán)隊(duì)發(fā)現(xiàn)絕大部分答案都是在一個(gè)句子中,所以采用了基于中文分句的分段算法進(jìn)行文本預(yù)處理。具體來說,將中文分句后的句子序列作為文本基本片段,規(guī)定最長子段落是滿足最長序列長度的最長連續(xù)句子序列,得到滿足條件的片段。進(jìn)而通過衡量兩個(gè)子片段的交叉度,優(yōu)化子片段整體冗余度,來選取切分合理的子片段,以保證消除冗余的同時(shí)也能降低答案丟失的風(fēng)險(xiǎn)。

多點(diǎn)開花:智能語義搜索引擎的應(yīng)用

這一智能問答系統(tǒng)的方案不僅在競賽中有出色表現(xiàn),也已經(jīng)在智能搜索、智能問答方實(shí)現(xiàn)了應(yīng)用落地。此方案以自然語言作為交互形式,極大提高了用戶體驗(yàn)。

據(jù)了解,華夏基金研報(bào)智能搜索系統(tǒng)就是應(yīng)用該方案的典型之一。券商的研報(bào)對(duì)股民價(jià)值很高,但研報(bào)長,文字多,投資者要從中獲得對(duì)自身有益的投資參考往往耗時(shí)耗力。如今,這一研報(bào)智能搜索系統(tǒng)針對(duì)研報(bào)中的預(yù)評(píng)級(jí)、跟蹤報(bào)告、走勢圖、調(diào)研紀(jì)要、投資建議等搜索意圖,通過NL2SQL以及結(jié)合研報(bào)問答助手的閱讀理解,幫助投資者更快、更簡單、更效的讀懂研報(bào)。只需要一個(gè)日常語言的問題,相關(guān)關(guān)鍵內(nèi)容即時(shí)展現(xiàn),極大提高了信息獲取的效率。

此外,基于該技術(shù)方案的智能語義搜索引擎產(chǎn)品支持不同行業(yè)不同領(lǐng)域的場景拓展。這一產(chǎn)品用知識(shí)圖譜融合行業(yè)領(lǐng)域內(nèi)的知識(shí)庫,集成問答助手模型通過自然語言“問答式”的語義輸入為用戶提供更精準(zhǔn)的智能檢索服務(wù)。

面向政府,這一搜索引擎可以針對(duì)政府內(nèi)海量數(shù)據(jù)的治理、語義解析、智能查詢,助力政府搭建智能化信息綜合應(yīng)用平臺(tái);面向電商,支持針對(duì)電商領(lǐng)域目標(biāo)商品的精準(zhǔn)檢索,可根據(jù)用戶畫像推薦更為個(gè)性化的搜索結(jié)果;面向媒體,支持大型媒體網(wǎng)站的應(yīng)用場景,將海量信息進(jìn)行深度整合,深度挖掘數(shù)據(jù)價(jià)值;面向金融,通過整合金融市場信息,進(jìn)行動(dòng)態(tài)獲取、解析,為金融機(jī)構(gòu)提供更全面、精準(zhǔn)的金融數(shù)據(jù)和信息;面向公安,基于公安系統(tǒng)的行業(yè)特點(diǎn),可以提供針對(duì)公安行業(yè)的信息檢索、問題研判和知識(shí)管理平臺(tái)。

傳統(tǒng)的搜索引擎一般是通過簡單機(jī)械式的條件組合進(jìn)行查詢,交互體驗(yàn)較差,列表形式過于單一,而且針對(duì)多源異構(gòu)數(shù)據(jù)的處理能力不足。相較而言,智能語義搜索引擎產(chǎn)品支持多源異構(gòu)數(shù)據(jù)融合,搜索結(jié)果形式呈現(xiàn)多樣,支持針對(duì)自然語言“問答式”的語義輸入,搜索功能強(qiáng)大,搜索結(jié)果也更為便捷。

【小結(jié)】基于語義理解的智能對(duì)話、智能搜索越來越多地深入我們的日常生活。放眼未來,相關(guān)應(yīng)用依托基于世界構(gòu)建的巨大的知識(shí)圖譜,結(jié)合語義理解,提供給用戶前所未有的便捷體驗(yàn)。相比傳統(tǒng)的檢索技術(shù),以語義理解為基石的智能對(duì)話、智能檢索為人機(jī)交互提供了更智能、更高效、更善解人意的互動(dòng)。當(dāng)搜索不再限于幾個(gè)關(guān)鍵詞的形態(tài),當(dāng)搜索引擎對(duì)各垂直領(lǐng)域連接程度逐漸加深,智能對(duì)話、智能搜索可能真正實(shí)現(xiàn)“無處不在”。

 

責(zé)任編輯:Captain 來源: 51CTO
相關(guān)推薦

2020-02-18 09:08:58

騰訊微信小程序

2021-10-10 22:02:25

比特幣區(qū)塊鏈科技

2016-10-12 09:07:14

大數(shù)據(jù)打通信息

2020-03-12 13:43:41

人工智能AI疫情防控

2020-02-10 18:37:25

微軟

2017-07-03 15:04:35

2020-03-16 16:24:51

華為

2020-03-04 10:10:07

云計(jì)算疫情云辦公

2020-02-12 07:21:03

人工智能AI疫情防控

2010-01-21 21:54:20

數(shù)據(jù)傳輸系統(tǒng)BRTH3C

2021-09-13 22:31:24

人工智能疫情技術(shù)

2010-01-26 10:04:12

2021-02-03 12:05:39

區(qū)塊鏈疫情數(shù)據(jù)

2018-01-12 12:23:48

政務(wù)信息化場景

2017-05-24 09:32:10

政務(wù)云方案云計(jì)算

2017-03-10 11:00:38

信息孤島智慧政務(wù)杭州

2021-12-26 10:00:53

大數(shù)據(jù)大數(shù)據(jù)技術(shù)

2022-11-24 11:00:28

AI人工智能

2016-12-12 16:26:09

華為湖北財(cái)政廳

2010-01-15 09:46:24

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)