偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

中文自動轉(zhuǎn)SQL,準(zhǔn)確率高達(dá)92%,這位Kaggle大師刷新世界紀(jì)錄

新聞 人工智能
首屆中文NL2SQL挑戰(zhàn)賽上,又一項超越國外水平的NLP研究成果誕生了。在NL2SQL這項任務(wù)上,比賽中的最佳成績達(dá)到了92.19%的準(zhǔn)確率,超過英文NL2SQL數(shù)據(jù)集WikiSQL目前完全匹配精度86.0%,執(zhí)行匹配精度91.8%的最高成績。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

追一科技主辦的首屆中文NL2SQL挑戰(zhàn)賽上,又一項超越國外水平的NLP研究成果誕生了。

在NL2SQL這項任務(wù)上,比賽中的最佳成績達(dá)到了92.19%的準(zhǔn)確率,超過英文NL2SQL數(shù)據(jù)集WikiSQL目前完全匹配精度86.0%,執(zhí)行匹配精度91.8%的最高成績。

達(dá)成這一成績的隊伍的名字很有野心,名叫“不上90不改名字”,團(tuán)隊成員包括來自國防科技大學(xué)的博士張嘯宇、碩士賽斌,來自昂鈦客AI的王蘇宏,他們拿下了本屆比賽的冠軍,抱走了8萬獎金。

[[279191]]

冠軍團(tuán)隊從來自CMU、北大、清華、上交、南大、中科大等多所高校和移動、平安、搜狗等公司的1457支參賽隊伍中脫穎而出,超過92%的成績,讓比賽評委、復(fù)旦大學(xué)教授肖仰華驚喜的說:“結(jié)果完全超出預(yù)期”。

而另一位評委、比賽主辦方追一科技的CTO劉云峰說,該任務(wù)的準(zhǔn)確率從比賽初期最好成績60%多提升到超過92.19%的水平,提升幅度超出了他們原本的想象。

而且由于本次比賽用到的中文數(shù)據(jù)集難度比WikiSQL英文數(shù)據(jù)集要高,證明在同樣設(shè)定下,冠軍團(tuán)隊的方案已經(jīng)超過了國外機(jī)構(gòu)最佳算法(state-of-the-art)在中文任務(wù)上的表現(xiàn)。

NL2SQL最佳方法揭秘

NL2SQL,也就是把自然語言“翻譯”成機(jī)器能理解的SQL語句,在人機(jī)交互中有巨大的價值,這樣的成績意味著,92.19%的情況下,你說的話都能被機(jī)器準(zhǔn)確的理解,并給到你想要的答案。

那么,既然機(jī)器能理解人話,那從紛繁復(fù)雜的數(shù)據(jù)庫中找到資料也是更為容易的事情了。

肖仰華教授說,現(xiàn)在阻礙大數(shù)據(jù)價值變現(xiàn)的最大難題就是訪問數(shù)據(jù)門檻太高,依賴數(shù)據(jù)庫管理員寫復(fù)雜的SQL,而且考慮到中文的表述更加多樣,中文NL2SQL要比英文難很多。

[[279192]]

 肖仰華教授

因此,解決了從中文人類語言到SQL這種計算機(jī)語言的轉(zhuǎn)化問題,那些和你對話的AI系統(tǒng)們,就會變得更“聰明”,更容易理解你的問題并找到答案,App里的智能客服、家里的智能音箱們一問三不知的情況也會少很多。

針對中文NL2SQL的問題,冠軍團(tuán)隊的張嘯宇在比賽答辯中揭秘了實現(xiàn)的方法:

[[279193]]

 冠軍隊隊長張嘯宇

WikiSQL排行榜上的第一名、來自微軟Dynamics 365團(tuán)隊的X-SQL有一些問題,模型框架不完全適配,在value抽取上colume特征不顯著,容易抽取混亂。

針對這些問題,冠軍團(tuán)隊提出了M-SQL,將原本X-SQL的6個子任務(wù)改為8個子任務(wù),并且增加三個子模型,S-num、Value抽取、Value匹配,一次性將query中含有的所有Value抽取出來,并對value和數(shù)據(jù)庫表字段的隸屬關(guān)系進(jìn)行判斷。

之后進(jìn)行了一些細(xì)節(jié)提升,比如在數(shù)據(jù)預(yù)處理方面,將數(shù)據(jù)、年份、單位、日期、同義詞進(jìn)行修正,統(tǒng)一query的范式;在query信息表達(dá)方面,用XLS標(biāo)記替換CLS標(biāo)記,這樣在線下驗證集上準(zhǔn)確率提高了0.3個百分點。

用到的預(yù)訓(xùn)練模型,則是哈工大發(fā)布的BERT-wwm-ext模型。

最終的成果,張嘯宇覺得非常滿意:“我覺得機(jī)器轉(zhuǎn)的比我好,大言不慚的說,已經(jīng)超過了人類的水平。”

冠軍團(tuán)隊

“不上90不改名字”隊伍的隊長張嘯宇是一名國防生,也是一位競賽熱愛者,專注NLP領(lǐng)域。他在2018年萊斯杯軍事閱讀理解挑戰(zhàn)賽上獲得第二名;在2019年的Kaggle PetFinder比賽上獲得金牌,現(xiàn)在是榜上有名的Kaggle Master了。

中文自動轉(zhuǎn)SQL,準(zhǔn)確率高達(dá)92%,這位Kaggle大師刷新世界紀(jì)錄

另一位隊員賽斌則是他在國防科大的同學(xué),王蘇宏則是他在Kaggle社區(qū)結(jié)識的一位隊友,目前也是Kaggle排行榜上前1000名的用戶。

中文自動轉(zhuǎn)SQL,準(zhǔn)確率高達(dá)92%,這位Kaggle大師刷新世界紀(jì)錄

雖然取得了冠軍,不過這個團(tuán)隊籌備比賽的時間卻比其他隊伍晚了一些,他們開始準(zhǔn)備的時候,其他團(tuán)隊已經(jīng)進(jìn)行了兩個星期。

剩下的時間只有一個月了。在這一個月的準(zhǔn)備時間里,三人每天都在線上協(xié)同商量方案,平均下來基本每天都要工作五六個小時。

對于第一名的成績,他們感到毫不意外。畢竟在排行榜上已經(jīng)是第一名,準(zhǔn)確度也在這項任務(wù)上實現(xiàn)了業(yè)界領(lǐng)先,奪得第一當(dāng)之無愧。

最后,關(guān)于比賽的經(jīng)驗,張嘯宇總結(jié)地非常簡單:多敲代碼,多看paper。

幫技術(shù)的“錘子”,找場景的“釘子”

追一科技總部在深圳,另外在北京、上海、南京、香港、新加坡、白俄羅斯也有研發(fā)團(tuán)隊或分公司。

成立3年來,追一已經(jīng)完成了來自招商局資本、創(chuàng)新工場、晨興資本、高榕資本、紀(jì)源資本的4輪投資,總計融資額7000萬美元,招商銀行信用卡、中國移動、南方電網(wǎng)、中國人保、騰訊都是追一的客戶。

從融資規(guī)模上來看,可以說這家騰訊系的AI公司已經(jīng)是 國內(nèi)NLP領(lǐng)域的領(lǐng)頭羊了。

技術(shù)方面,追一在各項NLP任務(wù)上都有所突破,拿到了CoQA、CMRC2018 中文機(jī)器閱讀理解等挑戰(zhàn)的冠軍。

而在NL2SQL這個任務(wù)上,曾經(jīng)在騰訊達(dá)到T4職級的劉云峰說,中文NL2SQL在比賽之前只有追一和微軟兩家,通過這場比賽,如果能達(dá)到眾人拾柴火焰高的目的,就可以將這項技術(shù)推廣出去了:

“客戶這邊有一個釘子,但是不知道用什么錘子來砸;但是我們這些搞AI的公司有一個錘子,不知道去哪里找釘子。通過這個比賽我們可以很好地把釘子和錘子匹配在一起,給技術(shù)找到落地的場景。”

從NLP到計算機(jī)視覺

值得注意的是,本次比賽雖說是在NLP領(lǐng)域的賽事,但仍然吸引了不少計算機(jī)視覺方面的研究者參賽,闖入決賽的隊伍“大佬帶我飛”中的兩名成員就是CV方面的研究生。

[[279194]]

 追一科技CTO劉云峰

評委追一科技CTO劉云峰認(rèn)為,在工業(yè)落地時,現(xiàn)在越來越呈現(xiàn)出多模態(tài)融合的趨勢,視覺和NLP結(jié)合的越來越多,需要同時處理多種信號,人機(jī)交互的時候也不僅僅用到NLP方面的技術(shù),也需要用到視覺方面的技術(shù),追一科技作為一家NLP公司,本身也有視覺、語音方面的技術(shù)團(tuán)隊。

“AI公司主要做企業(yè)服務(wù),一個企業(yè)不會只要一個方向(的技術(shù)),他同時要NLP、視覺的時候不會找兩家公司,因為他自己沒法把兩個技術(shù)融合在一起。”

因此劉云峰判斷,未來頭部AI公司一定是全棧AI公司,雖然會有最拿手的技術(shù),但不會只布局一個領(lǐng)域的技術(shù)。

最后,本屆比賽的數(shù)據(jù)集之后也會公開,或許這會是NLP領(lǐng)域下一個競相角逐的高地。

追一科技主辦的首屆中文NL2SQL挑戰(zhàn)賽上,又一項超越國外水平的NLP研究成果誕生了。

在NL2SQL這項任務(wù)上,比賽中的最佳成績達(dá)到了92.19%的準(zhǔn)確率,超過英文NL2SQL數(shù)據(jù)集WikiSQL目前完全匹配精度86.0%,執(zhí)行匹配精度91.8%的最高成績。

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2018-08-03 16:09:42

搜狗

2011-03-23 10:20:25

中興光通信100G

2018-07-03 09:37:12

量子計算機(jī)編碼

2021-04-25 21:26:47

量子芯片U盤

2024-06-03 12:03:56

2020-05-21 10:06:23

支付寶OceanBaseTPC-C

2020-05-21 10:26:35

數(shù)據(jù)庫

2011-11-17 13:13:18

戴爾服務(wù)器

2018-11-14 10:01:30

谷歌開源機(jī)器學(xué)習(xí)

2014-10-23 16:22:05

華為

2014-11-03 16:07:03

華為服務(wù)器

2016-06-20 17:55:18

戴爾閃存

2017-11-14 12:27:44

ThinkSystem

2019-02-21 22:25:18

曙光

2020-10-09 08:31:00

AI

2017-05-18 16:52:44

阿里云人工智能NASA計劃

2016-09-02 14:53:11

戴爾

2013-09-18 15:30:42

華為服務(wù)器華為RH5885 V2

2023-08-15 14:55:57

點贊
收藏

51CTO技術(shù)棧公眾號