偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

逆天的語言AI模型來了！編故事以假亂真，問答翻譯寫摘要都行

作者：乾明，安妮，栗子 2019-02-15 14:33:56

AI寫起文章來文思泉涌毫無違和感，無需針對性訓(xùn)練就能橫掃各種特定領(lǐng)域的語言建模任務(wù)，還具備閱讀理解、問答、生成文章摘要、翻譯等等能力。

本文經(jīng)AI新媒體量子位（公眾號 ID: QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處

AI一本正經(jīng)的“胡編”起來，已經(jīng)逼真的讓人不敢相信。

剛剛，OpenAI發(fā)布了一個“逆天”的語言AI，整個模型包含15億個參數(shù)。

這個AI寫起文章來文思泉涌毫無違和感，無需針對性訓(xùn)練就能橫掃各種特定領(lǐng)域的語言建模任務(wù)，還具備閱讀理解、問答、生成文章摘要、翻譯等等能力。

因?yàn)榧傩侣剬?shí)在編的太真實(shí)，OpenAI說：我們不敢放出完整模型。

它的作品究竟什么樣呢?

人類只給了它兩句話的開頭：

科學(xué)家們有個令人震驚的發(fā)現(xiàn)，在安第斯山脈一個偏遠(yuǎn)且沒被開發(fā)過的山谷里，生活著一群獨(dú)角獸。更加讓人訝異的是，這些獨(dú)角獸說著流利的英文。

AI就順著這胡言亂語的設(shè)定，一本正經(jīng)地編了下去 (欲賞全篇請見文末) ：

這些生物有著獨(dú)特的角，科學(xué)家們就以此為它們命名，叫Ovid’s Unicorn。長著四只角的銀白色生物，在這之前并不為科學(xué)界所知。

……

雖然，這些生物的起源還不清楚，但有些人相信，它們是一個人和一個獨(dú)角獸相交而誕生的，那時(shí)人類文明還不存在。Pérez教授說：“在南美洲，這樣的現(xiàn)象很常見。”

……

天馬行空卻言之鑿鑿。幾乎沒有矛盾信息，甚至在結(jié)尾嚴(yán)謹(jǐn)?shù)乇砻鳎?/p>

如果要確認(rèn)它們是消失種族的后裔，DNA檢測可能是比較有效的方法。

這位AI寫手，名叫GPT-2。

它訓(xùn)練用的數(shù)據(jù)，都是人類寫作的原始文本。無監(jiān)督學(xué)習(xí)過程，純潔無污染。

對此，深度學(xué)習(xí)之父Hinton獻(xiàn)出了他注冊Twitter以來的第三次評論：

這應(yīng)該能讓硅谷的獨(dú)角獸們生成更好的英語了。

看來是讀了AI編的獨(dú)角獸新聞報(bào)道有感。

DeepMind研究員、星際AI AlphaStar的主要爸爸Oriol Vinyals也大肆贊美了同行：

規(guī)模化+計(jì)算力，深度學(xué)習(xí)不會讓人失望。恭喜Alec Radford、Ilya Sutskever等等!

由于AI生成的假消息太過真實(shí)，OpenAI的開源動作也變得十分謹(jǐn)慎。與以往不同，這一次開源的內(nèi)容，沒有完整的預(yù)訓(xùn)練模型，只放出了一個1.17億參數(shù)的“縮小版”。

媒體也紛紛認(rèn)為，GPT-2是個危險(xiǎn)的存在：

來自The Verge

如果所托非人，GPT2便會成為一臺挖掘機(jī)，挖出無盡的痛苦和仇恨。

而且，造假新聞只是GPT-2的冰山一角，你想要的技能它都有。

在不需要對任何其他任務(wù)進(jìn)行針對性訓(xùn)練的情況下，GPT-2還能完成閱讀理解、常識推理、文字預(yù)測、文章總結(jié)等多種任務(wù)，效果好到讓人懷疑：這個模型后面單怕藏著一位語文老師吧!

語言模型全能王

這位N項(xiàng)全能的“語文老師”，就是“語言建模”(language modeling)。

OpenAI的研究人員表示，在各種特定領(lǐng)域數(shù)據(jù)集的語言建模測試中，GPT-2都取得了優(yōu)異的分?jǐn)?shù)。作為一個沒有經(jīng)過任何領(lǐng)域數(shù)據(jù)專門訓(xùn)練的模型，它的表現(xiàn)，比那些專為特定領(lǐng)域打造的模型還要好。

下圖為研究人員統(tǒng)計(jì)的不同類型任務(wù)的成績對比圖，其中，(+)表示此領(lǐng)域得分越高越好，(-)表示此領(lǐng)域得分越低越好：

△ GPT-2在不同語言建模任務(wù)上的測試結(jié)果(從左到右：數(shù)據(jù)集名稱、指標(biāo)類型、GPT-2測試結(jié)果、此前比較好的結(jié)果、人類水平)

除了能用于語言建模，GPT-2在問答、閱讀理解、摘要生成、翻譯等等任務(wù)上，無需微調(diào)就能去的非常好的成績。

從人類的感官角度來評判，GPT-2的效果也出奇得好。

不信?不信一起來考考它。

第一題(閱讀理解)：一篇讓小學(xué)四年級學(xué)生卡了半天的閱讀理解

閱讀下列材料回答問題：

3月24日，火炬在希臘奧林匹亞奧林匹克運(yùn)動會的發(fā)源地點(diǎn)燃后，將傳遞至雅典的帕納辛奈科體育場，并于3月31日傳遞至北京。從北京開始，火炬將經(jīng)過六大洲，途經(jīng)絲綢之路沿線的城市。此次接力還會將火炬送上珠穆朗瑪峰，這是接力的最后一站。

問題1：接力從哪里開始?
問題2：這個地方有什么值得注意的嗎?
問題3：這場接力進(jìn)行了多少天了?
問題4：他們有沒有訪問過任何著名的地標(biāo)?

這樣一段考驗(yàn)對時(shí)政、地理和生詞理解能力的閱讀理解，一個成年人認(rèn)真讀下來尚且還需要轉(zhuǎn)換思維多思考一番，但對GPT-2來說，找出正確答案是分分鐘的事：

希臘奧林匹亞;是奧林匹克運(yùn)動會的發(fā)源地;七天;帕納辛奈科體育場。

第一題：全對✅

第二題(常識推理)：容易讓人摸不著頭腦的模糊代詞

閱讀下面句子，回答“它”指代的部分：

1、獎杯放不進(jìn)棕色旅行箱，因?yàn)樗罅恕?/p>

2、獎杯放不進(jìn)棕色手提箱，因?yàn)樗×?/p>

5秒思考，請作答。

這兩句“含糊不清”的句子并沒有難到GPT-2，它的答案分別為獎杯、行李箱。

第二題，沒毛病✅。

第三題(文章總結(jié))：考試中讓中學(xué)生頭大的主旨概括

閱讀下類材料，概括文章內(nèi)容。

(這份材料來自外媒Daily Mail的一篇報(bào)道，全文字圖交雜，Word粗略統(tǒng)計(jì)共1300多字。文章篇幅限制，量子位在這里把材料“閹割”了)

36000年前，史前人類在現(xiàn)代法國一個洞穴的粗糙石灰?guī)r墻壁上勾勒出了一系列令人難以置信的史前野獸……(省略若干字)…………現(xiàn)在，在先進(jìn)技術(shù)的幫助下，Chauvet-Pont-d’Arc洞穴的藝術(shù)作品被復(fù)制，創(chuàng)造了世界超大的復(fù)制洞穴。

不錯，一段看起來就“很閱讀理解”的樸素文風(fēng)，GPT-2的處理情況如何?還不錯：

位于法國南部Vallon-Pont-D’arc的原始遺址是聯(lián)合國教科文組織世界遺產(chǎn)，是已知最古老、保存最完好的人類裝飾洞穴。復(fù)制洞穴距離法國南部Vallon-Pont-D’Arc的原址幾英里，洞穴內(nèi)包含14種不同動物的圖像，包括長毛犀，猛犸象和大型貓科動物。

第三題，非常好✅

怎么樣，感受到GPT-2的威力了么?關(guān)于GPT-2做題的例子還有很多，文末的OpenAI博客原文，還可以查看更多。

它是怎么做的?

GPT-2，是GPT的“進(jìn)化版”，比較大區(qū)別就在于規(guī)模大小。OpenAI在官方博客中表示，兩者相比，GPT-2的參數(shù)擴(kuò)大10倍，達(dá)到了15億個，數(shù)據(jù)量擴(kuò)大10倍，使用了包含800萬個網(wǎng)頁的數(shù)據(jù)集，共有40GB。

但在很大程度上，模型還是和GPT一樣：

使用語言建模作為訓(xùn)練信號，以無監(jiān)督的方式在大型數(shù)據(jù)集上訓(xùn)練一個Transformer，然后在更小的監(jiān)督數(shù)據(jù)集上微調(diào)這個模型，以幫助它解決特定任務(wù)。

△GPT模型

上圖左部分，是研究中使用的Transformer架構(gòu)以及訓(xùn)練目標(biāo)。右邊部分，是針對特定任務(wù)進(jìn)行微調(diào)。

將所有結(jié)構(gòu)化輸入轉(zhuǎn)換為token序列，由預(yù)訓(xùn)練模型處理，然后經(jīng)過線性+softmax層處理。

就GPT-2而言，它的訓(xùn)練目標(biāo)很簡單：根據(jù)所有給定文本中前面的單詞，預(yù)測下一個單詞。

由于訓(xùn)練數(shù)據(jù)集的多樣性，使得這個目標(biāo)非常簡單的模型，具備了解決不同領(lǐng)域各種問題的能力。

一把雙刃劍

顯然，GPT-2這樣一個強(qiáng)大的通用模型，會帶來巨大的社會影響。

比如，它能用于開發(fā)AI寫作助理、更強(qiáng)大的語音助手、提高不同語言之間無監(jiān)督翻譯的性能，甚至構(gòu)建更好的語音識別系統(tǒng)。

但同樣，它同樣也能用來干壞事，就像用圖像合成的研究造假一樣，比如deepfake，讓多少人苦不堪言。

GPT-2可以用來生成具有誤導(dǎo)性的新聞報(bào)道、自動生成垃圾郵件、偽造內(nèi)容發(fā)布到社交媒體上等等等等。

這個研究，加上先前圖像、音頻、視頻合成與生成的研究，能夠大幅度降低制作虛假內(nèi)容的成本。

以后你在網(wǎng)絡(luò)上看到的東西，是真是假，可能就很難分辨了。

為了避免這種情況發(fā)生，OpenAI表示，不會發(fā)布經(jīng)過訓(xùn)練的模型，為了能夠讓更多的研究人員進(jìn)行試驗(yàn)，發(fā)布了一個更小的模型以及技術(shù)論文。

這個“防止惡意應(yīng)用，不開放完整模型”的決定也引來了不少質(zhì)疑。

其中最激烈的，來自英偉達(dá)研究負(fù)責(zé)人Anima Anandkumar。

她說：“Malicious BS”。大致相當(dāng)于中文的“惡意個P”。

這位Anima，曾經(jīng)逼得頂會NIPS改了名，正面硬剛Yann LeCun，最近在呼吁學(xué)術(shù)會議強(qiáng)制投稿者公開源代碼。

不愿開放完整模型的OpenAI，被Anima斥責(zé)“為了站道德高地本末倒置”，站在了open的對立面，傳播恐懼、誤導(dǎo)媒體。

你怎么看?

無論觀點(diǎn)如何，如果你對這項(xiàng)研究感興趣，請先收好傳送門：

模型代碼：

https://github.com/openai/gpt-2

技術(shù)論文：

Language Models are Unsupervised Multitask Learners

這項(xiàng)研究的作者分別是Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei、Ilya Sutskever。

其中Ilya Sutskever是OpenAI的首席科學(xué)家，是AlexNet、seq2seq、AlphaGo、TensorFlow等人工智能領(lǐng)域重要成果的共同創(chuàng)造者。

論文地址：https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

最后，附上AI撰寫的關(guān)于獨(dú)角獸的全文：

(人類給的開頭：)

科學(xué)家們有個令人震驚的發(fā)現(xiàn)，在安第斯山脈一個偏遠(yuǎn)且沒被開發(fā)過的山谷里，生活著一群獨(dú)角獸。更加讓人訝異的是，這些獨(dú)角獸說著流利的英文。

(AI編的下文：)

這些生物長著獨(dú)特的角，科學(xué)家們就以此為它們命名，叫Ovid’s Unicorn。長著四只角的銀白色生物，在這之前并不為科學(xué)界所知。

現(xiàn)在，過了近兩個世紀(jì)，這個奇異的現(xiàn)象到底是怎么發(fā)現(xiàn)的，謎底終于解開了。

來自拉巴斯大學(xué)的進(jìn)化生物學(xué)教授Jorge Pérez和他的幾個小伙伴，在探索安第斯山脈的時(shí)候發(fā)現(xiàn)了一個小山谷，沒有其他動物也沒有人類。

Pérez注意到，這山谷看上去曾是個噴泉的所在，旁邊是兩座石峰，上面有銀白的雪。

然后，Pérez他們就深入探尋這個山谷。“我們爬上其中一座山峰的時(shí)候，下面的水很藍(lán)，上面還有一些結(jié)晶。”Pérez說。

發(fā)現(xiàn)獨(dú)角獸種群的時(shí)候，Pérez和他的小伙伴都驚呆了。都不用靠近，從高空就可以望見這些生物——看上去離得很近，就快摸到它們的角了。

在查看這些奇怪生物的時(shí)候，科學(xué)家們發(fā)現(xiàn)它們講著普通的英文。Pérez說：“比如說，我們注意到，它們有一種共同‘語言’，有點(diǎn)接近方言。”

Pérez認(rèn)為，這些獨(dú)角獸起源于阿根廷。在那里，人們相信這些動物是一個消失種族的后裔，在人類到達(dá)之前，這個種族就生活在那里。

雖然，這些生物的起源還不清楚，但有些人相信，它們是一個人類和一個獨(dú)角獸相交而誕生的，那時(shí)人類文明還不存在。Pérez說：“在南美洲，這樣的事情是很常見的。”

然而，Pérez也指出，要確認(rèn)它們是不是那個消失種族的后裔，DNA檢測可能是非常有效的方法。“不過，它們看上去能用英語交流，我相信這也是一種進(jìn)化的信號，或者至少也是社會組織的一種變化。”他說。

責(zé)任編輯：武曉燕來源：量子位

AI模型翻譯語言

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<thead id="5kt7q"><b id="5kt7q"></b></thead>