OpenAI又一顆「重磅炸彈」:賦予AI藝術(shù)創(chuàng)造力
OpenAI再次投下一顆重磅炸彈。
本月初,曾于去年夏季推出高人氣語(yǔ)言模型GPT-3的OpenAI研究小組再次公布一套名為DALL-E的全新AI模型。雖然它在熱度上不及GPT-3,但卻很可能對(duì)AI的未來(lái)發(fā)展擁有更加深遠(yuǎn)的影響。
簡(jiǎn)而言之,DALL-E能夠?qū)⑽谋久枋鲎鳛檩斎耄瑩?jù)此生成原始圖像輸出。(DALL-E這一名稱,源自對(duì)超現(xiàn)實(shí)主義藝術(shù)家薩爾瓦多·達(dá)利及皮克斯工作室創(chuàng)造的可愛(ài)機(jī)器人形象WALL-E的致敬。)
例如,當(dāng)輸入“五角形綠色時(shí)鐘”、“火球”或者“建筑物墻面上的藍(lán)色南瓜壁畫(huà)”之后,DALL-E即可生成令人震驚的準(zhǔn)確視覺(jué)效果。
▲ 在要求生成“建筑物墻面上的藍(lán)色南瓜壁畫(huà)”后,OpenAI的全新深度學(xué)習(xí)模型DALL-E能夠生成以上原始圖像
DALL-E為什么意義重大?
首先,它預(yù)示著一種所謂“多模AI”的全新AI范式的出現(xiàn)。這種范式似乎代表著人工智能的未來(lái)面貌。以DALL-E為例,多模AI系統(tǒng)能夠?qū)Χ喾N信息模式進(jìn)行解釋、合成與翻譯,由此把情境、語(yǔ)言與圖像映射起來(lái)。雖然DALL-E并不是第一套多模AI方案,但卻擁有迄今為止最令人驚嘆的實(shí)際效果。
OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever總結(jié)道,“這個(gè)世界不僅由文字 構(gòu)成。人類在表達(dá)之余,還會(huì)訴諸視覺(jué)。視覺(jué)元素非常重要。”
目前存在的大部分AI系統(tǒng)只能處理一種數(shù)據(jù)類型。以自然語(yǔ)言處理模型(NLP模型,例如GPT-3)只能處理文本;計(jì)算機(jī)視覺(jué)模型(例如人臉識(shí)別系統(tǒng))只能處理圖像。但人腦所表現(xiàn)出的智能明顯適應(yīng)性更強(qiáng),所能處理的信息也更為靈活。
人類能夠不斷從五種感官處接收并整合信息——我們也正是通過(guò)視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、嗅覺(jué)與味覺(jué)的結(jié)合理解周遭世界。以此為基礎(chǔ),我們又以語(yǔ)音、文本、肢體表達(dá)、面部表情與音樂(lè)等多種形式將信息傳遞回這個(gè)豐富多彩的世界。
通過(guò)將自然語(yǔ)言理解與視覺(jué)表示生成的能力結(jié)合起來(lái)(也就是將「閱讀」與「視覺(jué)」相結(jié)合),DALL-E再次證明多模AI中蘊(yùn)藏的巨大潛力。
這還僅僅只是開(kāi)始。在之后的幾個(gè)月乃至幾年中,新的AI系統(tǒng)有望將音頻、視頻、語(yǔ)音、圖像、書(shū)面文本、觸覺(jué)以及其他要素?zé)o縫銜接起來(lái)。隨著AI學(xué)會(huì)以越來(lái)越復(fù)雜的方式將多種信息結(jié)合起來(lái),其理解世界并產(chǎn)生新穎洞見(jiàn)的能力也將迎來(lái)爆發(fā)式增長(zhǎng)。
DALL-E還有另一層,或者說(shuō)更為根本的重要意義:人類越來(lái)越無(wú)法否認(rèn)人工智能中蘊(yùn)含的巨大創(chuàng)造力。
DALL-E生成的圖像遠(yuǎn)超人類的想象力范疇。這絕不只是對(duì)互聯(lián)網(wǎng)上的現(xiàn)成圖像進(jìn)行簡(jiǎn)單修改——相反,這些是前所未有的效果圖,其中的巧妙性與獨(dú)創(chuàng)性足以令藝術(shù)家們?yōu)橹潎@。事實(shí)上,就連DALL-E的創(chuàng)造者們往往也理解不了其生成原理。
下面來(lái)看DALL-E的幾幅作品。首先是“一碗拉面表情符號(hào)”,接下來(lái)的一幅是“牛油果組成的企鵝”。如果這些成果來(lái)自人類設(shè)計(jì)師,我們無(wú)疑會(huì)將其視為實(shí)實(shí)在在的創(chuàng)作產(chǎn)物。既然如此,我們還有理由否定或者拒絕DALL-E嗎?
▲ DALL-E根據(jù)“一碗拉面表情符號(hào)”輸出的圖像
▲ DALL-E根據(jù)“牛油果組成的企鵝”生成的圖像
憑借這種強(qiáng)大的創(chuàng)造力,DALL-E足以在產(chǎn)品設(shè)計(jì)、時(shí)尚以及建筑等領(lǐng)域證明AI技術(shù)的現(xiàn)實(shí)意義。不久之后,人類設(shè)計(jì)師也許會(huì)習(xí)慣使用DALL-E等AI系統(tǒng)作為構(gòu)思助手甚至是靈感來(lái)源。
舉個(gè)例子,在要求設(shè)計(jì)“甜甜圈風(fēng)格的扶手椅”時(shí),DALL-E帶來(lái)了種種富有構(gòu)圖的選擇。當(dāng)然,它的設(shè)計(jì)與外觀還頗具水準(zhǔn)。不難想象,未來(lái)一定會(huì)有家具設(shè)計(jì)師反復(fù)使用DALL-E以探索模型輸出,調(diào)整輸入文本進(jìn)行設(shè)計(jì)迭代,最終將AI元素引入自己的作品當(dāng)中。從汽車到燈具、從珠寶到房屋,類似的創(chuàng)意過(guò)程將適用于眾多產(chǎn)品。
▲ DALL-E根據(jù)“甜甜圈風(fēng)格的扶手椅”生成的輸出圖像
當(dāng)然,DALL-E還遠(yuǎn)非完美,它所生成的圖像也并不總能準(zhǔn)確表現(xiàn)輸入文本:例如,它經(jīng)常會(huì)在顏色、數(shù)量或空間關(guān)系方面犯錯(cuò)誤。
OpenAI公開(kāi)發(fā)布的DALL-E工作示例已經(jīng)由CLIP神經(jīng)網(wǎng)絡(luò)進(jìn)行排序與篩選。對(duì)于每項(xiàng)文本輸入,篩選后系統(tǒng)將僅顯示512個(gè)樣本中置信度最高前32個(gè)樣本。換句話說(shuō),DALL-E實(shí)際生成的圖像更多,只是其中大部分效果不佳。
綜上所述,DALL-E的創(chuàng)造能力令人驚訝,而這項(xiàng)技術(shù)本身也仍在快速迭代當(dāng)中。
與AI技術(shù)的其他重大發(fā)展一樣,DALL-E再次讓我們想起一個(gè)古老的問(wèn)題:機(jī)器的智能水平是否越來(lái)越接近人類?
一方面,DALL-E的誕生激發(fā)起關(guān)于超級(jí)智能技術(shù)的夸張表述。但在另一方面,以著名深度學(xué)習(xí)評(píng)論家Gary Marcus為代表的懷疑論者,則認(rèn)為DALL-E并沒(méi)有給AI技術(shù)的發(fā)展帶來(lái)任何切實(shí)推動(dòng)。
Marcus的觀點(diǎn)值得認(rèn)真對(duì)待。深度學(xué)習(xí)(包括為DALL-E、GPT-3提供基礎(chǔ)的前沿transformer架構(gòu))在智能概念建模方面仍然存在著嚴(yán)重的局限性。
但從某種意義上講,這場(chǎng)爭(zhēng)論其實(shí)偏離了真正的重點(diǎn)。無(wú)論OpenAI的新模型是否代表著邁向“人工通用智能”的下一步,也無(wú)論深度學(xué)習(xí)能否真正帶來(lái)與人類擁有同等認(rèn)知水平的機(jī)器智能成果,DALL-E本身仍然具備非凡的新能力——這已經(jīng)成為不爭(zhēng)的事實(shí)。
DALL-E及其后續(xù)方案有望在人與機(jī)器間的創(chuàng)造關(guān)系中帶來(lái)新的可能性,并由此衍生出巨大的經(jīng)濟(jì)價(jià)值,為新一波創(chuàng)新型初創(chuàng)企業(yè)及產(chǎn)品奠定基礎(chǔ)。
面對(duì)無(wú)限的可能,我們只需要充滿期待。