偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tr id="ykpl2"></tr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

DALL·E 3關(guān)鍵技術(shù)公開！19頁論文揭秘如何對提示詞“唯命是從”

作者：蕭簫 2023-10-20 12:17:42

人工智能新聞

無論是整體的環(huán)境描寫，還是精確到物體數(shù)量、著裝、顏色這種細節(jié)敘述，DALL·E 3都能很好地理解，并生成對應(yīng)的畫作，絲毫不漏重點。

出場即炸場的DALL·E 3，又有新動向了！

這次直接宣布對ChatGPT Plus和企業(yè)版用戶開放，還連帶公開了更多“官方推薦案例”。

不僅如此，OpenAI還一紙論文透露了DALL·E 3的關(guān)鍵技術(shù)細節(jié)。

相比其他AI，DALL·E 3表現(xiàn)最優(yōu)秀的地方，應(yīng)該就要屬對提示詞的完美遵循了。

無論是整體的環(huán)境描寫，還是精確到物體數(shù)量、著裝、顏色這種細節(jié)敘述，DALL·E 3都能很好地理解，并生成對應(yīng)的畫作，絲毫不漏重點。

論文一公開，可以說是解決了“如何讓DALL·E 3遵循指令”這一讓諸多人困惑的問題，有網(wǎng)友感嘆：

OpenAI終于又Open了？

一起來看看這篇DALL·E 3論文的關(guān)鍵細節(jié)，以及它的更多用例。

用數(shù)據(jù)集讓DALL·E 3“唯命是從”

先來看看DALL·E 3論文最大的亮點：提示詞遵循（prompt following）。

此前，不少繪畫AI會刻意忽略提示詞中的某些關(guān)鍵詞、或是混淆提示詞的含義（多義詞如column，列還是柱子），簡單來說就是文本提示詞和畫面細節(jié)沒對齊。

OpenAI的研究人員在經(jīng)過一番分析后認為，這是數(shù)據(jù)集的鍋。

現(xiàn)有的圖像文本對數(shù)據(jù)集，文字對圖像的描述可以說是“惜字如金”。

尤其是從互聯(lián)網(wǎng)上扒下來的數(shù)據(jù)集，大多數(shù)對圖像的描述只有一句話，更別提細節(jié)了。包括環(huán)境、物體在內(nèi)，容易忽略的文本描述主要有4類：

場景中物體描述，如廚房里的水槽、人行道上的停車標志等；
物體位置和數(shù)量描述
物體顏色和大小描述
圖像中的文本描述（如呈現(xiàn)在商店招牌上的字母/漢字）

除此之外，還有不少互聯(lián)網(wǎng)上扒下來圖像的文本描述，直接就是錯誤或不相關(guān)的，例如梗圖或Alt文本（圖像加載失敗時網(wǎng)頁上呈現(xiàn)的文字描述）。

為此，有必要將這些圖像對應(yīng)的文本數(shù)據(jù)重新整理一遍，更準確地描述圖像中的場景和物品進行描述。

光靠人力是不太可能的，畢竟要生成的“廢話文學”太多了。

和RLHF一樣，OpenAI同樣將這個過程“自動化”了一波，讓AI來完成這件事。

他們訓練了一個“圖像字幕器”（image captioner），專門用來給數(shù)據(jù)集中的圖像重新生成文本描述。

這是“圖像字幕器”給數(shù)據(jù)集中的部分圖片生成文本描述的效果：

這下子描述就詳細多了。

那么，用AI來合成文本，實際訓練出來的模型是否真能提升生成效果？

研究人員用開源模型（如CLIP）測試了一波，得出的結(jié)論是可以。

不過也不能完全使用合成的文本描述，畢竟AI生成的內(nèi)容可能有些“神秘共性”，直接全盤接受容易導致圖像過擬合。

因此，OpenAI還在CLIP上嘗試了一波合成文本描述-圖像數(shù)據(jù)集的效果。

他們發(fā)現(xiàn)，數(shù)據(jù)集中混雜95%的合成文本-圖像數(shù)據(jù)時，CLIP的效果是最好的。

最終，他們決定95%的圖像用合成文本描述，剩下的5%圖像依舊使用人工描述，用這個比例的文本-圖像數(shù)據(jù)集重新訓練了DALL·E 3，取得了不錯的效果。

最后，OpenAI也采用人工評估的方法，對DALL·E 3和其他模型進行了測試。

評估方法大致像這樣，詢問人類哪個圖像能更好地遵循提示詞、或生成更好看的圖像。

結(jié)果顯示，DALL·E 3相比Midjourney 5.2、SDXL和DALL·E 2，在提示詞遵循、風格匹配等任務(wù)測試上均取得了不錯的效果。

已向企業(yè)版和Plus用戶開放

除了這篇論文以外，OpenAI這次還公布了DALL·E 3的另一動向——向ChatGPT Plus和企業(yè)版開放。

在宣布這一消息的同時，OpenAI也給出了企業(yè)和機構(gòu)使用DALL·E 3的建議，例如做科學項目：

搞網(wǎng)站設(shè)計：

或是幫企業(yè)設(shè)計LOGO：

當然，無論是ChatGPT Plus還是企業(yè)版，仍然也屬于收費項目。

目前唯一可以免費玩到DALL·E 3的地方，應(yīng)該還是微軟的New Bing。

對于OpenAI帶來的DALL·E 3新消息，不少網(wǎng)友感覺振奮。

有網(wǎng)友表示，DALL·E 3的出現(xiàn)真正給設(shè)計圈帶來了改變，例如設(shè)計飲料包裝等：

還有網(wǎng)友已經(jīng)在催API的到來了：

但也有網(wǎng)友對這次更新不甚滿意，尤其是對DALL·E 3論文涉及的技術(shù)信息表示了嘲諷：

直接用谷歌的T5文本編碼器和卷積解碼器，這就是公司發(fā)展太快的結(jié)果嗎？

這里是網(wǎng)友提到的DALL·E 3論文細節(jié)：

要是對DALL·E 3的更多技術(shù)細節(jié)感興趣，也可以到論文中找找答案~

論文地址：https://cdn.openai.com/papers/dall-e-3.pdf

責任編輯：張燕妮來源：量子位

數(shù)據(jù)訓練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<rt id="zuaan"><tbody id="zuaan"><em id="zuaan"></em></tbody></rt>

<sup id="zuaan"><tfoot id="zuaan"></tfoot></sup>