作者:王瑞平
51CTO讀者成長(zhǎng)計(jì)劃社群招募,咨詢小助手(微信號(hào):CTOjishuzhan)
Stability AI在AIGC領(lǐng)域頗有名氣,目前,最受歡迎的產(chǎn)品是其AI圖像生成工具Stable Diffusion,它可以通過(guò)用戶輸入的文本提示生成非常復(fù)雜的圖像。
針對(duì)將軟件開(kāi)源的問(wèn)題,Stability AI的首席執(zhí)行官Emad Mostaque一再公開(kāi)強(qiáng)調(diào):“Stability AI的愿景是利用其開(kāi)源模型作為起點(diǎn),幫助企業(yè)利用其私有的、受監(jiān)管的數(shù)據(jù)使用生成式AI。”
1、開(kāi)源Stable Studio
5月17日,Stability AI在其網(wǎng)站上開(kāi)源了一款名為Stable Studio的應(yīng)用。據(jù)悉,這是公司首個(gè)由文本生成圖像的應(yīng)用程序Dream Studio的開(kāi)源版本,是面向消費(fèi)者的。
此舉為公司在AI生成圖像領(lǐng)域開(kāi)啟了新篇章,并展現(xiàn)出Stability AI致力于在AI生態(tài)系統(tǒng)中推進(jìn)開(kāi)源的決心。
首席執(zhí)行官Emad Mostaque也在推特上發(fā)布了關(guān)于開(kāi)源的消息:“這是Stability AI在過(guò)去幾個(gè)月里為引領(lǐng)開(kāi)源人工智能熱潮所進(jìn)行的最新舉措。我們將開(kāi)展尖端的UI/UX研究,這樣就能共同努力,釋放出開(kāi)源模型的創(chuàng)造力?!?/p>
據(jù)了解,Dream Studio一直是Stability AI新模型和功能的主要界面。而該應(yīng)用程序最初被設(shè)定成將生成式人工智能功能帶給大眾的平臺(tái)。從那時(shí)起,它的用戶已經(jīng)在社區(qū)里創(chuàng)建了數(shù)百萬(wàn)張圖片。
由于一直以來(lái)Dream Studio具有良好的用戶反饋,公司認(rèn)為需要進(jìn)行開(kāi)放的、社區(qū)驅(qū)動(dòng)式的開(kāi)發(fā),而不是靠封閉源代碼產(chǎn)品進(jìn)行私人迭代。
Stability AI也在官網(wǎng)上表示:“我們的目標(biāo)是參與更廣泛的社區(qū)合作,并為生成式人工智能創(chuàng)建出世界級(jí)的用戶界面。我們的目標(biāo)是培育可以超越任何公司的項(xiàng)目。”
2、塑造Stable Studio的未來(lái)
Dream Studio最初被設(shè)想打造成為Disco Diffusion的動(dòng)畫工作室。
隨著穩(wěn)定擴(kuò)散技術(shù)在2022年夏天的到來(lái),焦點(diǎn)被轉(zhuǎn)移至圖像生成層面,目標(biāo)是為生成式AI創(chuàng)造偉大的多模式體驗(yàn)。為此,公司將在接下來(lái)的Stable Studio項(xiàng)目中公布聊天界面。
從啟用本地優(yōu)先開(kāi)發(fā)到嘗試新的插件系統(tǒng),團(tuán)隊(duì)也一直在努力為外部開(kāi)發(fā)人員提供可擴(kuò)展的系統(tǒng),計(jì)劃為改進(jìn)和增添新功能創(chuàng)建獎(jiǎng)勵(lì)。
總之,Stable Studio的發(fā)布重申了Stability AI對(duì)開(kāi)源和透明化的承諾。
3、發(fā)布Stable SDK
在過(guò)去的一個(gè)月里,該公司還開(kāi)源了其它工具和模型,包括:用文本生成動(dòng)畫的工具Stable Animation SDK以及大型語(yǔ)言模型套件Stable LM。
Mostaque在推特上說(shuō):“我們的使命是為激活人類潛力奠定基礎(chǔ),而模型是樂(lè)高積木。”
Stable Animation SDK是一款專為藝術(shù)家和開(kāi)發(fā)人員設(shè)計(jì)的工具,可實(shí)現(xiàn)最先進(jìn)的Stable Diffusion,以生成令人驚嘆的動(dòng)畫。
用戶可以通過(guò)各種方式創(chuàng)建動(dòng)畫,包括:通過(guò)提示(沒(méi)有圖像)、源圖像或源視頻。
隨著Stability AI的動(dòng)畫端點(diǎn),藝術(shù)家有能力使用所有Stable Diffusion模型生成動(dòng)畫,包括:Stable Diffusion 2.0和Stable Diffusion XL。
創(chuàng)建動(dòng)畫共有三種方式:
(1)文本到動(dòng)畫:用戶輸入文本提示并調(diào)整各種參數(shù)以產(chǎn)生動(dòng)畫。
(2)文本輸入+初始圖像輸入:用戶提供一個(gè)初始圖像,作為創(chuàng)建動(dòng)畫的起點(diǎn)。文本提示符與圖像一起使用可以輸出最終的動(dòng)畫。
(3)輸入視頻+文本:用戶提供一個(gè)初始視頻作為動(dòng)畫創(chuàng)建的基礎(chǔ)。通過(guò)調(diào)整各種參數(shù),他們可以獲得一個(gè)由文本提示符指導(dǎo)生成的最終動(dòng)畫。
Stability SDK發(fā)布后,用戶可以使用Stable Diffusion創(chuàng)建動(dòng)畫。結(jié)果很別致,計(jì)算成本很高,并且具有非常獨(dú)特的風(fēng)格。
4、發(fā)布Stable Vicuna
世界上第一個(gè)RLHF LLM開(kāi)源聊天機(jī)器人
最近幾個(gè)月,聊天機(jī)器人的開(kāi)發(fā)和發(fā)布取得了重大進(jìn)展。因此,通過(guò)調(diào)整聊天語(yǔ)言模型創(chuàng)造更好的用戶體驗(yàn)成為了熱門話題。而開(kāi)放訪問(wèn)和開(kāi)源替代品的出現(xiàn)進(jìn)一步激發(fā)了這種興趣。
這些開(kāi)源聊天模型的成功歸功于兩種訓(xùn)練范式:指令微調(diào)和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。雖然研究者已經(jīng)能夠通過(guò)構(gòu)建開(kāi)源框架幫助訓(xùn)練這類模型,但始終缺乏同時(shí)應(yīng)用這兩種范式的開(kāi)放訪問(wèn)和開(kāi)源模型。大多數(shù)模型都是在沒(méi)有RLHF訓(xùn)練的情況下使用指令微調(diào)。
最近,Open Assistant、Anthropic和Stanford已經(jīng)開(kāi)始向公眾提供聊天RLHF數(shù)據(jù)集。這些數(shù)據(jù)集結(jié)合trlX提供的RLHF直接訓(xùn)練,構(gòu)建出RLHF模型的支柱:Stable Vicuna。
Stable Vicuna是第一個(gè)通過(guò)RLHF訓(xùn)練的大型開(kāi)源聊天機(jī)器人,能夠進(jìn)一步進(jìn)行指令微調(diào),是一個(gè)指令微調(diào)的LLaMA 13b模型。
這里有一些基準(zhǔn)測(cè)試,展示出Stable Vicuna與其它類似大小開(kāi)源聊天機(jī)器人的整體性能。
為實(shí)現(xiàn)Stable Vicuna的強(qiáng)大性能,研究者以Vicuna為基礎(chǔ)模型,并遵循Steinnon等人和Ouyang等人提出的典型三級(jí)RLHF。具體來(lái)說(shuō),他們混合三個(gè)數(shù)據(jù)集,并使用監(jiān)督微調(diào)進(jìn)一步訓(xùn)練基本模型:
(1)Open Assistant對(duì)話數(shù)據(jù)集(OASST1)是一個(gè)人工生成、人工注釋的助理式對(duì)話語(yǔ)料庫(kù),包含161443條消息、7213個(gè)偏好樣本,分布在66497棵對(duì)話樹(shù)中,使用35種不同的語(yǔ)言。
(2)GPT-4 All Prompt Generations是由GPT-3.5 Turbo生成的437,605個(gè)提示和響應(yīng)的數(shù)據(jù)集。
(3)Alpaca是一個(gè)由Open AI的text-davinci-003引擎生成的包含52,000條指令和演示的數(shù)據(jù)集。
最后,研究者使用trlX執(zhí)行近端策略優(yōu)化(PPO)強(qiáng)化學(xué)習(xí),對(duì)SFT模型進(jìn)行RLHF訓(xùn)練,獲得Stable Vicuna。
你可以從HuggingFace Hub上獲得StableVicuna-13B。請(qǐng)注意,你還需要訪問(wèn)原始LLaMA模型,這需要使用GitHub repo或鏈接單獨(dú)申請(qǐng)LLaMA權(quán)重。一旦你有了權(quán)重delta和LLaMA權(quán)重,就可以使用GitHub repo中提供的腳本來(lái)組合它們并獲得StableVicuna-13B。
這只是Stable Vicuna的開(kāi)始!接下來(lái)的幾周內(nèi)將對(duì)聊天機(jī)器人進(jìn)行迭代并在Stable Foundation服務(wù)器上部署Discord機(jī)器人。目前,您可以在Hugging Face空間上試用該模型。
5、將開(kāi)源信息帶到美國(guó)首都
近些天,Stability AI公布了它發(fā)給美國(guó)參議院隱私、技術(shù)和法律司法小組委員會(huì)領(lǐng)導(dǎo)人理查德·布盧門撒爾和喬?!せ衾臅嬖u(píng)論。
在信中,Mostaque強(qiáng)調(diào)了5月4日向白宮發(fā)送的一項(xiàng)聲明。即,該公司將參與一項(xiàng)倡議,通過(guò)社區(qū)主導(dǎo),測(cè)試評(píng)估大型人工智能模型。在這封信后還附上了一篇題為“提升人工智能開(kāi)放模型透明度的重要性:對(duì)美國(guó)人工智能監(jiān)管的思考”的論文。
“我們鼓勵(lì)小組委員會(huì)大力促進(jìn)人工智能的開(kāi)放性,”Mostaque在信中說(shuō)?!斑@些技術(shù)將成為數(shù)字經(jīng)濟(jì)的支柱,公眾能夠監(jiān)督它們的發(fā)展至關(guān)重要。開(kāi)放模型和開(kāi)放數(shù)據(jù)集將有助于提升安全性、促進(jìn)競(jìng)爭(zhēng)并確保美國(guó)在提升人工智能關(guān)鍵能力方面保持戰(zhàn)略領(lǐng)先地位?!?/p>
參考資料:
Latest moves show Stability AI is fully committed to open source — well, mostly






