無界 AI 首席技術(shù)官張飛彪:未來將開放生態(tài)服務(wù),擁抱更多的開發(fā)者丨中國 AIGC 產(chǎn)業(yè)應(yīng)用峰會
AI 新智界訊,1 月 5 日,“智求共贏?中國 AIGC 產(chǎn)業(yè)應(yīng)用峰會暨無界 AI 生態(tài)合作伙伴大會”在杭州未來科技城召開。大會由杭州未來科技城管委會、余杭區(qū)科技局和余杭區(qū)企業(yè)(人才)綜合服務(wù)中心聯(lián)合指導(dǎo),時戳科技主辦,AI 新智界提供媒體特別支持。大會上,無界 AI 首席技術(shù)官張飛彪發(fā)表“無界 AI 企業(yè)服務(wù):一站式 AIGC 解決方案”主題演講。
據(jù)張飛彪介紹,無界 AI 提供一站式產(chǎn)品、模型、算力 AIGC 解決方案,具體包括軟件、模型、開放平臺、算力、賽事及培訓(xùn) 6 大項目。談及未來規(guī)劃,張飛彪稱,無界 AI 將開放生態(tài)服務(wù),擁抱更多的開發(fā)者,支持自定義工作流、插件、模型等;同時,無界 AI 將支持企業(yè)協(xié)同管理,包括賬號、專用算力、網(wǎng)盤管理、數(shù)據(jù)羅盤等。
以下是 AI 新智界根據(jù)速記整理的演講內(nèi)容,為方便閱讀已進(jìn)行部分刪減:
今天我將為大家介紹無界 AI 的企業(yè)服務(wù),我們的定位是“一站式的產(chǎn)品、模型、算力 AIGC 解決方案”。
首先從整體上了解一下無界 AI 對外提供的整體服務(wù)。
軟件服務(wù)上,對外有通用版,包含 PC 網(wǎng)站、H5 站點以及相關(guān)的安卓和 iOS App;專業(yè)版軟件的功能非常豐富,包含了工作流機(jī)制及相關(guān)的插件功能。除此之外,我們還支持漫畫、視頻和 3D 的生成。另外,我們也對外輸出了無界自研大語言模型集對應(yīng)的智能體。
今天,我會重點介紹模型服務(wù)、API 服務(wù)和算力服務(wù),另外我們也相關(guān)的創(chuàng)意賽事服務(wù)及培訓(xùn)服務(wù)。
模型服務(wù)
首先,先看一下無界的行業(yè)模型。剛才長鋏已經(jīng)詳細(xì)介紹了該模型,這里我不做贅述。我一直持有的觀點是,如何用行業(yè)模型解決專業(yè)領(lǐng)域的問題,是 AIGC 落地應(yīng)用的關(guān)鍵。本身無界 AI 的立足之本也是我們的行業(yè)模型,我們會針對每一個細(xì)分領(lǐng)域訓(xùn)練出對應(yīng)的行業(yè)模型。
行業(yè)模型的訓(xùn)練主要分成三大步驟:
首先是數(shù)據(jù)部分,大家要知道數(shù)據(jù)對于一個模型的好壞是至關(guān)重要的,它本身也是 AIGC 這一塊的基礎(chǔ)燃料。在該流程中,模型主理人會做好數(shù)據(jù)的收集及數(shù)據(jù)質(zhì)量的評估,然后交由算法同學(xué)做尺寸處理,因為不同的尺寸會應(yīng)對不同的需求場景,比如說 1:1 比較適合做頭像,16:9 比較適合做壁紙。完了之后,做出對應(yīng)的數(shù)據(jù)清洗,包含水印的去除、背景的整體優(yōu)化。此外,我們還會對特定場景的數(shù)據(jù)做針對性的優(yōu)化,其中也包含局部的數(shù)據(jù)優(yōu)化。大家知道在 AI 繪畫中,手部、耳部、眼部容易出現(xiàn)問題,所以我們在這方面也做了特殊優(yōu)化,后面也會訓(xùn)練出對應(yīng)的 LoRA,往后會跟大家介紹。
有了數(shù)據(jù)部分之后,如何針對數(shù)據(jù)進(jìn)行相關(guān)的標(biāo)注也是非常關(guān)鍵的。不同于常規(guī)的模型訓(xùn)練,我們除了使用圖片包含的信息,我們還會使用圖片相關(guān)的描述信息,比如標(biāo)題、正文描述,還有客戶標(biāo)簽。經(jīng)過無界的多模態(tài)大模型,將其轉(zhuǎn)化為自然語言描述,再經(jīng)過無界的自然語言模型進(jìn)行數(shù)據(jù)標(biāo)簽,最終輸出為體系化的結(jié)構(gòu)標(biāo)簽。強(qiáng)調(diào)一下,無界的標(biāo)簽不只用于訓(xùn)練階段、強(qiáng)化學(xué)習(xí),而且在生成階段也會作為觸發(fā)詞,輔助我們精準(zhǔn)控制,減少開盲盒的效果。整個數(shù)據(jù)標(biāo)注的服務(wù)功能,目前我們也會對外提供,如果大家有這塊的需求,也可以關(guān)注一下。
有了數(shù)據(jù),做好了數(shù)據(jù)標(biāo)準(zhǔn),最后就是進(jìn)入對應(yīng)的模型訓(xùn)練階段。模型訓(xùn)練的時候,很關(guān)鍵的是要使用什么樣的底模。因為現(xiàn)在的 SD 有 1.5,也有 SDXL,還有 SD 2.1,到底使用哪個相關(guān)模型?我們會根據(jù)多融的消融實驗,做好對比測試,最終確定出最優(yōu)的訓(xùn)練底模。在此之上,通過相關(guān)的模型訓(xùn)練算法,比如說微調(diào)模式、Dreambooth、LoRA、融合實驗等。這是我們常見的訓(xùn)練模式。另外,不同的模型以及不同的數(shù)據(jù)有不同的特點,我們會根據(jù)對應(yīng)的特點做好訓(xùn)練參數(shù)的調(diào)整。這一塊需要再強(qiáng)調(diào)一下,本身無界的行業(yè)模型大概有十幾個,所以我們投入的資源非常大,目前的訓(xùn)練算力也是以高階的 A800 和 H800 為主,整體使用的算力比較豐富;此外,從訓(xùn)練的方式上,我們也有一套標(biāo)準(zhǔn)化的訓(xùn)練模式,也能做到分布式訓(xùn)練。
目前,無界對外提供的模型訓(xùn)練服務(wù)主要包含這幾種:
一方面是大模型訓(xùn)練,我們已經(jīng)跟一些大型車企和快消品牌,還有萬事利、三維家進(jìn)行了合作;我們還有對應(yīng)的 LoRA 訓(xùn)練,一些前沿的技術(shù)我們也都支持,比如目前流行的潛在一致模型(LCM),它能夠大幅提升訓(xùn)練和推理效率。對應(yīng)的,手部、眼部這一類容易出現(xiàn)崩壞的情況,我們會結(jié)合優(yōu)化 LoRA,去輔助模型推理生成,減少這類情況的出現(xiàn)。最后,重點提一下個性寫真服務(wù),我們結(jié)合了自己的人臉融合算法,去提升圖像的相似度。這方面主要是高階版,使用多張圖片(目前是 6 張以上),可以訓(xùn)練一個精美的寫真,最終可以媲美線下影樓的效果,它結(jié)合的是人臉 LoRA 以及底層私人影像模型。我們還有一個是基礎(chǔ)版,或者叫快捷版,可以用單張或多張圖在 3 分鐘內(nèi)完成 LoRA 訓(xùn)練,整體效果也很不錯,而且模板可以自定義。剛才提到的神隱活動,使用的就是這種快捷模式。
開放平臺
接下來是整體的開放平臺,也就是對應(yīng)的相關(guān)的 API 服務(wù)。
首先是企業(yè)賬號的開通,包含密鑰、接口的整體調(diào)試。完了之后,可能需要做業(yè)務(wù)相關(guān)的參數(shù)配置,比如存儲、內(nèi)容審核選擇等。再來是套餐選擇,包含積分和時長模式,之后商務(wù)同學(xué)會重點介紹。
在管理平臺部分,為了方便企業(yè)使用,我們也提供企業(yè)控制臺,方便客戶做好系統(tǒng)管理、對應(yīng)的參數(shù)配置以的數(shù)據(jù)看板和監(jiān)控告警服務(wù)。
上面只是簡要的列舉,實際上整個 API 服務(wù)要豐富得多,大體可以分為:基礎(chǔ)作畫相關(guān)、模型相關(guān),還有現(xiàn)在比較火熱的視頻。視頻服務(wù)目前還處于初級階段,大家可以根據(jù)自己的實際業(yè)務(wù)和場景來選用,包括文生視頻、圖生視頻、視頻轉(zhuǎn)視頻等。訓(xùn)練上,除了前面提到的個性相機(jī)、LoRA 訓(xùn)練,我們還支持訓(xùn)練素材的管理以及數(shù)據(jù)標(biāo)注服務(wù)。另外還有比較特色的功能,比如說咒語生成器、咒語解析器,這都是無界的特色服務(wù)。另外我們還有大語言模型,能把自然語言轉(zhuǎn)化為相關(guān)的繪畫提示詞,同時進(jìn)一步推薦繪畫模型及參數(shù)配置。
前面提到的這么多功能,如果沒有穩(wěn)定可靠的服務(wù)支撐,就很難保障良好的用戶體驗。這里,我們快速看一下無界 AI 的架構(gòu)圖,最上層還是相關(guān)的軟件服務(wù)及開放平臺,也就是 API 部分;業(yè)務(wù)部分,主要包含繪畫、訓(xùn)練以及視頻相關(guān)的。往后還有一些插件和工作流機(jī)制。再往下則是后端服務(wù)。其中比較特色的,就是算力調(diào)度及管理平臺。
算力調(diào)度上,最關(guān)鍵的是我們自研了一套模型動態(tài)切換算法。大家知道繪畫的時間跟算力配置、模型數(shù)量有一定關(guān)系。我們在這一塊做了自動啟停服務(wù),當(dāng)隊列排隊較多的時候,我們會自動啟動新的機(jī)器來加入到創(chuàng)作的服務(wù)。當(dāng)有閑置資源的時候,我們又會逐步釋放,以提升 GPU 算力的利用率。而模型動態(tài)切換上,目前使用的是大內(nèi)存的緩存方案。經(jīng)過緩存以后的模型,A 模型切換到 B 模型,加載和卸載,我們能大致做到 3 秒完成。如果是磁盤或者網(wǎng)盤的模型,比如剛才提到的個性相機(jī)訓(xùn)練,一般是 30 秒內(nèi)就可以完成模型切換。通過這一套機(jī)制,我們可以在充分保障用戶良好體驗的情況,也進(jìn)一步提升 GPU 算力的利用率,同時把成本做到更低。
接下來是數(shù)據(jù)看板和監(jiān)控告警服務(wù),這是非常關(guān)鍵的。比如異常告警,我們不可能永遠(yuǎn)看監(jiān)控看板,只能配置一定的閾值,當(dāng)出現(xiàn)異常的時候,它會通過告警服務(wù)收到通知,再靈活作出對應(yīng)的處理。乃至到后面,可以做到自動化的運維。在數(shù)據(jù)看板上,主要包含對應(yīng)的業(yè)務(wù)指標(biāo)和技術(shù)指標(biāo)。
算力服務(wù)
在介紹完開放平臺后,最后給大家介紹一下算力服務(wù)。我們的算力主要由無界 AI 子業(yè)務(wù)矩池云承接。矩池云成立于 2019 年,比無界 AI 還要早,也是專注于人工智能領(lǐng)域的 GPU 云平臺。目前,對外能夠提供分布式的 AI 計算服務(wù),包含網(wǎng)盤、彈性調(diào)度算力等。另外,在技術(shù)上我們也有自研的輕量級容器技術(shù),以及內(nèi)核機(jī)的微 GPU 技術(shù)。像常見的 AI 框架,目前都是支持的。因為它本身是一個比較完整的云服務(wù)平臺,我們也能夠提供開源的大語言模型的鏡像,以及 SDXL 文生圖的鏡像。
在以往的合作中,有一類客戶有自建算力的需求,我們提供了從硬件的采購,再到整個系統(tǒng)的設(shè)計的全鏈路解決方案,幫助把本地資源上云,做到整體的混合調(diào)度,相當(dāng)于把私有云和公有云整體結(jié)合起來使用。這個服務(wù)經(jīng)過了五年的打磨和迭代,整體非常成熟。如果有企業(yè)比較看重數(shù)據(jù)保護(hù),需要做一些數(shù)據(jù)隱私的考慮,比如說系統(tǒng)隔離的話,可以考慮算力的私有化部署方案。
最后就是我們的混合云彈性調(diào)度。我們能夠根據(jù)實時算力需求,去靈活調(diào)度多家云廠商的算力需求,能夠靈活應(yīng)對大型活動的波峰波谷。通過一個平臺,去對接多家廠家。我們現(xiàn)在也跟市面上常見的華為云、騰訊云、火山引擎都做了對接,包括國內(nèi)外的軟件系統(tǒng)以及芯片都做的兼容支持,能夠通過一個平臺去靈活調(diào)度公有云、私有云及專有云。
介紹完模型服務(wù)、開放平臺以及算力服務(wù),其實無界還做好了一些相關(guān)服務(wù)。在未來,我們希望能開放生態(tài),擁抱更多的開發(fā)者和企業(yè),一起加入到無界的生態(tài)體系中,由各自開發(fā)者和企業(yè)來做相關(guān)定義;還有模型的訓(xùn)練和托管,乃至到最后做到低代碼平臺,靈活搭建產(chǎn)品和管理平臺。最后還有在企業(yè)協(xié)同方面提供的服務(wù),包含企業(yè)賬號、子賬號、虛擬賬號,以及相關(guān)企業(yè)算力的租用和網(wǎng)盤管理。在數(shù)據(jù)上,希望能給對應(yīng)企業(yè)提供更好的數(shù)據(jù)洞察以及分析能力。
我的演講到這里,也期待新的一年里,無界 AI 能給大家提供更加優(yōu)質(zhì)的企業(yè)服務(wù)。
本文鏈接:https://www.aixinzhijie.com/article/6843050,轉(zhuǎn)載請注明文章出處。