作者 | Dyaln & Afzal Ahmad
51CTO讀者成長計劃社群招募,咨詢小助手(微信號:CTOjishuzhan)
下面是一份最近泄露的文件,由一位匿名人士在公共 Discord 服務(wù)器上共享,該服務(wù)器已授予其重新發(fā)布的許可。它源于谷歌內(nèi)部的一名研究員。我們已經(jīng)驗證了它的真實性。
注意:該文件僅代表谷歌員工的意見,并非整個公司的意見。我們不同意下面寫的內(nèi)容,我們詢問的其他研究人員也不同意,我們分享這份文件,是因為它提出了一些非常有趣的觀點。
一、我們沒有護城河,OpenAI 也沒有
我們在 OpenAI 做了很多仔細的研究。誰將跨越下一個里程碑?下一步將是什么?
但令人不安的事實是, 我們沒有能力贏得這場軍備競賽,OpenAI 也沒有。在我們爭吵不休的時候,第三派一直在悄悄地吃我們的午餐。
當然,我說的是開源。說白了,他們在蹭舔我們。
我們認為“主要開放問題”的東西,今天已經(jīng)解決,并且已經(jīng)掌握在人們手中。僅舉幾個:
手機上的 LLMs:人們在 Pixel 6 上以每秒 5 個 tokens 的速度運行基礎(chǔ)模型。
可擴展的個人 AI:您可以利用晚上時間在筆記本電腦上微調(diào)一個個性化 AI。
負責任的發(fā)布:這個與其說是“解決”,不如說是“避免”。整個網(wǎng)站充滿了藝術(shù)模型,沒有任何限制,文字也不甘落后。
多模態(tài):當前的多模態(tài) ScienceQA SOTA 訓練時間為一小時。雖然我們的模型在質(zhì)量方面仍然略有優(yōu)勢,但差距正在以驚人的速度縮小。開源模型更快、更可定制、更私密且功能更強大。他們用 100 美元和 13B 的參數(shù)做事,而我們在 1000 萬美元和 540B 的參數(shù)下苦苦掙扎。他們在幾周內(nèi)完成,而不是幾個月。這對我們有深遠的影響:
(1)我們沒有秘方。我們最大的希望是向谷歌以外的其他人學習并與他們合作。我們應(yīng)該優(yōu)先考慮啟用 3P 集成。
(2)當免費的、不受限制的替代品在質(zhì)量上相當時,人們不會為受限制的模型付費。我們應(yīng)該考慮我們真正的增值在哪里。
巨型模型正在讓我們慢下來。從長遠來看,最好的模型是——這可以被快速地迭代。既然我們知道在<20B 參數(shù)范圍內(nèi)有哪些可能,我們就應(yīng)該做出小型變體,而不是事后才想到。
圖源:https://lmsys.org/blog/2023-03-30-vicuna/
二、發(fā)生了什么
3 月初,開源社區(qū)得到了他們第一個真正有能力的基礎(chǔ)模型,因為 Meta 的 LLaMA 被泄露給了公眾。它沒有指令說明或?qū)υ捰柧毜募毠?jié),也沒有 RLHF。盡管如此,社區(qū)立即理解了這件事情的重要性。
隨之而來的是巨大的創(chuàng)新涌現(xiàn),而且間隔僅僅只有幾天(完整細目請參見時間表)。僅僅一個月后,我們就在這里,并且有指令調(diào)整、量化、質(zhì)量改進、人工評估、多模態(tài)、RLHFRLHF 等各自的變體,其中許多是相互聯(lián)結(jié)的。
最重要的是,他們已經(jīng)解決了任何人都可以修補的擴展問題。許多新想法都來自普通人。訓練和實驗的門檻,已經(jīng)從一個主要研究機構(gòu)的總產(chǎn)出下降到一個人、一個晚上和一臺功能強大的筆記本電腦。
三、為什么我們可以預(yù)見它的到來
在許多方面,這對任何人來說都不足為奇。緊隨著圖像生圖領(lǐng)域的復興,開源大語言模型也已然復興。相似之處并沒有在社區(qū)中消失,正如許多人所稱呼的LLM的“Stable Diffusion 時刻”。
在這兩種情況下,低成本的公眾參與,都是通過一種成本低得多的微調(diào)機制實現(xiàn)的,稱為低秩適應(yīng)(low rank adaptation)或 LoRA,并結(jié)合了規(guī)模上的重大突破(圖像合成的 Stable Diffusion,LLM 的 Chinchilla )。
在這兩種情況下,獲得足夠高質(zhì)量的模型都引發(fā)了世界各地個人和機構(gòu)的一系列想法和迭代。在這兩種情況下,這都很快超過了大型企業(yè)。
這些貢獻在圖像生成領(lǐng)域至關(guān)重要,使 Stable Diffusion 走上了與 Dall-E 不同的道路。擁有一個開放的模型導致產(chǎn)品集成、市場、用戶界面同時發(fā)生的創(chuàng)新,這是 Dall-E 沒有做到的。
效果是顯而易見的:與 OpenAI 解決方案相比,在文化影響方面迅速占據(jù)主導地位,后者變得越來越無關(guān)緊要。LLM 領(lǐng)域內(nèi)是否會發(fā)生同樣的事情還有待觀察,但廣泛的結(jié)構(gòu)要素是相同的。
四、我們錯過了什么
推動開源最近取得成功的創(chuàng)新直接解決了我們?nèi)栽谂鉀Q的問題。更多地關(guān)注他們的工作可以幫助我們避免重新發(fā)明輪子。
1.LoRA 是一種非常強大的技術(shù),我們可能應(yīng)該更加關(guān)注它
LoRA 通過將模型更新表示為低秩分解來工作,這將更新矩陣的大小,減少了多達數(shù)千倍。這允許以一小部分成本和時間進行模型微調(diào)。能夠在幾個小時內(nèi)在消費類硬件上個性化語言模型是一件大事,特別是對于涉及近實時整合新的和多樣化的知識的愿望。事實上,這項技術(shù)的存在在谷歌內(nèi)部并未得到充分利用,盡管它直接影響了我們一些最雄心勃勃的項目。
2.從頭開始重新訓練模型是一條艱難的道路
LoRA 如此有效的部分原因在于——與其他形式的微調(diào)一樣——它是可堆疊的??梢詰?yīng)用指令調(diào)整等改進,然后在其他貢獻者添加對話、推理或工具使用時加以利用。雖然單獨的微調(diào)是低秩的,但它們的總和不需要,允許模型的全秩更新隨著時間的推移而累積。
這意味著隨著新的更好的數(shù)據(jù)集和任務(wù)的出現(xiàn),模型可以以低廉的成本保持最新,而無需支付全面運行的成本。
相比之下,從頭開始訓練巨型模型不僅會丟棄預(yù)訓練,還會丟棄在頂部進行的任何迭代改進。在開源世界中,這些改進很快就會占據(jù)主導地位,這使得全面重新培訓的成本極其高昂。
我們應(yīng)該考慮每個新應(yīng)用程序或想法是否真的需要一個全新的模型。如果我們真的有重大的架構(gòu)改進來阻止直接重用模型權(quán)重,那么我們應(yīng)該投資于更積極的蒸餾形式,使我們能夠盡可能多地保留上一代的功能。
3.如果我們可以在小型模型上更快地迭代,那么從長遠來看,大型模型的能力并不會更強
對于最流行的模型尺寸,LoRA 更新的生產(chǎn)成本非常低(約 100 美元)。這意味著幾乎任何有想法的人都可以產(chǎn)生一個想法并進行傳播。一天之內(nèi)的培訓時間是常態(tài)。以這樣的速度,所有這些微調(diào)的累積效應(yīng)很快就會克服尺寸劣勢。事實上,就工程師工時而言,這些模型的改進速度大大超過了我們使用最大變體所能做的,而且最好的已經(jīng)在很大程度上與 ChatGPT 沒有區(qū)別。專注于維護地球上一些最大的模型實際上使我們處于劣勢。
4.數(shù)據(jù)質(zhì)量比數(shù)據(jù)大小更好
其中許多項目都通過在小型、高度精選的數(shù)據(jù)集上進行訓練來節(jié)省時間。這表明數(shù)據(jù)縮放法則具有一定的靈活性。此類數(shù)據(jù)集的存在遵循了 Data Doesn't Do What You Think 中的思路,并且它們正迅速成為在 Google 之外進行訓練的標準方式。這些數(shù)據(jù)集是使用合成方法(例如從現(xiàn)有模型中過濾最佳響應(yīng))和從其他項目中提取的,這兩種方法在谷歌都不占主導地位。幸運的是,這些高質(zhì)量的數(shù)據(jù)集是開源的,因此可以免費使用。
五、直接與開源競爭是一個失敗的主張
最近的進展對我們的業(yè)務(wù)戰(zhàn)略有直接的影響。如果沒有免費、高質(zhì)量的替代品,誰會為有使用限制的 Google 產(chǎn)品付費?
我們不應(yīng)該期望能夠趕上。開源的盛行是有原因的。開源有一些我們無法復制的顯著優(yōu)勢。
六、我們需要他們,勝過他們需要我們
保守我們的技術(shù)秘密,始終是一個脆弱的提議。谷歌研究人員正定期前往其他公司,因此我們可以假設(shè)他們知道我們所知道的一切,并且只要該渠道開放,他們就會繼續(xù)這樣做。
而且,由于 LLM 的頂尖研究是負擔得起的,因此保持技術(shù)競爭優(yōu)勢變得更加困難。世界各地的研究機構(gòu)都在相互借鑒,以廣度優(yōu)先的方式探索解決方案空間,這遠遠超出了我們自身的能力。我們要么在外部創(chuàng)新沖淡其價值時努力保守秘密,要么選擇嘗試相互學習。
七、個人不受與公司相同程度的許可證約束
這種創(chuàng)新的大部分發(fā)生在 Meta 泄露的模型權(quán)重之上。雖然隨著真正開放的模型變得更好,這將不可避免地發(fā)生變化,但關(guān)鍵是他們不必等待?!皞€人使用”提供的法律保護和起訴個人的不切實際意味著個人可以在這些技術(shù)炙手可熱的時候使用它們。
八、成為您自己的客戶意味著您了解用例
瀏覽人們在圖像生成空間中創(chuàng)建的模型,從動漫生成器到 HDR 風景,創(chuàng)意源源不斷。這些模型由深深沉浸在其特定子流派中的人們使用和創(chuàng)建,賦予我們無法企及的知識深度和同理心。
九、擁有生態(tài)系統(tǒng):讓開源為我們工作
矛盾的是,所有這一切的一個明顯贏家是 Meta。因為泄露的模型是他們的,所以他們有效地獲得了整個星球的免費勞動力。由于大多數(shù)開源創(chuàng)新都發(fā)生在他們的架構(gòu)之上,因此沒有什么能阻止他們將其直接整合到他們的產(chǎn)品中。
擁有生態(tài)系統(tǒng)的價值怎么強調(diào)都不為過。谷歌本身已在其開源產(chǎn)品(如 Chrome 和 Android)中成功使用了這種范例。通過擁有發(fā)生創(chuàng)新的平臺,谷歌鞏固了自己作為思想領(lǐng)袖和方向制定者的地位,獲得了塑造比自身更宏大的想法的能力。
我們對模型的控制越嚴密,我們做出開放替代方案的吸引力就越大。谷歌和 OpenAI 都傾向于防御性地傾向于發(fā)布模式,使他們能夠嚴格控制其模型的使用方式。但這種控制是虛構(gòu)的。任何想將 LLM 用于未經(jīng)批準的目的的人都可以簡單地選擇免費提供的模型。
谷歌應(yīng)該讓自己成為開源社區(qū)的領(lǐng)導者,通過與更廣泛的對話合作來牽頭來做,而不是忽視其他力量。這可能意味著采取一些不舒服的步驟,比如發(fā)布小型 ULM 變體的模型權(quán)重。這必然意味著放棄對我們模型的一些控制。但這種妥協(xié)是不可避免的。我們不能希望既推動創(chuàng)新又控制創(chuàng)新。
十、結(jié)語:OpenAI 怎么樣?
考慮到 OpenAI 當前的封閉政策,所有這些關(guān)于開源的討論都會讓人覺得不公平。如果他們不愿意,我們?yōu)槭裁匆窒恚康聦嵤?,我們已?jīng)以源源不斷的挖角高級研究人員的形式與他們分享一切。在我們阻止這種趨勢之前,保密是一個有爭議的問題。
最后,OpenAI 并不重要。他們在相對于開源的態(tài)度上犯了與我們相同的錯誤,他們保持優(yōu)勢的能力必然受到質(zhì)疑。除非他們改變立場,否則開源替代品可以并且最終會使它們黯然失色。至少在這方面,我們可以邁出第一步。
十一、時間線
- 2 月 24 日 ——LLaMA 啟動:模型小而能力強Meta 推出 LLaMA ,開源代碼,但不開源權(quán)重。在這一點上,LLaMA 沒有調(diào)整指令或?qū)υ挕Ec當前的許多模型一樣,它是一個相對較小的模型(可在 7B、13B、33B 和 65B 參數(shù)下使用),并且已經(jīng)訓練了相對較長的時間,因此相對于其大小來說能力相當強。
- 3 月 3 日——意外泄密帶來的井噴式創(chuàng)新一周之內(nèi),LLaMA 就被泄露給了公眾。對社區(qū)的影響不容小覷?,F(xiàn)有許可證禁止將其用于商業(yè)目的,但突然之間任何人都可以進行試驗。從這一刻開始,創(chuàng)新來勢洶洶。
- 3 月 12 日 ——烤面包機上的語言模型一個多星期后,Artem Andreenko 讓模型在 Raspberry Pi 上運行。此時模型運行速度太慢而不實用,因為權(quán)重必須分頁進出內(nèi)存。盡管如此,這為小型化的沖擊奠定了基礎(chǔ)。
- 3 月 13 日 ——在筆記本電腦上微調(diào)第二天,斯坦福發(fā)布了 Alpaca ,它為 LLaMA 添加了指令調(diào)優(yōu)。然而,比實際重量更重要的是 Eric Wang 的 alpaca-lora 儲庫,它使用低階微調(diào)“在單個 RTX 4090 上數(shù)小時內(nèi)”完成了此訓練。突然之間,任何人都可以微調(diào)模型來做任何事情,從而在低預(yù)算的微調(diào)項目中拉開了一場逐底競爭的序幕。論文自豪地描述了他們總共花費了幾百美元。更重要的是,低等級更新可以輕松地與原始權(quán)重分開分發(fā),從而使它們獨立于 Meta 的原始許可。任何人都可以分享和應(yīng)用它們。
- 3 月 18 日 ——無GPU運行Georgi Gerganov 使用 4 位量化,在 MacBook CPU 上運行 LLaMA。它是第一個速度足夠?qū)嵱玫摹盁o GPU”解決方案。
- 3 月 19 日 ——13B 模型與 Bard 實現(xiàn)“平替”第二天,多所大學聯(lián)合發(fā)布了 Vicuna ,并使用 GPT-4 驅(qū)動的 eval 來提供模型輸出的定性比較。雖然評估方法值得懷疑,但該模型實際上比早期變體更好。訓練費用:300 美元。值得注意的是,他們能夠使用來自 ChatGPT 的數(shù)據(jù),同時繞過對其 API 的限制——他們只是對發(fā)布在 ShareGPT 等網(wǎng)站上的“令人印象深刻的”ChatGPT 對話示例進行了采樣。
- 3 月 25 日 ——選擇您自己的模型Nomic 創(chuàng)建了 GPT4All ,它既是一個模型,更重要的是一個生態(tài)系統(tǒng)。我們第一次看到模型(包括 Vicuna)聚集在一個地方。訓練費用:100 美元。
- 3 月 28 日——開源版 GPT-3Cerebras(不要與我們自己的 Cerebra 混淆)使用 Chinchilla 隱含的最佳計算計劃和 μ 參數(shù)化隱含的最佳縮放來訓練 GPT-3 架構(gòu)。這大大優(yōu)于現(xiàn)有的 GPT-3 克隆,并且代表了“在野外”首次確認使用 μ 參數(shù)化。這些模型是從頭開始訓練的,這意味著社區(qū)不再依賴 LLaMA。
- 3 月 28 日 ——一小時多模態(tài)訓練LLaMA-Adapter 使用一種新穎的參數(shù)高效微調(diào) (PEFT) 技術(shù),在一小時的訓練中引入了指令調(diào)優(yōu)和多模態(tài)。令人印象深刻的是,他們僅使用 120 萬個可學習參數(shù)就可以做到這一點。該模型在多模態(tài) ScienceQA 上實現(xiàn)了新的 SOTA。
- 4 月 3 日——真人無法區(qū)分 13B 開放模型和 ChatGPT伯克利推出了 Koala ,這是一種完全使用免費數(shù)據(jù)訓練的對話模型。他們采取了關(guān)鍵步驟來衡量他們的模型和 ChatGPT 之間的真實人類偏好。雖然 ChatGPT 仍然略有優(yōu)勢,但超過 50% 的用戶要么更喜歡 Koala,要么沒有偏好。培訓費用:100 美元。
- 4 月 15 日 ——ChatGPT 級別的開源 RLHFOpen Assistant 啟動了一個模型,更重要的是,啟動了一個用于通過 RLHF 對齊的數(shù)據(jù)集。他們的模型在人類偏好方面與 ChatGPT 接近(48.3% 對 51.7%)。除了 LLaMA,他們還展示了這個數(shù)據(jù)集可以應(yīng)用于 Pythia-12B,讓人們可以選擇使用完全開放的堆棧來運行模型。此外,由于數(shù)據(jù)集是公開可用的,因此對于小型實驗者而言,RLHF 從無法實現(xiàn)變?yōu)榱畠r且容易。
原文鏈接:https://www.semianalysis.com/p/google-we-have-no-moat-and-neither