能與 GPT-3 相媲美?EleutherAI 開源 GPT-J
2020 年,微軟與 OpenAI 達(dá)成了協(xié)議,微軟將擁有對 GPT-3 源代碼的獨(dú)家訪問權(quán),自此 OpenAI 就不像以往一樣開放其 GPT-3 AI 模型,而 OpenAI 的 GPT-1 和 GPT-2 仍然是開源項(xiàng)目。
為了打破 OpenAI 和微軟對自然語言處理 AI 模型的壟斷,Connor Leahy、Leo Gao 和 Sid Black 創(chuàng)立了 EleutherAI,這是一個(gè)專注于人工智能對齊、擴(kuò)展和開源人工智能研究的組織。近日 EleutherAI 研究團(tuán)隊(duì)開源了一個(gè)基于 GPT-3 的自然語言處理 AI 模型 GPT-J。
GPT-J 是一個(gè)基于 GPT-3,由 60 億個(gè)參數(shù)組成的自然語言處理 AI 模型。該模型在一個(gè) 800GB 的開源文本數(shù)據(jù)集上進(jìn)行訓(xùn)練,并且能夠與類似規(guī)模的 GPT-3 模型相媲美。
該模型通過利用 Google Cloud 的 v3-256 TPU 以及 EleutherAI 的 The Pile 數(shù)據(jù)集進(jìn)行訓(xùn)練的,歷時(shí)大約五周時(shí)間。GPT-J 在標(biāo)準(zhǔn) NLP 基準(zhǔn)工作負(fù)載上實(shí)現(xiàn)了與 OpenAI 報(bào)告的 67 億參數(shù)版本的 GPT-3 類似的準(zhǔn)確性。模型代碼、預(yù)訓(xùn)練的權(quán)重文件、Colab 文檔和一個(gè)演示網(wǎng)頁都包含在 EleutherAI 的開源項(xiàng)目中。
EleutherAI 在 2021 年 3 月發(fā)布了 27 億參數(shù)的 GPT-Neo 模型,這是他們對類 GPT 系統(tǒng)的第一個(gè)實(shí)現(xiàn)。GPT-Neo 是在 TensorFlow 中構(gòu)建的,并通過 Mesh TensorFlow 并行庫在 TPU 上訓(xùn)練。該團(tuán)隊(duì)目前還正在開發(fā) GPT-NeoX,這是一個(gè)基于微軟 DeepSpeed 的 GPU 解決方案;雖然代碼是開源的,但目前沒有模型文件可以訪問。
最新的模型 GPT-J 是用 Mesh-Transformer-JAX 這個(gè)新庫來訓(xùn)練的。該庫沒有使用像 TensorFlow 這樣的特定深度學(xué)習(xí)框架,而是使用 Google 的 JAX 線性代數(shù)框架。GPT-J 提供了比 Tensorflow 更靈活、更快速的推理,該模型的開發(fā)時(shí)間遠(yuǎn)遠(yuǎn)少于早期的舉措。與 GPT-Neo 模型相比,GPT-J 的訓(xùn)練效率提高了 125%。在幾個(gè) Down-Streaming 工作負(fù)載的零點(diǎn)性能方面,GPT-J 是公開的 Transformer LM 中表現(xiàn)最好的。
EleutherAI 的開發(fā)者 Komatsuzaki 表示:“與 TensorFlow 和 TPU 的同類產(chǎn)品相比,它允許更靈活、更快速的推理。更重要的是,該項(xiàng)目需要的時(shí)間大大少于其他大規(guī)模模型。研究表明,JAX + xmap + TPU 是快速大規(guī)模模型開發(fā)的完美工具集合。”
開發(fā)者可以在 GitHub 上找到 GPT-J 的源代碼和模型,并能在 EleutherAI 的官方網(wǎng)站上找到互動(dòng)演示。
本文轉(zhuǎn)自O(shè)SCHINA
本文標(biāo)題:能與 GPT-3 相媲美?EleutherAI 開源 GPT-J
本文地址:https://www.oschina.net/news/150972/eleutherai-open-sources-gpt-j

















 
 
 














 
 
 
 