英偉達(dá)、Hugging Face和ServiceNow發(fā)布用于代碼生成的新StarCoder2 LLM
這些模型目前有三種不同的大小,已經(jīng)在600多種編程語(yǔ)言(包括低資源語(yǔ)言)上進(jìn)行了培訓(xùn),以幫助企業(yè)在其開(kāi)發(fā)工作流中加速各種與代碼相關(guān)的任務(wù),它們是在開(kāi)放的BigCode項(xiàng)目下開(kāi)發(fā)的,該項(xiàng)目是ServiceNow和Huging Face聯(lián)合發(fā)起的,以確保負(fù)責(zé)任地開(kāi)發(fā)和使用大型代碼語(yǔ)言模型,在開(kāi)放負(fù)責(zé)任的AI許可證下,它們是免費(fèi)提供的。
StarCoder2證明了開(kāi)放的科學(xué)合作和負(fù)責(zé)任的AI實(shí)踐與道德數(shù)據(jù)供應(yīng)鏈的結(jié)合力量。ServiceNow的StarCoder2開(kāi)發(fā)團(tuán)隊(duì)負(fù)責(zé)人、BigCode的聯(lián)合負(fù)責(zé)人Harm de Vries在一份聲明中表示,最先進(jìn)的開(kāi)放訪問(wèn)模式改進(jìn)了以前的GenAI性能,以提高開(kāi)發(fā)人員的生產(chǎn)力,并為開(kāi)發(fā)人員提供平等的機(jī)會(huì)獲得代碼生成AI的好處,這反過(guò)來(lái)又使任何規(guī)模的企業(yè)能夠更容易地滿足其全部業(yè)務(wù)潛力。
StarCoder2:滿足三種不同需求的三種模型
雖然BigCode最初推出的StarCoder LLM只有15B參數(shù),并接受了大約80種編程語(yǔ)言的培訓(xùn),但最新一代產(chǎn)品超越了它,推出了三種不同大小的模型-3B、7B和15B - 并接受了619種編程語(yǔ)言的培訓(xùn)。根據(jù)BigCode的說(shuō)法,被稱為Stack的新模型的訓(xùn)練數(shù)據(jù)比上次使用的數(shù)據(jù)大了七倍多。
更重要的是,BigCode社區(qū)使用了針對(duì)最新一代的新培訓(xùn)技術(shù),以確保模型能夠理解并生成低資源編程語(yǔ)言,如COBOL、數(shù)學(xué)和程序源代碼討論。
最小的30億參數(shù)模型是使用ServiceNow的Fast LLM框架進(jìn)行訓(xùn)練的,而7B模型是使用Huging Face的Nantron框架開(kāi)發(fā)的,兩者都旨在提供高性能的文本到代碼和文本到工作流生成,同時(shí)需要較少的計(jì)算。
同時(shí),使用端到端的英偉達(dá) Nemo云本地框架和英偉達(dá) TensorRT-LLM軟件對(duì)最大的150億參數(shù)模型進(jìn)行了訓(xùn)練和優(yōu)化。
雖然這些機(jī)型在不同編碼場(chǎng)景中的表現(xiàn)如何仍有待觀察,但兩家公司確實(shí)注意到,最小的3B模型的性能與最初的15B StarCoder LLM相當(dāng)。
根據(jù)他們的需求,企業(yè)團(tuán)隊(duì)可以使用這些模型中的任何一個(gè),并根據(jù)不同用例的企業(yè)數(shù)據(jù)對(duì)其進(jìn)行進(jìn)一步的微調(diào),這可以是任何特殊任務(wù),從應(yīng)用程序源代碼生成、工作流生成和文本摘要到代碼完成、高級(jí)代碼摘要和代碼片段檢索。
兩家公司強(qiáng)調(diào),這些模型經(jīng)過(guò)更廣泛和更深入的培訓(xùn),提供了存儲(chǔ)庫(kù)上下文,從而實(shí)現(xiàn)了準(zhǔn)確和上下文感知的預(yù)測(cè)。最終,所有這些都為加速開(kāi)發(fā)鋪平了道路,同時(shí)節(jié)省了工程師和開(kāi)發(fā)人員專注于更關(guān)鍵任務(wù)的時(shí)間。
英偉達(dá)應(yīng)用研究副總裁Jonathan Cohen在新聞聲明中表示:“由于每個(gè)軟件生態(tài)系統(tǒng)都有專有的編程語(yǔ)言,代碼LLM可以推動(dòng)每個(gè)行業(yè)在效率和創(chuàng)新方面的突破?!?/p>
“英偉達(dá)與ServiceNow和Huging Face的合作引入了安全、負(fù)責(zé)任的開(kāi)發(fā)模式,并支持更廣泛地接觸負(fù)責(zé)任的GenAI,我們希望這將使全球社會(huì)受益”,他補(bǔ)充道。
如何開(kāi)始使用StarCoder2?
如前所述,StarCoder2系列中的所有模型都是在Open Rail-M許可證下提供的,可以免版稅訪問(wèn)和使用。支持代碼可以在BigCode項(xiàng)目的GitHub庫(kù)中找到。作為另一種選擇,團(tuán)隊(duì)也可以下載并使用擁抱臉的所有三個(gè)模型。
也就是說(shuō),由英偉達(dá)培訓(xùn)的15B模型也將出現(xiàn)在英偉達(dá) AI Foundation上,使開(kāi)發(fā)人員能夠直接從他們的瀏覽器或通過(guò)API端點(diǎn)進(jìn)行試驗(yàn)。
雖然StarCoder不是AI驅(qū)動(dòng)的代碼生成領(lǐng)域的第一個(gè)進(jìn)入者,但該項(xiàng)目的最新一代帶來(lái)的廣泛選擇肯定允許企業(yè)在應(yīng)用程序開(kāi)發(fā)中利用LLMS,同時(shí)還可以節(jié)省計(jì)算。
該領(lǐng)域的其他知名參與者包括OpenAI和亞馬遜,前者提供Codex,為GitHub聯(lián)合試點(diǎn)服務(wù)提供支持,而后者提供CodeWhisper工具,還有來(lái)自Replit和Codenium的激烈競(jìng)爭(zhēng),Replit在Hugging Face上有幾個(gè)小型AI編碼模型,Codenium最近以5億美元的估值獲得了6500萬(wàn)美元的B輪融資。