偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

少用ChatGPT,多支持開(kāi)源!紐約大學(xué)教授Nature發(fā)文:為了科學(xué)界的未來(lái)

人工智能 新聞
為了科學(xué)界的未來(lái),加入開(kāi)源LLM陣營(yíng)吧!

免費(fèi)的ChatGPT用的是很爽,但這種閉源的語(yǔ)言模型最大的缺點(diǎn)就是不開(kāi)源,外界根本無(wú)法了解背后的訓(xùn)練數(shù)據(jù)以及是否會(huì)泄露用戶隱私等問(wèn)題,也引發(fā)了后續(xù)工業(yè)界、學(xué)術(shù)界聯(lián)合開(kāi)源了LLaMA等一系列羊駝模型。

最近Nature世界觀欄目刊登了一篇文章,紐約大學(xué)政治與數(shù)據(jù)科學(xué)教授Arthur Spirling呼吁大家更多地使用開(kāi)源模型,實(shí)驗(yàn)結(jié)果可復(fù)現(xiàn),也符合學(xué)術(shù)倫理。

重點(diǎn)是,萬(wàn)一哪天OpenAI不爽了,關(guān)閉了語(yǔ)言模型接口,或是靠封閉壟斷漲價(jià)的話,那用戶只能無(wú)奈地說(shuō)一句,「終究是學(xué)術(shù)敗給了資本」

圖片

文章作者Arthur Spirling將于今年7月加入普林斯頓大學(xué)教授政治學(xué),主要研究方向是政治方法論和立法行為,具體為文本數(shù)據(jù)(text-as-data)、自然語(yǔ)言處理、貝葉斯統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、項(xiàng)目反應(yīng)理論和廣義線性模型在政治科學(xué)中的應(yīng)用。

研究人員應(yīng)該避免商用模型的誘惑,共同開(kāi)發(fā)透明的大型語(yǔ)言模型,以確??芍貜?fù)性。

擁抱開(kāi)源,拒絕壟斷

似乎每天都有一個(gè)全新的大型語(yǔ)言模型(LLM)推出,其創(chuàng)建者和學(xué)術(shù)界相關(guān)人士每次都會(huì)對(duì)新模型如何與人類(lèi)進(jìn)行流暢交流的能力慷慨陳詞,比如可以幫用戶改代碼,寫(xiě)推薦信,給文章寫(xiě)摘要等等。

作為一名正在使用并教授如何使用這些模型的政治和數(shù)據(jù)科學(xué)家,我認(rèn)為學(xué)者們應(yīng)該保持警惕,因?yàn)槟壳白钍艽蟊娮放醯恼Z(yǔ)言模型仍然是私有且封閉的,即由公司運(yùn)營(yíng),他們不會(huì)披露基本模型的具體信息,只會(huì)獨(dú)立地檢查或驗(yàn)證模型的能力,所以研究人員和公眾并不知道模型的訓(xùn)練使用了哪些文件。

急于將語(yǔ)言模型納入自己的研究流程可能會(huì)出問(wèn)題,可能會(huì)威脅到來(lái)之不易的「研究倫理」和「結(jié)果復(fù)現(xiàn)性」方面的相關(guān)進(jìn)展。

不光不能依賴商用模型,研究人員還要通力合作開(kāi)發(fā)透明且不依賴于某個(gè)具體公司利益的開(kāi)源大型語(yǔ)言模型。

雖然商用模型非常方便,可以開(kāi)箱即用,但投資開(kāi)源語(yǔ)言模型是歷史的趨勢(shì),既要想辦法推進(jìn)開(kāi)發(fā),也要讓模型應(yīng)用于未來(lái)的研究中。

我樂(lè)觀地估計(jì),語(yǔ)言模型工具的未來(lái)一定是開(kāi)源的,類(lèi)似于開(kāi)源統(tǒng)計(jì)軟件的發(fā)展歷史,剛開(kāi)始商用的統(tǒng)計(jì)軟件很流行,但目前基本所有社區(qū)都在使用R或Python等開(kāi)源平臺(tái)。

舉個(gè)例子,去年7月發(fā)布的開(kāi)源語(yǔ)言模型BLOOM,其開(kāi)發(fā)團(tuán)隊(duì)Hugging Face是一家總部位于紐約的人工智能公司,攜手一千多名志愿者和研究人員共同打造,部分研發(fā)資金由法國(guó)政府提供;其他團(tuán)隊(duì)也在努力開(kāi)源大型語(yǔ)言模型。

我認(rèn)為類(lèi)似這樣的開(kāi)源項(xiàng)目都是偉大的,但我們還需要更多的合作,需要匯集國(guó)際資源和專(zhuān)業(yè)知識(shí)。

開(kāi)源大型語(yǔ)言模型的團(tuán)隊(duì)通常不像大公司那樣資金充足,并且開(kāi)發(fā)團(tuán)隊(duì)還需要持續(xù)運(yùn)營(yíng)以跟蹤領(lǐng)域內(nèi)的最新進(jìn)展:AI領(lǐng)域的發(fā)展實(shí)在是太快了,甚至大部分語(yǔ)言模型在推出幾周或幾個(gè)月以后就會(huì)過(guò)時(shí)。

所以參與到開(kāi)源中的學(xué)者越多,最終開(kāi)源模型的效果也會(huì)更好。

使用開(kāi)源 LLM 對(duì)于「可重復(fù)性的研究」至關(guān)重要,因?yàn)殚]源的商用語(yǔ)言模型所有者可以隨時(shí)更改其產(chǎn)品或其訓(xùn)練數(shù)據(jù),都有可能會(huì)改變模型的生成結(jié)果。

比如說(shuō),一個(gè)研究小組可能會(huì)發(fā)表一篇論文,測(cè)試商用語(yǔ)言模型建議的措辭是否可以幫助臨床醫(yī)生更有效地與患者溝通;如果另一個(gè)小組試圖復(fù)現(xiàn)這項(xiàng)研究,誰(shuí)知道模型的基礎(chǔ)訓(xùn)練數(shù)據(jù)是否和當(dāng)時(shí)一樣?甚至該模型是否仍然運(yùn)營(yíng)都是未知數(shù)。

之前研究人員常用的輔助工具GPT-3已經(jīng)被GPT-4取代了,所有基于GPT-3接口的研究在未來(lái)很可能無(wú)法復(fù)現(xiàn),對(duì)于公司來(lái)說(shuō),維持舊模型運(yùn)行的優(yōu)先級(jí)并不高。

相比之下,使用開(kāi)源LLM,研究人員可以查看模型的內(nèi)部架構(gòu)、權(quán)重,了解模型是如何運(yùn)行的,定制代碼并指出錯(cuò)誤,這些細(xì)節(jié)包括模型的可調(diào)參數(shù)和訓(xùn)練模型的數(shù)據(jù),社區(qū)的參與和監(jiān)督都有助于讓這種模式長(zhǎng)期保持穩(wěn)健。

在科學(xué)研究中使用商用語(yǔ)言模型也對(duì)研究倫理產(chǎn)生了負(fù)面的影響,因?yàn)橛糜谟?xùn)練這些模型的文本是未知的,可能包括社交媒體平臺(tái)上用戶之間的直接信息或兒童撰寫(xiě)的內(nèi)容。

盡管制作公共文本的人可能已經(jīng)同意了平臺(tái)的服務(wù)條款,但這可能不是研究人員希望看到的知情同意標(biāo)準(zhǔn)。

在我看來(lái),科學(xué)家應(yīng)該盡可能地在自己的工作中遠(yuǎn)離使用這些模型。我們應(yīng)該轉(zhuǎn)向開(kāi)放的語(yǔ)言模型,并推廣給其他人使用。

此外,我認(rèn)為學(xué)者,尤其是那些擁有大量社交媒體追隨者的學(xué)者,不應(yīng)該推動(dòng)其他人使用商用模型,如果價(jià)格飆升,或者公司倒閉,研究人員可能會(huì)后悔把技術(shù)推廣給同事。

研究人員目前可以求助于私人組織制作的開(kāi)放式語(yǔ)言模型,例如用Facebook母公司Meta開(kāi)源的LLaMA,最初是基于用戶申請(qǐng)、審核的形式發(fā)放的,但完整版模型隨后在網(wǎng)上泄露;還可以使用Meta的開(kāi)放語(yǔ)言模型OPT-175 B

從長(zhǎng)遠(yuǎn)來(lái)看,不利的一面是,這些模型的發(fā)布過(guò)于依賴公司的仁慈,這是一種不穩(wěn)定的局面。

除此之外,還應(yīng)該有與語(yǔ)言模型合作的學(xué)術(shù)行為準(zhǔn)則,以及相應(yīng)的監(jiān)管措施,但這些都需要時(shí)間,根據(jù)我作為政治學(xué)家的經(jīng)驗(yàn),我預(yù)計(jì)這些規(guī)定最初肯定是很不完善的,并且見(jiàn)效緩慢。

與此同時(shí),大規(guī)模的合作項(xiàng)目迫切需要支持,以訓(xùn)練用于研究的開(kāi)源語(yǔ)言模型,類(lèi)似歐洲粒子物理研究所(CERN),國(guó)際粒子物理組織,政府應(yīng)通過(guò)贈(zèng)款增加資金。

該領(lǐng)域正在以閃電般的速度發(fā)展,現(xiàn)在需要開(kāi)始協(xié)調(diào)國(guó)內(nèi)和國(guó)際支持。

科學(xué)界需要有能力評(píng)估由此得到模型的風(fēng)險(xiǎn),并且需要謹(jǐn)慎地向公眾發(fā)布,但很明顯,開(kāi)放的環(huán)境是正確的。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-01-29 14:08:35

ChatGPTAI寫(xiě)作業(yè)

2013-12-04 10:00:56

PythonR語(yǔ)言數(shù)據(jù)科學(xué)家

2019-12-16 14:15:37

Spark數(shù)據(jù)科學(xué)Hadoop

2016-06-01 14:20:24

喬布斯VR蘋(píng)果

2022-12-25 14:04:49

科學(xué)

2024-07-05 13:38:03

2023-05-11 07:01:40

2019-12-25 14:00:26

數(shù)據(jù)科學(xué)人工智能科學(xué)家

2022-07-28 19:31:39

AlphabetDeepMind擴(kuò)展數(shù)據(jù)庫(kù)

2025-07-30 09:15:00

模型開(kāi)源AI

2023-08-17 13:10:32

Nature超導(dǎo)

2023-12-07 06:52:54

AI化學(xué)

2025-01-16 15:00:00

2024-05-26 22:02:59

2021-12-17 10:20:39

Nature事件科學(xué)

2023-10-06 13:35:35

AI研究

2023-08-14 10:57:00

ChatGPTOpenAI

2025-08-26 09:10:00

AI科學(xué)論文

2021-03-18 14:33:10

技術(shù)研發(fā)諾貝爾

2017-06-02 10:13:01

互聯(lián)網(wǎng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)