偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

使用開源GenAI時需要注意的十個問題

人工智能
在查看開源GenAI時,排行榜是一個好的起點,EY Americas的GenAI負責人David Guarrera說,特別是Hugging Face在基準測試方面做得很好,他說。

如今似乎任何人都可以制作AI模型。即使你沒有訓練數(shù)據(jù)或編程技巧,你也可以選擇你喜歡的開源模型,對其進行調(diào)整,并以新的名字發(fā)布。

根據(jù)斯坦福大學在4月發(fā)布的AI指數(shù)報告,2023年發(fā)布了149個基礎模型,其中三分之二是開源的,而且有大量的變體。Hugging Face目前僅跟蹤用于文本生成的LLM就超過80000個,并且幸運的是,它有一個排行榜,可以讓你快速根據(jù)各種基準對模型進行排序。盡管這些模型落后于大型商業(yè)模型,但它們正在迅速改進。

在查看開源GenAI時,排行榜是一個好的起點,EY Americas的GenAI負責人David Guarrera說,特別是Hugging Face在基準測試方面做得很好,他說。

“但是不要低估親自嘗試這些模型的價值,”他說,“因為它們是開源的,很容易做到這一點并進行切換?!彼a充道,開源模型和它們的閉源商業(yè)替代品之間的性能差距正在縮小。

“開源很棒,”Uber Freight的工程主管Val Marchevsky補充道,“我覺得開源非常有價值?!彼鼈儾粌H在性能上趕上了專有模型,而且有些提供了閉源模型無法匹敵的透明度,他說?!耙恍╅_源模型允許你查看用于推理的內(nèi)容和不用于推理的內(nèi)容,”他補充道,“可審核性對于防止幻覺非常重要?!?/p>

當然,還有價格優(yōu)勢。“如果你有一個恰好有容量的數(shù)據(jù)中心,為什么要付錢給別人?”他說。

公司已經(jīng)非常熟悉使用開源代碼。根據(jù)Synopsys在2月發(fā)布的開源安全和風險分析,96%的所有商業(yè)代碼庫包含開源組件。

由于所有這些經(jīng)驗,公司應該知道如何確保它們使用的是適當許可的代碼,如何檢查漏洞以及如何保持所有內(nèi)容的最新狀態(tài)。然而,一些規(guī)則和最佳實踐有一些特別的細微差別,公司可能會忽略。以下是最重要的幾點。

1. 奇怪的新許可條款

不同開源許可證類型的情況已經(jīng)足夠復雜了。項目是否可以安全用于商業(yè)用途,還是只能用于非商業(yè)用途?可以修改和分發(fā)嗎?可以安全地并入專有代碼庫嗎?現(xiàn)在,隨著GenAI的出現(xiàn),有一些新的皺褶。首先,有一些新的許可證類型,只在一個非常寬松的定義下才算開源。

例如,Llama許可證。Llama家族的模型是一些最好的開源LLM之一,但Meta正式將其描述為“一個定制的商業(yè)許可證,平衡了對模型的開放訪問以及為幫助解決潛在的濫用而制定的責任和保護措施”。

企業(yè)被允許商業(yè)使用這些模型,開發(fā)人員可以在Llama基礎模型的基礎上創(chuàng)建和分發(fā)額外的工作,但它們不能使用Llama輸出來改進其他LLM,除非它們本身是Llama的衍生品。而且,如果企業(yè)或其附屬公司每月有超過700個用戶,他們必須申請許可證,Meta可能會也可能不會授予。如果他們使用Llama 3,他們必須在顯著位置包含“使用Llama 3構(gòu)建”的標志。

類似地,Apple剛剛發(fā)布了OpenELM,根據(jù)“Apple示例代碼許可證”,這也是為了這個場合而發(fā)明的,僅涵蓋版權許可,不包括專利權。

Apple和Meta都沒有使用公認的開源許可證,但代碼實際上是開放的。Apple實際上不僅發(fā)布了代碼,還發(fā)布了模型權重、訓練數(shù)據(jù)集、訓練日志和預訓練配置。這就引出了開源許可的另一個方面。傳統(tǒng)的開源軟件就是代碼。它是開源的,意味著你可以看到它的作用以及是否存在潛在的問題或漏洞。

然而,GenAI不僅僅是代碼。它還包括訓練數(shù)據(jù)、模型權重和微調(diào)。所有這些都是了解模型工作原理并識別潛在偏見的關鍵。一個模型如果訓練在地平說陰謀論的存檔上,它將無法回答科學問題,或者由朝鮮黑客進行微調(diào)的模型可能無法正確識別惡意軟件。那么,開源LLM是否發(fā)布所有這些信息?這取決于模型,甚至取決于模型的特定版本,因為沒有標準。

“有時它們會提供代碼,但如果你沒有微調(diào),你可能會花費很多錢才能達到相當?shù)男阅?,”卡?nèi)基梅隆大學AI教授、前普華永道全球AI負責人Anand Rao說。

2. 技能短缺

開源通常是一種自助式的努力。公司可以下載代碼,但然后它們需要內(nèi)部專家或雇傭的顧問來使一切正常工作。這在GenAI領域是一個大問題。沒有人有多年的經(jīng)驗,因為這項技術太新了。如果一家公司剛剛開始使用GenAI,或者它想快速推進,Rao說,最好從專有平臺開始。

“下載開源版本需要專業(yè)知識,”他說。但是,一旦公司完成了概念驗證,將模型部署到生產(chǎn)中,并開始產(chǎn)生費用,那么就可能是時候考慮開源替代品了,他補充道。

行業(yè)經(jīng)驗的缺乏也給開源GenAI領域帶來了另一個問題。開源的一個關鍵優(yōu)勢是,許多人查看代碼,可以發(fā)現(xiàn)編程錯誤、安全漏洞和其他弱點。但是,這種“千眼”方法只有在確實有千眼能夠理解他們看到的東西時才起作用。

3. 越獄

LLM特別容易越獄,即用戶給它一個巧妙的提示,使其違反其指南,例如生成惡意軟件。在商業(yè)項目中,有高度動機的供應商在背后支持他們,可以識別這些漏洞并在它們出現(xiàn)時關閉它們。此外,供應商可以訪問用戶發(fā)送給公共版本模型的提示,因此他們可以監(jiān)控是否有可疑活動的跡象。

惡意行為者不太可能購買在私人環(huán)境中運行的企業(yè)版本的產(chǎn)品,這些提示不會共享給供應商以改進模型。對于開源項目,團隊中可能沒有任何人負責尋找越獄的跡象。壞人可以免費下載這些模型,并在他們自己的環(huán)境中運行,以測試潛在的漏洞。壞人還可以看到模型使用的系統(tǒng)提示以及模型開發(fā)人員可能構(gòu)建的任何其他防護措施,從而在越獄時占得先機。

“這不僅僅是試驗和錯誤,”Rao說。攻擊者可以分析訓練數(shù)據(jù),例如,找出使模型誤識別圖像的方法,或者當它遇到看似無害的提示時出錯。

如果一個AI模型在其輸出上添加水印,惡意行為者可能會分析代碼以逆向工程過程,以去除水印。攻擊者還可以分析模型或其他支持代碼和工具,找出漏洞區(qū)域。

“你可以用請求淹沒基礎設施,這樣模型就不會工作了,”全球數(shù)字化轉(zhuǎn)型咨詢公司Nortal的高級數(shù)據(jù)科學家和能力主管Elena Sügis說?!爱斈P褪歉笙到y(tǒng)的一部分時,它的輸出被系統(tǒng)的另一個部分使用,如果我們可以攻擊模型產(chǎn)生輸出的方式,它將擾亂整個系統(tǒng),這對企業(yè)來說可能是危險的?!?/p>

4. 訓練數(shù)據(jù)的風險

藝術家、作家和其他版權持有者正左和右地起訴大型AI公司。但是,如果他們認為他們的知識產(chǎn)權被一個開源模型侵犯了,而唯一有深口袋的是那些將該模型納入其產(chǎn)品或服務的企業(yè)用戶呢?企業(yè)用戶會被起訴嗎?

“這是一個潛在的問題,沒有人真正知道一些待決訴訟將如何解決,”EY的Guarrera說。我們可能正走向一個必須對數(shù)據(jù)集進行某種補償?shù)氖澜?,他說?!按罂萍脊靖心芰ㄥX來應對可能圍繞版權的風暴?!?/p>

大型商業(yè)供應商不僅有錢購買訓練數(shù)據(jù)和打官司,他們也有錢購買策劃的數(shù)據(jù)集,Sügis說。免費的公共數(shù)據(jù)集不僅包含未經(jīng)許可使用的版權內(nèi)容。它們還充滿了不準確和有偏見的信息、惡意軟件和其他可能降低輸出質(zhì)量的材料。

“許多模型開發(fā)者正在談論使用策劃的數(shù)據(jù),”她說。“這比你將整個互聯(lián)網(wǎng)扔給它進行訓練要貴得多。”

5. 新的數(shù)據(jù)泄露渠道

由于GenAI項目不僅僅是代碼,還有更多潛在的數(shù)據(jù)暴露風險。LLM(大型語言模型)可能在多個方面受到惡意行為者的攻擊。他們可能會滲透到管理不善的項目開發(fā)團隊中,在軟件中添加惡意代碼。但他們也可能會毒害訓練數(shù)據(jù)、微調(diào)或權重,Sügis說。

“黑客可能會用惡意代碼示例重新訓練模型,這樣它就會侵入用戶的基礎設施,”她說?!盎蛘咚麄兛梢杂眉傩侣労湾e誤信息訓練它。”

另一個攻擊向量是模型的系統(tǒng)提示。

“這通常對用戶是隱藏的,”她補充道?!跋到y(tǒng)提示可能包含讓模型識別不受歡迎或不道德行為的防護措施或安全規(guī)則?!?/p>

專有模型不會公開其系統(tǒng)提示,她說,訪問這些提示可能會讓黑客找到攻擊模型的方法。

6. 缺少防護措施

一些開源團體可能在哲學上反對在其模型上設置防護措施,或者他們認為模型在沒有任何限制的情況下表現(xiàn)會更好。而有些模型則專門為惡意用途而創(chuàng)建。企業(yè)在選擇LLM時可能不一定知道他們的模型屬于哪一類。Nortal的Sügis說,目前沒有獨立機構(gòu)評估開源GenAI模型的安全性。歐洲的《人工智能法案》將要求提供一些此類文件,但大部分規(guī)定要到2026年才會生效,她說。

“我會盡可能多地獲取文檔,測試和評估模型,并在公司內(nèi)部實施一些防護措施,”她說。

7. 缺乏標準

用戶驅(qū)動的開源項目通?;跇藴?,因為企業(yè)用戶喜歡它們,并且希望實現(xiàn)互操作性。事實上,根據(jù)Linux基金會去年發(fā)布的一項對近500名技術專業(yè)人員的調(diào)查,71%的人更喜歡開源標準,相比之下只有10%的人更喜歡封閉標準。而生產(chǎn)專有軟件的公司可能更希望將其客戶困在其生態(tài)系統(tǒng)中。但如果你認為所有的開源GenAI都是基于標準的,那你就錯了。

事實上,當大多數(shù)人談論AI標準時,他們談論的是倫理、隱私和可解釋性等內(nèi)容。而在這一領域確實有一些工作正在進行,例如去年12月發(fā)布的ISO/IEC 42001人工智能管理系統(tǒng)標準。4月29日,NIST發(fā)布了一個AI標準草案,涵蓋了很多內(nèi)容,從創(chuàng)建一個關于AI的通用語言開始,也主要關注風險和治理問題。但在技術標準方面,進展不大。

“這是一個非常初期的領域,”云原生計算基金會的CIO兼生態(tài)系統(tǒng)負責人Taylor Dolezal說?!拔铱吹揭恍╆P于數(shù)據(jù)分類的好對話,討論為訓練數(shù)據(jù)、API和提示設置標準格式?!钡侥壳盀橹梗@些只是對話。

他說,目前已經(jīng)有一個向量數(shù)據(jù)庫的通用數(shù)據(jù)標準,但沒有標準查詢語言。關于自主代理的標準呢?

“我還沒有看到,但我希望看到,”他說。“找出不僅讓代理執(zhí)行特定任務的方法,還要把這些任務聯(lián)系在一起?!?/p>

用于創(chuàng)建代理的最常見工具LangChain更像是一個框架而不是標準,他說。而用戶公司,即那些對標準有需求的公司,還沒有準備好,“大多數(shù)最終用戶在實際操作之前并不知道他們想要什么?!?/p>

相反,他說,人們更有可能將大供應商的API和接口視為潛在的事實標準?!斑@就是我看到人們在做的事,”他說。

8. 缺乏透明度

你可能認為開源模型本質(zhì)上更透明,但情況可能并非總是如此。大型商業(yè)項目可能有更多資源來創(chuàng)建文檔,BI軟件供應商Vero AI的CEO Eric Sydell說。該公司最近發(fā)布了一份報告,基于可見性、完整性、立法準備情況和透明度等方面對主要的GenAI模型進行了評分。Google的Gemini和OpenAI的GPT-4排名最高。

“僅僅因為它們是開源的,并不意味著它們提供相同的信息,關于模型的背景和開發(fā)方式,”Sydell說?!澳壳?,大型商業(yè)模型在這方面做得更好。”

以偏見為例。

“我們發(fā)現(xiàn)我們的排名中前兩名的閉源模型在這方面有相當多的文檔,并投入時間探討這個問題,”他說。

9. 源代碼問題

開源項目經(jīng)常被分叉,但當這種情況發(fā)生在GenAI時,你會面臨傳統(tǒng)軟件中不存在的風險。比如,一個基礎模型使用了有問題的訓練數(shù)據(jù)集,有人從中創(chuàng)建了一個新模型,那么它將繼承這些問題,Sonatype的產(chǎn)品高級副總裁Tyler Warden說。

“在權重和調(diào)優(yōu)方面有很多黑箱操作,”他說。

事實上,這些問題可能追溯到好幾級代碼,最終模型的代碼中不會顯示出來。當公司下載一個模型供自己使用時,這個模型與原始來源的距離越來越遠。原始基礎模型可能已經(jīng)修復了這些問題,但根據(jù)上下鏈的透明度和溝通量,最后一個模型的開發(fā)人員可能甚至不知道這些修復。

10. 新的影子IT

使用開源組件作為軟件開發(fā)過程一部分的公司,通常會有相應的流程來審核庫并確保組件是最新的。他們會確保項目有良好的支持,安全問題得到處理,并且軟件具有適當?shù)脑S可證條款。

然而,對于GenAI,負責審核的人可能不知道要查找什么。此外,GenAI項目有時會脫離標準的軟件開發(fā)流程。它們可能來自數(shù)據(jù)科學團隊或秘密項目。開發(fā)人員可能會下載模型來試驗,最終被更廣泛地使用?;蛘邩I(yè)務用戶自己可能會按照在線教程設置他們自己的GenAI,完全繞過IT部門。

GenAI的最新發(fā)展,自治代理,有可能將巨大的力量交到這些系統(tǒng)手中,從而將這種類型的影子IT的風險提升到新的高度。

“如果你要進行實驗,創(chuàng)建一個容器,以一種對組織安全的方式進行,”Corelight開源高級總監(jiān)Kelley Misata說。她表示,這應該由公司的風險管理團隊負責,并且確保開發(fā)人員以及整個業(yè)務理解有一個流程的是CIO的責任。

“他們是最適合設定文化的人,”她說。“讓我們利用開源提供的創(chuàng)新和所有偉大之處,但要睜大眼睛進入?!?/p>

兩全其美的方式

一些公司在尋找開源的低成本、透明度、隱私和控制,但希望有一個供應商來提供治理、長期可持續(xù)性和支持。在傳統(tǒng)的開源世界中,有很多供應商可以做到這一點,比如Red Hat、MariaDB、Docker、Automattic等。

“它們?yōu)榇笮推髽I(yè)提供了一定程度的安全性和保障,”AArete數(shù)據(jù)科學和分析副總裁Priya Iragavarapu說?!斑@幾乎是一種降低風險的方式?!?/p>

她說,在GenAI領域,這樣的供應商還不多,但情況正在開始改變。

責任編輯:姜華 來源: 企業(yè)網(wǎng)D1Net
相關推薦

2023-10-04 00:03:00

SQL數(shù)據(jù)庫

2022-09-13 10:09:23

IT 領導者招聘

2021-10-15 10:04:37

云計算安全云服務

2012-07-04 14:40:37

Ajax

2016-11-24 15:54:06

androidJSONObject

2016-12-26 18:51:34

AndroidJavascriptJSONObject

2024-01-29 15:44:20

人工智能GenAI

2015-10-08 10:07:29

游戲開發(fā)內(nèi)存使用

2021-02-24 07:40:38

React Hooks閉包

2021-10-15 16:37:45

云計算KubernetesApache

2018-06-11 11:03:09

2011-12-21 09:54:15

項目經(jīng)理

2010-06-29 15:54:36

UML建模

2018-07-12 14:16:35

PHP7代碼SQL

2013-09-29 10:36:08

VMware虛擬化

2009-04-23 14:30:19

UML建模

2020-10-26 14:01:22

Java泛型

2021-02-05 17:35:07

數(shù)據(jù)高管CIO技術

2022-09-30 09:04:29

開源開發(fā)

2015-09-20 16:23:27

點贊
收藏

51CTO技術棧公眾號