偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

如何突破大語(yǔ)言模型的最大瓶頸

作者：布加迪 2024-03-06 09:00:00

速率限制意味著大家都在等待更好的計(jì)算資源或不同的生成式AI模型。

譯者 | 布加迪

審校 | 重樓

OpenAI的GPT-4和Anthropic的Claude 2等大語(yǔ)言模型（LLM）已經(jīng)憑借其生成人類(lèi)級(jí)文本的功能激發(fā)了公眾的想象力。企業(yè)也同樣熱情高漲，許多企業(yè)在探索如何利用LLM改進(jìn)產(chǎn)品和服務(wù)。然而，一大瓶頸嚴(yán)重制約了最先進(jìn)的LLM在生產(chǎn)環(huán)境中的采用，那就是速率限制。有一些方法可以突破這種速率限制，但如果沒(méi)有計(jì)算資源方面的改進(jìn)，真正的進(jìn)步可能不會(huì)到來(lái)。

承擔(dān)成本

公共LLM API允許用戶(hù)訪(fǎng)問(wèn)OpenAI和Anthropic等公司的模型，對(duì)每分鐘可以處理的token（文本單位）的數(shù)量、每分鐘的請(qǐng)求數(shù)量以及每天的請(qǐng)求數(shù)量施加了嚴(yán)格的限制。

對(duì)OpenAI GPT-4的API調(diào)用目前限制為每分鐘3個(gè)請(qǐng)求（RPM）、每天200個(gè)請(qǐng)求，以及每分鐘最多10000個(gè)token（TPM）。最高檔允許10000 RPM和300000 TPM的限制。

針對(duì)每分鐘需要處理數(shù)百萬(wàn)個(gè)token的大型生產(chǎn)級(jí)應(yīng)用程序，這種速率限制使得企業(yè)使用最先進(jìn)的LLM實(shí)際上行不通。請(qǐng)求不斷增多，需要幾分鐘乃至幾小時(shí)，無(wú)法進(jìn)行任何實(shí)時(shí)處理。

大多數(shù)企業(yè)仍在竭力安全有效地大規(guī)模采用LLM。但是即使它們解決了數(shù)據(jù)敏感性和內(nèi)部流程方面的挑戰(zhàn)，速率限制也成為一個(gè)頑固的障礙。隨著產(chǎn)品使用和數(shù)據(jù)的積累，圍繞LLM開(kāi)發(fā)產(chǎn)品的初創(chuàng)公司很快就會(huì)遇到瓶頸，但擁有龐大用戶(hù)群的大企業(yè)受到的限制最大。如果沒(méi)有特殊的訪(fǎng)問(wèn)機(jī)制，它們的應(yīng)用程序根本無(wú)法運(yùn)行。

該怎么辦？

規(guī)避速率限制

一條路子是完全繞過(guò)速率限制技術(shù)。比如說(shuō)，有些特定用途的生成式AI模型沒(méi)有LLM瓶頸。總部位于英國(guó)牛津的初創(chuàng)公司Diffblue依賴(lài)沒(méi)有速率限制的強(qiáng)化學(xué)習(xí)技術(shù)。它在一件事上做得非常好，非常有效，可能覆蓋數(shù)百萬(wàn)行代碼。它自主創(chuàng)建Java單元測(cè)試的速度是開(kāi)發(fā)人員的250倍，編譯速度是開(kāi)發(fā)人員的10倍。

由Diffblue Cover編寫(xiě)的單元測(cè)試使您能夠快速了解復(fù)雜的應(yīng)用程序，從而使大企業(yè)和初創(chuàng)公司都能夠滿(mǎn)懷信心地進(jìn)行創(chuàng)新，這對(duì)于將遺留應(yīng)用程序遷移到云端是理想選擇。它還可以自主地編寫(xiě)新代碼、改進(jìn)現(xiàn)有代碼、加速CI/CD管道，在不需要人工審查的情況下深入洞察與變更相關(guān)的風(fēng)險(xiǎn)。這不賴(lài)。

當(dāng)然，一些公司不得不依賴(lài)LLM。它們又有什么選擇？

增加計(jì)算資源

一種選擇就是請(qǐng)求提高公司的速率限制。到目前為止這個(gè)做法不錯(cuò)，但潛在的問(wèn)題是，許多LLM提供商實(shí)際上沒(méi)有額外的能力好提供。這是問(wèn)題的癥結(jié)所在。GPU可用性取決于來(lái)自臺(tái)積電等代工廠(chǎng)的硅圓片總數(shù)。占主導(dǎo)地位的GPU制造商英偉達(dá)無(wú)法采購(gòu)足夠的芯片來(lái)滿(mǎn)足AI工作負(fù)載帶來(lái)的爆炸式需求，大規(guī)模推理需要成千上萬(wàn)個(gè)GPU組合在一起。

增加GPU供應(yīng)量的最直接方法是建造新的半導(dǎo)體制造工廠(chǎng)，即所謂的晶圓廠(chǎng)。但是一座新的晶圓廠(chǎng)造價(jià)高達(dá)200億美元，需要數(shù)年才能建成。英特爾、三星代工、臺(tái)積電、德州儀器等主要芯片制造商正在美國(guó)建設(shè)新的半導(dǎo)體生產(chǎn)設(shè)施。眼下，所有人只能等待。

因此，利用GPT-4的實(shí)際生產(chǎn)部署很少。真正部署GPT-4的環(huán)境范圍有限，它們使用LLM作為輔助功能，而不是作為核心產(chǎn)品組件。大多數(shù)公司仍在評(píng)估試點(diǎn)和概念驗(yàn)證。在考慮速率限制之前，本身就需要將LLM集成到企業(yè)工作流程中。

尋找答案

GPU制約限制了GPT-4的處理能力，這促使許多公司使用其他生成式AI模型。比如說(shuō)，AWS擁有自己的專(zhuān)門(mén)用于訓(xùn)練和推理的芯片（一旦訓(xùn)練好就運(yùn)行模型），從而為客戶(hù)提供了更大的靈活性。重要的是，并不是每個(gè)問(wèn)題都需要最強(qiáng)大、最昂貴的計(jì)算資源。AWS提供了一系列更便宜、更容易調(diào)優(yōu)的模型，比如Titan Light。一些公司在探索替代方案，比如對(duì)Meta的Llama 2等開(kāi)源模型進(jìn)行微調(diào)。針對(duì)涉及檢索增強(qiáng)生成（RAG）、需要將上下文附加到提示并生成響應(yīng)的簡(jiǎn)單用例，功能較弱的模型就足夠了。

另一些技術(shù)也有所幫助，比如跨多個(gè)具有較高限制的舊LLM并行處理請(qǐng)求、數(shù)據(jù)分塊和模型蒸餾。有幾種技術(shù)可以降低推理的成本、提高速度。量化降低了模型中權(quán)重的精度，權(quán)重通常是32位浮點(diǎn)數(shù)。這不是一種新方法。比如說(shuō)，谷歌的推理硬件張量處理單元（TPU）只適用于權(quán)重被量化為8位整數(shù)的模型。該模型失去了一些準(zhǔn)確性，但變得小巧得多，運(yùn)行起來(lái)更快。

一種名為“稀疏模型”的新流行技術(shù)可以降低訓(xùn)練和推理的成本，耗費(fèi)的人力比模型蒸餾更少。LLM好比是許多較小語(yǔ)言模型的集合。比如說(shuō)，當(dāng)您用法語(yǔ)向GPT-4詢(xún)問(wèn)問(wèn)題時(shí)，只需要使用模型的法語(yǔ)處理部分，稀疏模型就利用了這個(gè)特點(diǎn)。

您可以做稀疏訓(xùn)練，只需要訓(xùn)練模型的法語(yǔ)子集，也可以做稀疏推理，只運(yùn)行模型的法語(yǔ)部分。與量化一起使用時(shí)，這可以從LLM中提取更小的專(zhuān)用模型，這種模型可以在CPU而不是GPU上運(yùn)行。GPT-4之所以出名，是由于它是一個(gè)通用文本生成器，而不是更狹窄、更特定的模型。

在硬件方面，專(zhuān)門(mén)針對(duì)AI工作負(fù)載的新處理器架構(gòu)有望提高效率。Cerebras已經(jīng)研制了一種巨大的晶圓級(jí)引擎，針對(duì)機(jī)器學(xué)習(xí)進(jìn)行了優(yōu)化，而Manticore正在改造制造商丟棄的“廢棄”GPU芯片，以提供實(shí)用的芯片。

最終，最大的成效將來(lái)自需要更少計(jì)算的下一代LLM。結(jié)合經(jīng)過(guò)優(yōu)化的硬件，未來(lái)的LLM可以突破目前的速率限制障礙。目前，眾多渴望的公司競(jìng)相要求利用LLM的功能，生態(tài)系統(tǒng)不堪重負(fù)。那些希望在AI領(lǐng)域開(kāi)辟新道路的人可能需要等到GPU供應(yīng)進(jìn)一步趨緩之后。具有諷刺意味的是，這些限制可能恰恰有助于撇除圍繞生成式AI的一些泡沫炒作，讓這個(gè)行業(yè)有時(shí)間適應(yīng)積極的模式，以便高效經(jīng)濟(jì)地使用它。

原文標(biāo)題：The biggest bottleneck in large language models，作者：Matt Asay

責(zé)任編輯：華軒來(lái)源： 51CTO

大語(yǔ)言模型人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<s id="2msnw"></s>

<abbr id="2msnw"></abbr>

<pre id="2msnw"><span id="2msnw"></span></pre>