偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

生成式AI時(shí)代下的企業(yè),該如何充分挖掘數(shù)據(jù)價(jià)值?

人工智能
生成式AI時(shí)代,數(shù)據(jù)是企業(yè)在激烈市場(chǎng)競(jìng)爭(zhēng)中脫穎而出的關(guān)鍵。構(gòu)建基礎(chǔ)模型離不開(kāi)大規(guī)模高質(zhì)量數(shù)據(jù)集支撐,而生成式AI的差異化優(yōu)勢(shì)則來(lái)源于企業(yè)的專有數(shù)據(jù)。同時(shí),隨著生成式AI應(yīng)用的日益普及,如何高效管理和運(yùn)用這些應(yīng)用不斷產(chǎn)生的新數(shù)據(jù),已成為企業(yè)必須面對(duì)和解決的課題。

在數(shù)字經(jīng)濟(jì)迅猛發(fā)展的時(shí)代背景下,數(shù)據(jù)已經(jīng)上升為核心生產(chǎn)要素,不僅有力促進(jìn)了各行各業(yè)的創(chuàng)新轉(zhuǎn)型升級(jí),更成為推動(dòng)經(jīng)濟(jì)增長(zhǎng)的重要力量。

特別是近年來(lái)生成式AI快速發(fā)展,極大地改變了企業(yè)決策的方式和效率。而在這一過(guò)程中,數(shù)據(jù)作為智能的“燃料”,其質(zhì)量和數(shù)量直接關(guān)系到生成式AI應(yīng)用的性能和準(zhǔn)確性,因此顯得越發(fā)重要。

在前不久舉辦的“無(wú)數(shù)據(jù)?不模型——生成式AI時(shí)代的數(shù)據(jù)基座”媒體溝通會(huì)上,亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建介紹了數(shù)據(jù)在生成式AI時(shí)代的作用,以及亞馬遜云科技在數(shù)據(jù)基座構(gòu)建方面的三大核心能力。

當(dāng)前,生成式AI基礎(chǔ)模型的參數(shù)量與訓(xùn)練所需數(shù)據(jù)量可以說(shuō)是天文數(shù)字級(jí)別。以書(shū)籍為例,如果一本書(shū)按500KB算,現(xiàn)在的500T參數(shù)的模型已經(jīng)有332億本,相當(dāng)于現(xiàn)存每個(gè)人類擁有4本書(shū)。而且,這一趨勢(shì)仍將持續(xù),未來(lái)將有越來(lái)越多的模型會(huì)需要更多的數(shù)據(jù)。

如何打造差異化生成式AI應(yīng)用?

現(xiàn)如今,隨著生成式AI的不斷發(fā)展,企業(yè)的關(guān)注點(diǎn)已不僅局限于基礎(chǔ)的大模型數(shù)據(jù),而更加重視利用自身數(shù)據(jù)結(jié)合基礎(chǔ)大模型,從而打造差異化能力。

據(jù)陳曉建介紹,用企業(yè)自身的數(shù)據(jù)去差異化生成式AI應(yīng)用,通過(guò)數(shù)據(jù)定制基礎(chǔ)模型的方式主要分為三大類:檢索增強(qiáng)生成(RAG)、微調(diào)和持續(xù)預(yù)訓(xùn)練,這三種方式適用不同的應(yīng)用場(chǎng)景。具體來(lái)看:

第一,RAG。企業(yè)可以將自身的知識(shí)庫(kù)、數(shù)據(jù)庫(kù)等與生成式AI模型相結(jié)合,在生成過(guò)程中實(shí)時(shí)檢索和利用企業(yè)內(nèi)部的相關(guān)數(shù)據(jù),從而提高生成結(jié)果的準(zhǔn)確性、一致性和信息量。這個(gè)方法相對(duì)簡(jiǎn)便。適用場(chǎng)景包括知識(shí)時(shí)效性、控制幻覺(jué)、用戶隱私數(shù)據(jù)保護(hù)、企業(yè)私域知識(shí)等。

第二,微調(diào)。微調(diào)使用與目標(biāo)任務(wù)相關(guān)的數(shù)據(jù)對(duì)模型進(jìn)行進(jìn)一步訓(xùn)練,以提高其在特定任務(wù)上的性能。微調(diào)的門(mén)檻介于預(yù)訓(xùn)練和RAG兩者之間。適用場(chǎng)景包括角色理解、輸入理解、輸出格式控制等。

第三,持續(xù)預(yù)訓(xùn)練。企業(yè)利用自身專有數(shù)據(jù),如內(nèi)部文檔、客戶記錄等對(duì)模型進(jìn)行持續(xù)預(yù)訓(xùn)練。這種持續(xù)預(yù)訓(xùn)練門(mén)檻較高,成本較大,但是可以得到一個(gè)企業(yè)自身定制的行業(yè)大模型。適用場(chǎng)景包括理解行業(yè)領(lǐng)域知識(shí)/術(shù)語(yǔ),以及用于嚴(yán)控?cái)?shù)據(jù)合規(guī)等。

實(shí)際上,RAG、微調(diào)和持續(xù)預(yù)訓(xùn)練需要的數(shù)據(jù)規(guī)模、數(shù)據(jù)來(lái)源和技術(shù)要求各不相同。例如,RAG和微調(diào)都需要處理相對(duì)較小的數(shù)據(jù)量,這些數(shù)據(jù)通常需要經(jīng)過(guò)預(yù)訓(xùn)練處理。換言之,可能需要將非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),以便大模型更好地理解數(shù)據(jù)格式。相比之下,持續(xù)預(yù)訓(xùn)練處理的數(shù)據(jù)量從GB級(jí)到TB級(jí),甚至更多,這些數(shù)據(jù)無(wú)須過(guò)多預(yù)處理,可將業(yè)務(wù)產(chǎn)生的原始非結(jié)構(gòu)化數(shù)據(jù)直接輸入大模型進(jìn)行持續(xù)訓(xùn)練。

“亞馬遜云科技構(gòu)建數(shù)據(jù)基座的三大核心能力涵蓋從基礎(chǔ)模型訓(xùn)練到生成式AI應(yīng)用構(gòu)建的重要場(chǎng)景,能夠幫助企業(yè)輕松應(yīng)對(duì)海量多模態(tài)數(shù)據(jù),提升基礎(chǔ)模型能力,”陳曉建表示,“作為全球云計(jì)算的開(kāi)創(chuàng)者和引領(lǐng)者,亞馬遜云科技正在幫助各個(gè)行業(yè)、各種規(guī)模的企業(yè)打造強(qiáng)健的數(shù)據(jù)基座,在確保用戶業(yè)務(wù)和數(shù)據(jù)安全的前提下,將數(shù)據(jù)的獨(dú)特價(jià)值賦予基礎(chǔ)模型和生成式AI應(yīng)用,加速企業(yè)業(yè)務(wù)增長(zhǎng)?!?/p>

三大核心能力,充分發(fā)揮數(shù)據(jù)潛力

據(jù)了解,亞馬遜云科技構(gòu)建數(shù)據(jù)基座的三大核心能力包括:模型微調(diào)和預(yù)訓(xùn)練所需的數(shù)據(jù)處理能力、利用專有數(shù)據(jù)與模型快速結(jié)合以產(chǎn)生獨(dú)特價(jià)值的能力,以及有效處理新數(shù)據(jù)以助推生成式AI應(yīng)用持續(xù)快速發(fā)展的能力。

第一,模型微調(diào)和預(yù)訓(xùn)練所需的數(shù)據(jù)處理能力。

在數(shù)據(jù)處理的過(guò)程中,企業(yè)需要解決三個(gè)核心問(wèn)題:一是找到合適的存儲(chǔ)設(shè)備來(lái)承載海量的數(shù)據(jù);二是需要有效的工具來(lái)進(jìn)行原始數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的清洗和處理;三是對(duì)所有數(shù)據(jù)進(jìn)行有效的編目管理,并確保數(shù)據(jù)的安全訪問(wèn)。

在數(shù)據(jù)存儲(chǔ)方面,Amazon?S3的容量,安全和功能都滿足微調(diào)和預(yù)訓(xùn)練基礎(chǔ)模型對(duì)數(shù)據(jù)存儲(chǔ)上的要求:?Amazon?S3擁有超過(guò)200萬(wàn)億個(gè)對(duì)象,平均每秒超過(guò)1億個(gè)請(qǐng)求。亞馬遜云科技上超過(guò)20萬(wàn)個(gè)數(shù)據(jù)湖都使用了Amazon?S3。

另外,亞馬遜云科技專門(mén)構(gòu)建的文件存儲(chǔ)服務(wù)Amazon?FSx?for?Lustre能夠提供亞毫秒延遲和數(shù)百萬(wàn)IOPS的吞吐性能,能夠進(jìn)一步加快模型優(yōu)化的速度。LG?AI?Research使用Amazon?FSx?for?Lustre?將數(shù)據(jù)分發(fā)到實(shí)例中來(lái)加速模型訓(xùn)練,開(kāi)發(fā)了自己的基礎(chǔ)模型?EXAONE,通過(guò)減少基礎(chǔ)設(shè)施管理和提高GPU擴(kuò)展效率,降低了約35%的成本。

在數(shù)據(jù)清洗方面,Amazon?EMR?Serverless和Amazon?Glue可以幫助企業(yè)輕松完成數(shù)據(jù)清理、去重、乃至分詞的操作,讓企業(yè)專注于生成式AI業(yè)務(wù)創(chuàng)新。其中,Amazon?EMR?serverless采用無(wú)服務(wù)器架構(gòu),易用使用,能夠預(yù)置、配置和動(dòng)態(tài)擴(kuò)展應(yīng)用程序在每個(gè)階段所需的計(jì)算和內(nèi)存資源;Amazon?Glue是簡(jiǎn)單、可擴(kuò)展的無(wú)服務(wù)器數(shù)據(jù)集成服務(wù),可以更快地集成數(shù)據(jù),連接不同數(shù)據(jù)源并簡(jiǎn)化相關(guān)的代碼工作。

在數(shù)據(jù)治理方面,Amazon?DataZone讓企業(yè)能夠跨組織邊界大規(guī)模地發(fā)現(xiàn)、共享和管理數(shù)據(jù),不但能夠?yàn)槎嘣炊嗄B(tài)數(shù)據(jù)進(jìn)行有效編目和治理,而且還提供簡(jiǎn)單易用的統(tǒng)一數(shù)據(jù)管理平臺(tái)和工具,從而為用戶解鎖所有數(shù)據(jù)的潛能。

第二,將現(xiàn)有數(shù)據(jù)快速結(jié)合模型產(chǎn)生獨(dú)特價(jià)值的能力。

基礎(chǔ)模型具備諸多優(yōu)點(diǎn),并在多個(gè)層面上展現(xiàn)出了與人類智能相當(dāng)甚至超越的能力。然而,基礎(chǔ)模型也存在一定的局限性,如缺乏垂直行業(yè)的專業(yè)知識(shí),缺乏時(shí)效性,生成錯(cuò)誤信息,以及用戶敏感數(shù)據(jù)的隱私合規(guī)風(fēng)險(xiǎn)。

RAG技術(shù)被普遍認(rèn)為是實(shí)現(xiàn)數(shù)據(jù)與模型結(jié)合的主要途徑之一,該技術(shù)的關(guān)鍵是向量嵌入(vector?embeddings),包括獲取特定領(lǐng)域數(shù)據(jù)源,通過(guò)分詞將其分解為token元素,通過(guò)LLM將這些token導(dǎo)出數(shù)值向量。

通過(guò)這一系列操作,人們成功將元素?cái)?shù)據(jù)中內(nèi)容關(guān)聯(lián)問(wèn)題簡(jiǎn)化為token元素間的距離計(jì)算問(wèn)題。

RAG場(chǎng)景的核心組件就是向量存儲(chǔ),現(xiàn)代應(yīng)用程序需精準(zhǔn)理解用戶需求并正確關(guān)聯(lián)產(chǎn)品或內(nèi)容,這一需求廣泛存在于搜索、評(píng)論、購(gòu)物車(chē)及產(chǎn)品推薦等交互框架中,這些框架又依賴于功能各異的數(shù)據(jù)庫(kù),這使得數(shù)據(jù)庫(kù)成為實(shí)施RAG場(chǎng)景技術(shù)的理想平臺(tái)。

目前,亞馬遜云科技已經(jīng)在八種數(shù)據(jù)存儲(chǔ)中添加了向量搜索功能,讓客戶在構(gòu)建生成式?AI?應(yīng)用程序時(shí)有更大的靈活性。

第三,有效處理新數(shù)據(jù),助力生成式AI應(yīng)用飛速發(fā)展的能力。

由于生成式AI對(duì)基礎(chǔ)資源有極高要求,數(shù)據(jù)處理過(guò)程中的調(diào)用模型環(huán)節(jié)可能非常耗時(shí),給系統(tǒng)帶來(lái)成本壓力。

Amazon?Memory?DB內(nèi)存數(shù)據(jù)庫(kù)通過(guò)緩存之前問(wèn)答生成的新數(shù)據(jù),實(shí)現(xiàn)對(duì)類似問(wèn)題的快速響應(yīng)和準(zhǔn)確回答,同時(shí)有效降低基礎(chǔ)模型的調(diào)用頻率。Amazon?Memory?DB能夠存儲(chǔ)數(shù)百萬(wàn)個(gè)向量,只需要幾毫秒的響應(yīng)時(shí)間,能夠以99%的召回率實(shí)現(xiàn)每秒百萬(wàn)次的查詢性能。

此外,生成式AI應(yīng)用程序需要快速占領(lǐng)市場(chǎng)。亞馬遜云科技通過(guò)提供無(wú)服務(wù)器數(shù)據(jù)庫(kù)服務(wù)和Amazon?OpenSearch?Serverless用于向量搜索,最大限度為企業(yè)減少運(yùn)維負(fù)擔(dān)和成本,消除性能瓶頸,使企業(yè)能夠?qū)W⒂谏墒紸I業(yè)務(wù)創(chuàng)新。

“我們希望每一個(gè)企業(yè)在生成式AI時(shí)代借助亞馬遜云科技的服務(wù)打造堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。這樣企業(yè)就可以高效安全地將海量的多模態(tài)數(shù)據(jù)和各種基礎(chǔ)模型結(jié)合在一起,創(chuàng)建出一系列具有獨(dú)特的價(jià)值的生成式AI應(yīng)用程序并收到終端用戶的歡迎,進(jìn)而產(chǎn)生更多的數(shù)據(jù)。這些新數(shù)據(jù)又會(huì)繼續(xù)提升模型的準(zhǔn)確度,創(chuàng)造更好的用戶體驗(yàn),從而實(shí)現(xiàn)生生不息的正向生成式AI數(shù)據(jù)飛輪,帶動(dòng)我們企業(yè)的業(yè)務(wù)走向成功?!标悤越ㄕf(shuō)道。

賦能客戶,把握生成式AI機(jī)遇

值得一提的是,店匠科技(Shoplazza)首席科學(xué)家謝中流和北京靈奧科技(Vanus)CEO厲啟鵬也分享了各自企業(yè)在生成式AI領(lǐng)域的實(shí)踐和經(jīng)驗(yàn)。

店匠科技是一家電子商務(wù)獨(dú)立站SaaS平臺(tái),專注于幫助企業(yè)構(gòu)建其專屬的在線商城,涉足電商領(lǐng)域兩大分支:集中式平臺(tái)電商與去中心化的獨(dú)立站電商。截至目前,店匠科技已服務(wù)超36萬(wàn)家跨境電商客戶,覆蓋全球150多個(gè)國(guó)家。

謝中流指出,在生成式AI方面,店匠科技正在積極探索四大業(yè)務(wù)板塊。首先,在營(yíng)銷素材生成方面,店匠科技推出了GenAI營(yíng)銷素材創(chuàng)作平臺(tái),能夠以分鐘級(jí)速度生成多樣風(fēng)格的營(yíng)銷素材,極大簡(jiǎn)化從模特選擇、場(chǎng)景搭建到后期編輯的復(fù)雜流程。

其次,在AI建站方面,通過(guò)與用戶交互并運(yùn)用如Amazon?Bedrock的Claude3模型,結(jié)合Amazon?RDS等工具,實(shí)現(xiàn)對(duì)客戶需求的即時(shí)理解與精準(zhǔn)捕獲,進(jìn)而自動(dòng)生成和完善網(wǎng)站結(jié)構(gòu)、設(shè)計(jì)風(fēng)格與內(nèi)容,極大地簡(jiǎn)化了電商網(wǎng)站的搭建過(guò)程,使商家能夠快速啟動(dòng)在線業(yè)務(wù)。

第三,在智能客服方面,鑒于日常咨詢中高度重復(fù)性問(wèn)題占比高達(dá)69%,店匠科技運(yùn)用Amazon?Bedrock的Claude3模型及Amazon?ElastiCache?Redis技術(shù),構(gòu)建高效客服對(duì)話系統(tǒng),不僅顯著縮短了解答時(shí)間,還降低了40%的客服成本,改善了用戶體驗(yàn)。

第四,在推薦與搜索方面,面對(duì)多語(yǔ)言環(huán)境下的挑戰(zhàn),店匠科技借助Amazon?ElastiCache?Redis等工具提升個(gè)性化推薦與搜索排序的效率與準(zhǔn)確性,從而增強(qiáng)用戶體驗(yàn)并推動(dòng)銷售增長(zhǎng)。

北京靈奧科技是一家面向全球市場(chǎng)的人工智能初創(chuàng)企業(yè),主要使命是為企業(yè)構(gòu)建AI?Agent。目前,北京靈奧科技已推出Vanus?Connect、Vanus?AI以及VanChat三大產(chǎn)品,累計(jì)服務(wù)于全球超過(guò)30,000家企業(yè)。

厲啟鵬表示,Vanus整個(gè)基礎(chǔ)架構(gòu)建立在亞馬遜云科技的Amazon?Elastic?Kubernetes?Service(EKS)組件之上。借助EKS的彈性能力,VanChat智能助手可以根據(jù)業(yè)務(wù)流量進(jìn)行平滑的彈性伸縮,從而幫助用戶應(yīng)對(duì)高流量洪峰,同時(shí)降低成本。

“我們期待與亞馬遜云科技在數(shù)據(jù)庫(kù)優(yōu)化、Zero-ETL數(shù)據(jù)預(yù)處理及Claude系列模型的深度應(yīng)用等方面展開(kāi)更緊密的合作,共同推動(dòng)AI技術(shù)在企業(yè)應(yīng)用中的深入發(fā)展?!?/p>

寫(xiě)在最后:

生成式AI時(shí)代,數(shù)據(jù)是企業(yè)在激烈市場(chǎng)競(jìng)爭(zhēng)中脫穎而出的關(guān)鍵。構(gòu)建基礎(chǔ)模型離不開(kāi)大規(guī)模高質(zhì)量數(shù)據(jù)集支撐,而生成式AI的差異化優(yōu)勢(shì)則來(lái)源于企業(yè)的專有數(shù)據(jù)。同時(shí),隨著生成式AI應(yīng)用的日益普及,如何高效管理和運(yùn)用這些應(yīng)用不斷產(chǎn)生的新數(shù)據(jù),已成為企業(yè)必須面對(duì)和解決的課題。

亞馬遜云科技持續(xù)引領(lǐng)云上數(shù)據(jù)服務(wù)創(chuàng)新,助力企業(yè)構(gòu)建全面的數(shù)據(jù)基座以充分發(fā)揮數(shù)據(jù)潛力,加速生成式AI技術(shù)落地??梢灶A(yù)見(jiàn)的是,在亞馬遜云科技的持續(xù)賦能下,未來(lái)將有越來(lái)越多的企業(yè)能夠充分挖掘數(shù)據(jù)價(jià)值,在生成式AI時(shí)代取得成功。

責(zé)任編輯:龐桂玉 來(lái)源: 比特網(wǎng)
相關(guān)推薦

2015-01-13 16:26:05

大數(shù)據(jù)Informatica

2022-03-16 11:02:26

人工智能數(shù)據(jù)運(yùn)營(yíng)混合人工智能

2023-04-24 21:17:54

大數(shù)據(jù)數(shù)據(jù)挖掘

2021-05-17 10:20:12

物聯(lián)網(wǎng)價(jià)值企業(yè)

2023-08-23 10:10:05

VMwareNVIDIA

2022-06-24 12:23:49

數(shù)據(jù)戰(zhàn)略Cloudera云遷移

2023-10-16 18:02:29

2025-04-21 08:19:36

2023-11-17 16:09:26

人工智能知識(shí)管理

2015-08-24 09:18:58

大數(shù)據(jù)

2015-11-27 14:38:46

中國(guó)軟件資訊網(wǎng)

2016-11-22 11:25:17

大數(shù)據(jù)BI商業(yè)智能系統(tǒng)

2016-11-07 19:57:33

大數(shù)據(jù)共享數(shù)據(jù)

2023-12-29 17:00:27

2013-07-03 16:30:14

2023-04-02 21:34:48

大數(shù)據(jù)云計(jì)算

2024-03-11 09:55:51

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)