偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="t9hfs"><p id="t9hfs"></p></blockquote>

<blockquote id="t9hfs"><p id="t9hfs"></p></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

數(shù)據(jù)治理與大模型一體化實(shí)踐

作者：DataFun 2023-12-20 07:35:03

人工智能大數(shù)據(jù)

大模型落地到當(dāng)前這個(gè)階段，核心關(guān)注點(diǎn)還是領(lǐng)域大模型，而領(lǐng)域大模型落地的前提在于兩點(diǎn)：需求端，對(duì)當(dāng)前應(yīng)用的降本增效以及新應(yīng)用的探索；供給端，訓(xùn)練技術(shù)已經(jīng)有較高的成熟度。

降本增效方面，以機(jī)器學(xué)習(xí)團(tuán)隊(duì)的構(gòu)成為例，滴普科技Deepexi產(chǎn)品線總裁柏海峰介紹道：“傳統(tǒng)機(jī)器學(xué)習(xí)或者說小模型的技術(shù)落地，對(duì)人才的要求很高，但企業(yè)往往沒有意識(shí)到這個(gè)問題。具體來說，一般需要構(gòu)建一個(gè)綜合性的團(tuán)隊(duì)即數(shù)據(jù)科學(xué)團(tuán)隊(duì)，團(tuán)隊(duì)中需要數(shù)據(jù)開發(fā)工程師、BI工程師、商業(yè)分析師、數(shù)據(jù)科學(xué)家、算法工程師等崗位，人力成本很高，除了互聯(lián)網(wǎng)、金融行業(yè)的大型企業(yè)，傳統(tǒng)企業(yè)或中小型企業(yè)很難組建這樣的團(tuán)隊(duì)?！?/span>

人才要求高的原因在于，不同崗位的技能差異非常大，相關(guān)工具和技術(shù)棧也比較分散，比如在某個(gè)具體應(yīng)用領(lǐng)域的AI模型也是采用不同的算法，數(shù)據(jù)處理層面的pipeline，很多時(shí)候自動(dòng)化的實(shí)現(xiàn)也不夠完善?？傊?，不同的釘子只能用不同的錘子，而每一把錘子都不便宜。

因此，盡管小模型對(duì)算力、數(shù)據(jù)要求沒有那么高，但要調(diào)出好的效果，復(fù)雜度還是很高的。除了技術(shù)因素，在團(tuán)隊(duì)協(xié)作和業(yè)務(wù)適配方面，也還有很多難題。

“大模型帶來的首要好處就是，它一下子把技術(shù)門檻拉低了，把整個(gè)技術(shù)棧從輸入到輸出的鏈條變得很短，原本需要很多人的數(shù)據(jù)科學(xué)團(tuán)隊(duì)，變成只需要一個(gè)人加多個(gè)Copilot就可以完成，這個(gè)人甚至可以是業(yè)務(wù)部門的，這是非常有想象力的?！?/span>

訓(xùn)練技術(shù)方面，大模型一般都是先進(jìn)行self supervised learning，構(gòu)建通用大模型，然后經(jīng)過supervised fine-tuning訓(xùn)練，針對(duì)特定任務(wù)，構(gòu)建領(lǐng)域大模型初版，最后通過RLHF訓(xùn)練，對(duì)齊人類價(jià)值，完成類似于人類學(xué)習(xí)成長(zhǎng)的解題、實(shí)習(xí)、社會(huì)工作三步曲。

其中后兩步是大模型微調(diào)并構(gòu)建領(lǐng)域大模型的主要步驟，可以把訓(xùn)練前回答問題很散漫的通用大模型Llama 2 13B，訓(xùn)練成專業(yè)性很強(qiáng)的chatbot——Llama 2 13B-chat。

微調(diào)可以減少大模型的幻覺，增加模型輸出的一致性、專業(yè)性，并且只需要通用模型訓(xùn)練的千分之一或者萬分之一的數(shù)據(jù)量。

需求端和供給端條件具備，商業(yè)模式就有了雛形，那么，企業(yè)要發(fā)揮的作用就是，效能建設(shè)。

一、效能建設(shè)：數(shù)據(jù)為道、模型為術(shù)

效能建設(shè)的核心變量，在于數(shù)據(jù)治理。但這個(gè)“數(shù)據(jù)”，和大數(shù)據(jù)時(shí)代的“數(shù)據(jù)”，內(nèi)涵又有很大不同。

傳統(tǒng)的數(shù)據(jù)治理，針對(duì)數(shù)據(jù)分析場(chǎng)景，主要面向結(jié)構(gòu)化數(shù)據(jù)，包括主動(dòng)元數(shù)據(jù)、AI增強(qiáng)治理等技術(shù)，已成比較成熟的體系。

而數(shù)據(jù)治理的新內(nèi)涵，面向大模型訓(xùn)練常見的非結(jié)構(gòu)化數(shù)據(jù)。

非結(jié)構(gòu)化數(shù)據(jù)治理的首要難題是，高質(zhì)量的領(lǐng)域數(shù)據(jù)獲取的成本。

大模型微調(diào)的典型方法是instruction fine tuning，也就是指令微調(diào)，ChatGPT和Llama 2都是指令微調(diào)的產(chǎn)物。指令微調(diào)采用的數(shù)據(jù)，就是prompt加上response的問答對(duì)，要么由更強(qiáng)大的大模型比如GPT-4生成，要么由人工生成。

進(jìn)一步的微調(diào)強(qiáng)化還可以采用Explanation Tuning——解釋微調(diào)，這是一種數(shù)據(jù)增強(qiáng)技術(shù)，主要是通過成熟的大模型將對(duì)prompt的回答進(jìn)行step by step的拆解，從而獲得更容易理解的數(shù)據(jù)。這主要是基于這樣的經(jīng)驗(yàn)，即提示大模型一步一步拆解問題并解答，可以顯著提高準(zhǔn)確率。此外，還存在像Neftune這種通過將數(shù)據(jù)經(jīng)過模型添加噪聲之后再進(jìn)行訓(xùn)練，就能顯著增加推理準(zhǔn)確率的魔法一般的數(shù)據(jù)增強(qiáng)技術(shù)。

除了增強(qiáng)，AI模型也可以反過來幫助將雜亂的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行壓縮提煉，提取知識(shí)。一般來說，可以在公網(wǎng)中使用Claude2、GPT-4、GPT-3.5（ChatGPT），以prompt的形式將數(shù)據(jù)進(jìn)行信息提取，就可以把大量的文檔數(shù)據(jù)變成結(jié)構(gòu)化的知識(shí)。如果企業(yè)考慮到數(shù)據(jù)安全的問題，就可以在本地部署Llama 2 13B、ChatGLM2 6B等本地大模型，來處理這些文檔。

也就是說，非結(jié)構(gòu)化數(shù)據(jù)其實(shí)在很大程度上正在借助已有的成熟模型來處理，其中包括了小模型和大模型。

“比如說在石化行業(yè)的數(shù)據(jù)有很大部分都是多模態(tài)的，包括勘探鉆井時(shí)收集的圖像數(shù)據(jù)、地震探測(cè)中收集的地理數(shù)據(jù)、安全監(jiān)控視頻的數(shù)據(jù)、物聯(lián)網(wǎng)IoT數(shù)據(jù)等等，非常復(fù)雜。這些數(shù)據(jù)要得到利用，就要通過小模型、大模型的技術(shù)從里面提取出顯性的、隱性的知識(shí)，從而能夠讓被訓(xùn)練的大模型也能夠看懂，這就是非結(jié)構(gòu)化數(shù)據(jù)的治理方法。”

采用大模型、小模型來代替人力從非結(jié)構(gòu)化數(shù)據(jù)中提取高質(zhì)量數(shù)據(jù)，可以極大降低人力處理的成本。

業(yè)內(nèi)對(duì)大模型一直有著這樣的質(zhì)疑聲音，認(rèn)為現(xiàn)在的大模型就是把小模型做過的事情重做一遍，“但實(shí)際上，大模型和小模型形成了層次更豐富的模型棧，各自發(fā)揮所長(zhǎng)，才能把效率最大化?！?/span>

不同規(guī)模、不同能力的AI模型，仿佛構(gòu)成了一個(gè)內(nèi)部生態(tài)。在訓(xùn)練時(shí)，它們之間使用數(shù)據(jù)進(jìn)行交流，增強(qiáng)終端大模型的能力。在推理時(shí)，大模型又成了決策樞紐，通過prompt的交流來規(guī)劃任務(wù)。

二、數(shù)據(jù)集的平衡：準(zhǔn)確率 vs 多樣性

數(shù)據(jù)集質(zhì)量的評(píng)估是多維度的，需要平衡幾項(xiàng)因素：靈活性、多樣性和準(zhǔn)確率。

其中，靈活性、多樣性是指模型面對(duì)變化多樣的prompt也能給出一致的回答，這在通用大模型應(yīng)用中很常見。而領(lǐng)域數(shù)據(jù)之所以對(duì)質(zhì)量要求高，也是因?yàn)閷?duì)準(zhǔn)確率要求很高。

“比如Text to SQL這樣的場(chǎng)景，行業(yè)屬性很強(qiáng)，對(duì)準(zhǔn)確率要求也很高。目前行業(yè)相關(guān)應(yīng)用的準(zhǔn)確率普遍不高，ChatGPT也不到80%。而準(zhǔn)確率不超過80%，在生產(chǎn)環(huán)境是不能應(yīng)用的。“

此外，考慮到通用大模型的訓(xùn)練數(shù)據(jù)在靈活性、多樣性上最高，準(zhǔn)確率最低，小模型則相反，領(lǐng)域大模型其實(shí)處于兩者之間，因此必須對(duì)這幾項(xiàng)因素進(jìn)行平衡。

滴普科技在實(shí)踐中發(fā)現(xiàn)，在訓(xùn)練數(shù)據(jù)集中如果領(lǐng)域數(shù)據(jù)集占30%，通用數(shù)據(jù)集占70%，訓(xùn)練出來的領(lǐng)域大模型更能夠兼顧靈活性、多樣性和準(zhǔn)確性。這個(gè)平衡又進(jìn)一步降低了數(shù)據(jù)的總體獲取成本。

三、數(shù)據(jù)類型：另一個(gè)維度

數(shù)據(jù)類型的劃分，除了質(zhì)量，還可以從知識(shí)表示的形式進(jìn)行劃分，不同形式對(duì)應(yīng)不同的訓(xùn)練方法。

數(shù)據(jù)或任務(wù)通常包含兩大類型，第一種屬于重表示型，比如把對(duì)Java線程的解釋進(jìn)行重新表述，第二種屬于知識(shí)問答型，比如如果不知道授信額度的準(zhǔn)確定義，就無法回答一些相關(guān)知識(shí)問答。

相比之下，第二種任務(wù)對(duì)模型的要求更高，因?yàn)橛兄R(shí)增量，需要對(duì)模型參數(shù)進(jìn)行較大的調(diào)整。

針對(duì)第一種任務(wù)，模型微調(diào)常采用高效微調(diào)的方式，比如LoRA、QLoRA、P-tuning等，保留大模型原有參數(shù)，在模型前方或后方添加新的神經(jīng)網(wǎng)絡(luò)層以改善推理，成本更低；針對(duì)第二種任務(wù)，則采用全參微調(diào)的方式，對(duì)硬件要求高，主要在于內(nèi)存量，比如Llama 2 13B的全參微調(diào)至少需要一塊80G內(nèi)存的A800，Llama 2 7B則至少需要一塊24G內(nèi)存的RTX4090，才能完成訓(xùn)練，并且為防止過擬合，對(duì)數(shù)據(jù)集的要求也更高。

領(lǐng)域大模型偏重知識(shí)型任務(wù)，一般而言全參微調(diào)是必不可少的。但任務(wù)本身也分層次，底層是統(tǒng)計(jì)分析型，頂層是預(yù)測(cè)型。統(tǒng)計(jì)分析型任務(wù)更基礎(chǔ)，對(duì)準(zhǔn)確性要求高，比如文本分類、意圖識(shí)別、實(shí)體關(guān)系提取等，預(yù)測(cè)型相比之下對(duì)準(zhǔn)確性要求更低一些。

這在Text to SQL任務(wù)中也有體現(xiàn)，“統(tǒng)計(jì)分析是what happen，預(yù)測(cè)分析是why happen，后者的準(zhǔn)確率一般沒法達(dá)到100%?！?/span>

當(dāng)然，要求是一方面，收益是另一方面，如果在高級(jí)任務(wù)中能獲得更強(qiáng)的能力，也將成為領(lǐng)域大模型的技術(shù)壁壘，為此，在滴普科技的5維模型基礎(chǔ)能力評(píng)估模型中，把理解偶一、句法分析能力等高級(jí)能力維度放到了更高的權(quán)重。

四、產(chǎn)品體系：效率、性能與體驗(yàn)兼顧

所以，效率是一方面，性能是另一方面。企業(yè)做產(chǎn)品，除了提升效率來保證落地，也要在保證效率前提下提升性能，才能最大程度上保證用戶體驗(yàn)。

比如，Text to SQL產(chǎn)生的SQL語(yǔ)句是讓大模型來執(zhí)行還是讓傳統(tǒng)工具來執(zhí)行，也是個(gè)問題，”現(xiàn)在常見的大模型演示中，人們都是上傳一個(gè)數(shù)據(jù)集，讓大模型去分析，但這其實(shí)跟真實(shí)場(chǎng)景差距太遠(yuǎn)了。真實(shí)場(chǎng)景面對(duì)的數(shù)據(jù)集不是一個(gè)5-30M的Excel或CSV文件，而是一個(gè)包含幾萬張表、幾十億條記錄的數(shù)據(jù)湖，在做統(tǒng)計(jì)的時(shí)候，也會(huì)涉及到j(luò)oin這種復(fù)雜的表關(guān)聯(lián)計(jì)算。真的讓大模型面對(duì)這樣的場(chǎng)景，可能直接掛機(jī)。但大模型遲早要面對(duì)這個(gè)問題，不然仍然是一個(gè)實(shí)驗(yàn)室的玩具?！?/span>

為解決這個(gè)問題，首先需要將大模型從GPT-4轉(zhuǎn)向本地大模型，這時(shí)準(zhǔn)確率可能急劇降低，“40%-50%都算高的?！睘榱丝朔讓舆壿嫷膹?fù)雜性，滴普科技開發(fā)了一個(gè)分析引擎MQL（metric query language），其可以統(tǒng)一連接多樣的數(shù)據(jù)庫(kù)引擎比如MySQL、Hive、ClickHouse等等，“MQL通過靈活的選維度，生成中間的MQL代碼，從而高性能地完成加速查詢并毫秒級(jí)返回。所以，我們的解題思路不是Text to SQL，而是Text to MQL，因?yàn)镸QL已經(jīng)把不同數(shù)倉(cāng)的差異性進(jìn)行了統(tǒng)一。在這個(gè)架構(gòu)下，只要對(duì)模型做一定的微調(diào)，Text to SQL的準(zhǔn)確率是可以達(dá)到100%的，而不僅僅是保證生產(chǎn)環(huán)境可行?！?/span>

這些方法論最終體現(xiàn)在滴普科技的大模型產(chǎn)品規(guī)劃上。

為兼顧效率、性能和體驗(yàn)，滴普科技規(guī)劃了完善的產(chǎn)品體系，“我們從多個(gè)維度規(guī)劃了大模型產(chǎn)品體系。第一個(gè)維度是算力基礎(chǔ)，大模型的預(yù)訓(xùn)練、微調(diào)的算力開銷很大，但客戶普遍算力資源不足，同時(shí)不知道如何在硬件上部署什么樣的大模型，以及如何部署。為此，我們提供的Fast5000E訓(xùn)推一體機(jī)，從硬件到模型完全整合到一起提供給客戶，客戶只需要考慮場(chǎng)景適配和應(yīng)用就可以了。雖然算力規(guī)模不大，遠(yuǎn)低于互聯(lián)網(wǎng)大公司的算力，但對(duì)于大部分企業(yè)而言已經(jīng)足夠。”

然后，在算力基礎(chǔ)之上，為了在應(yīng)用層面提升效率，降低開發(fā)門檻，滴普科技開發(fā)了FastAGI智能體平臺(tái)，“可以理解成是一個(gè)Agent或智能體開發(fā)平臺(tái)，該平臺(tái)用于快速構(gòu)建大模型工具鏈。我們提供了易于使用的開發(fā)工具，可以快速構(gòu)建智能體能力。目前我們已經(jīng)有了可以做高級(jí)數(shù)據(jù)分析的Data Agent，有處理非結(jié)構(gòu)化數(shù)據(jù)的Doc Agent，還有一些用于擴(kuò)展企業(yè)內(nèi)部應(yīng)用的Plugin Agent等等。除了這兩個(gè)核心產(chǎn)品，滴普科技也會(huì)基于具體的業(yè)務(wù)場(chǎng)景幫助客戶定制解決方案，比如在Data Agent之上做數(shù)據(jù)分析的Copilot、供應(yīng)鏈智能助手等。“

這些成果體現(xiàn)了滴普科技順應(yīng)大模型落地趨勢(shì)的認(rèn)知，也反映了滴普科技在延展數(shù)據(jù)治理內(nèi)涵上的努力。

數(shù)據(jù)治理的新趨勢(shì)，是治理手段的技術(shù)化、工具化、一體化，“一方面，對(duì)于規(guī)模相對(duì)較小的客戶，傳統(tǒng)的自頂向下的數(shù)據(jù)治理方法，周期長(zhǎng)、見效慢。一般來說，都需要先規(guī)劃，請(qǐng)咨詢公司幫忙把相關(guān)標(biāo)準(zhǔn)、規(guī)范、流程、制度確立，然后再進(jìn)行內(nèi)部運(yùn)營(yíng)。這種做法在大公司里沒問題，但并不適合小公司。另外，大模型的數(shù)據(jù)治理還涉及非結(jié)構(gòu)化數(shù)據(jù)的處理，非結(jié)構(gòu)化數(shù)據(jù)和知識(shí)之間有很大的gap，專業(yè)門檻也很高。”

因此，滴普科技提倡數(shù)據(jù)治理要從傳統(tǒng)數(shù)據(jù)治理走向敏捷數(shù)據(jù)治理。在與Gartner聯(lián)合發(fā)布的《企業(yè)級(jí)數(shù)據(jù)治理體系建設(shè)指南》白皮書中，滴普科技明確提出，要將數(shù)據(jù)開發(fā)與治理一體化，在開發(fā)環(huán)節(jié)將治理動(dòng)作執(zhí)行到位，從根源上保證數(shù)據(jù)質(zhì)量，同時(shí)在大模型時(shí)代將數(shù)據(jù)治理內(nèi)涵進(jìn)一步延伸至非結(jié)構(gòu)化數(shù)據(jù)，持續(xù)提高數(shù)據(jù)的治理質(zhì)量、廣度和效率。

五、領(lǐng)域大模型的成本經(jīng)濟(jì)學(xué)

滴普科技在大模型落地實(shí)踐中，將數(shù)據(jù)治理方法論進(jìn)一步拓展，對(duì)數(shù)據(jù)質(zhì)量、特性的評(píng)估建立了準(zhǔn)確率、多樣性、統(tǒng)計(jì)型、預(yù)測(cè)型等維度，進(jìn)而用于指導(dǎo)領(lǐng)域大模型的高效低成本訓(xùn)練，同時(shí)追求性能和用戶體驗(yàn)的極致，規(guī)劃了系統(tǒng)性的產(chǎn)品體系。這不僅是領(lǐng)域大模型的成本經(jīng)濟(jì)學(xué)，也將成為滴普科技未來持續(xù)推進(jìn)大模型落地應(yīng)用的重要原則。

責(zé)任編輯：姜華來源： DataFunTalk

大模型數(shù)據(jù)治理機(jī)器學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<tt id="trnnc"></tt>

^{<thead id="trnnc"></thead>}

<blockquote id="trnnc"></blockquote>

<blockquote id="trnnc"></blockquote>