偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

數據治理與大模型一體化實踐

人工智能 大數據
大模型落地到當前這個階段,核心關注點還是領域大模型,而領域大模型落地的前提在于兩點:需求端,對當前應用的降本增效以及新應用的探索;供給端,訓練技術已經有較高的成熟度。

降本增效方面,以機器學習團隊的構成為例,滴普科技Deepexi產品線總裁柏海峰介紹道:“傳統(tǒng)機器學習或者說小模型的技術落地,對人才的要求很高,但企業(yè)往往沒有意識到這個問題。具體來說,一般需要構建一個綜合性的團隊即數據科學團隊,團隊中需要數據開發(fā)工程師、BI工程師、商業(yè)分析師、數據科學家、算法工程師等崗位,人力成本很高,除了互聯(lián)網、金融行業(yè)的大型企業(yè),傳統(tǒng)企業(yè)或中小型企業(yè)很難組建這樣的團隊?!?/span>

人才要求高的原因在于,不同崗位的技能差異非常大,相關工具和技術棧也比較分散,比如在某個具體應用領域的AI模型也是采用不同的算法,數據處理層面的pipeline,很多時候自動化的實現(xiàn)也不夠完善。總之,不同的釘子只能用不同的錘子,而每一把錘子都不便宜。

因此,盡管小模型對算力、數據要求沒有那么高,但要調出好的效果,復雜度還是很高的。除了技術因素,在團隊協(xié)作和業(yè)務適配方面,也還有很多難題。

“大模型帶來的首要好處就是,它一下子把技術門檻拉低了,把整個技術棧從輸入到輸出的鏈條變得很短,原本需要很多人的數據科學團隊,變成只需要一個人加多個Copilot就可以完成,這個人甚至可以是業(yè)務部門的,這是非常有想象力的。”

訓練技術方面,大模型一般都是先進行self supervised learning,構建通用大模型,然后經過supervised fine-tuning訓練,針對特定任務,構建領域大模型初版,最后通過RLHF訓練,對齊人類價值,完成類似于人類學習成長的解題、實習、社會工作三步曲。

圖片

其中后兩步是大模型微調并構建領域大模型的主要步驟,可以把訓練前回答問題很散漫的通用大模型Llama 2 13B,訓練成專業(yè)性很強的chatbot——Llama 2 13B-chat。

圖片

微調可以減少大模型的幻覺,增加模型輸出的一致性、專業(yè)性,并且只需要通用模型訓練的千分之一或者萬分之一的數據量。

圖片


需求端和供給端條件具備,商業(yè)模式就有了雛形,那么,企業(yè)要發(fā)揮的作用就是,效能建設。

一、效能建設:數據為道、模型為術

效能建設的核心變量,在于數據治理。但這個“數據”,和大數據時代的“數據”,內涵又有很大不同。

傳統(tǒng)的數據治理,針對數據分析場景,主要面向結構化數據,包括主動元數據、AI增強治理等技術,已成比較成熟的體系。

而數據治理的新內涵,面向大模型訓練常見的非結構化數據。

非結構化數據治理的首要難題是,高質量的領域數據獲取的成本。

大模型微調的典型方法是instruction fine tuning,也就是指令微調,ChatGPT和Llama 2都是指令微調的產物。指令微調采用的數據,就是prompt加上response的問答對,要么由更強大的大模型比如GPT-4生成,要么由人工生成。

進一步的微調強化還可以采用Explanation Tuning——解釋微調,這是一種數據增強技術,主要是通過成熟的大模型將對prompt的回答進行step by step的拆解,從而獲得更容易理解的數據。這主要是基于這樣的經驗,即提示大模型一步一步拆解問題并解答,可以顯著提高準確率。此外,還存在像Neftune這種通過將數據經過模型添加噪聲之后再進行訓練,就能顯著增加推理準確率的魔法一般的數據增強技術。

圖片

除了增強,AI模型也可以反過來幫助將雜亂的非結構化數據進行壓縮提煉,提取知識。一般來說,可以在公網中使用Claude2、GPT-4、GPT-3.5(ChatGPT),以prompt的形式將數據進行信息提取,就可以把大量的文檔數據變成結構化的知識。如果企業(yè)考慮到數據安全的問題,就可以在本地部署Llama 2 13B、ChatGLM2 6B等本地大模型,來處理這些文檔。

圖片

也就是說,非結構化數據其實在很大程度上正在借助已有的成熟模型來處理,其中包括了小模型和大模型。

“比如說在石化行業(yè)的數據有很大部分都是多模態(tài)的,包括勘探鉆井時收集的圖像數據、地震探測中收集的地理數據、安全監(jiān)控視頻的數據、物聯(lián)網IoT數據等等,非常復雜。這些數據要得到利用,就要通過小模型、大模型的技術從里面提取出顯性的、隱性的知識,從而能夠讓被訓練的大模型也能夠看懂,這就是非結構化數據的治理方法。”

采用大模型、小模型來代替人力從非結構化數據中提取高質量數據,可以極大降低人力處理的成本。

業(yè)內對大模型一直有著這樣的質疑聲音,認為現(xiàn)在的大模型就是把小模型做過的事情重做一遍,“但實際上,大模型和小模型形成了層次更豐富的模型棧,各自發(fā)揮所長,才能把效率最大化?!?/span>

不同規(guī)模、不同能力的AI模型,仿佛構成了一個內部生態(tài)。在訓練時,它們之間使用數據進行交流,增強終端大模型的能力。在推理時,大模型又成了決策樞紐,通過prompt的交流來規(guī)劃任務。

二、數據集的平衡:準確率 vs 多樣性

數據集質量的評估是多維度的,需要平衡幾項因素:靈活性、多樣性和準確率。

其中,靈活性、多樣性是指模型面對變化多樣的prompt也能給出一致的回答,這在通用大模型應用中很常見。而領域數據之所以對質量要求高,也是因為對準確率要求很高。

“比如Text to SQL這樣的場景,行業(yè)屬性很強,對準確率要求也很高。目前行業(yè)相關應用的準確率普遍不高,ChatGPT也不到80%。而準確率不超過80%,在生產環(huán)境是不能應用的。“

此外,考慮到通用大模型的訓練數據在靈活性、多樣性上最高,準確率最低,小模型則相反,領域大模型其實處于兩者之間,因此必須對這幾項因素進行平衡。

滴普科技在實踐中發(fā)現(xiàn),在訓練數據集中如果領域數據集占30%,通用數據集占70%,訓練出來的領域大模型更能夠兼顧靈活性、多樣性和準確性。這個平衡又進一步降低了數據的總體獲取成本。

圖片

三、數據類型:另一個維度

數據類型的劃分,除了質量,還可以從知識表示的形式進行劃分,不同形式對應不同的訓練方法。

數據或任務通常包含兩大類型,第一種屬于重表示型,比如把對Java線程的解釋進行重新表述,第二種屬于知識問答型,比如如果不知道授信額度的準確定義,就無法回答一些相關知識問答。

圖片

相比之下,第二種任務對模型的要求更高,因為有知識增量,需要對模型參數進行較大的調整。

針對第一種任務,模型微調常采用高效微調的方式,比如LoRA、QLoRA、P-tuning等,保留大模型原有參數,在模型前方或后方添加新的神經網絡層以改善推理,成本更低;針對第二種任務,則采用全參微調的方式,對硬件要求高,主要在于內存量,比如Llama 2 13B的全參微調至少需要一塊80G內存的A800,Llama 2 7B則至少需要一塊24G內存的RTX4090,才能完成訓練,并且為防止過擬合,對數據集的要求也更高。

圖片

領域大模型偏重知識型任務,一般而言全參微調是必不可少的。但任務本身也分層次,底層是統(tǒng)計分析型,頂層是預測型。統(tǒng)計分析型任務更基礎,對準確性要求高,比如文本分類、意圖識別、實體關系提取等,預測型相比之下對準確性要求更低一些。

這在Text to SQL任務中也有體現(xiàn),“統(tǒng)計分析是what happen,預測分析是why happen,后者的準確率一般沒法達到100%。”

當然,要求是一方面,收益是另一方面,如果在高級任務中能獲得更強的能力,也將成為領域大模型的技術壁壘,為此,在滴普科技的5維模型基礎能力評估模型中,把理解偶一、句法分析能力等高級能力維度放到了更高的權重。

圖片

四、產品體系:效率、性能與體驗兼顧

所以,效率是一方面,性能是另一方面。企業(yè)做產品,除了提升效率來保證落地,也要在保證效率前提下提升性能,才能最大程度上保證用戶體驗。

比如,Text to SQL產生的SQL語句是讓大模型來執(zhí)行還是讓傳統(tǒng)工具來執(zhí)行,也是個問題,”現(xiàn)在常見的大模型演示中,人們都是上傳一個數據集,讓大模型去分析,但這其實跟真實場景差距太遠了。真實場景面對的數據集不是一個5-30M的Excel或CSV文件,而是一個包含幾萬張表、幾十億條記錄的數據湖,在做統(tǒng)計的時候,也會涉及到join這種復雜的表關聯(lián)計算。真的讓大模型面對這樣的場景,可能直接掛機。但大模型遲早要面對這個問題,不然仍然是一個實驗室的玩具?!?/span>

為解決這個問題,首先需要將大模型從GPT-4轉向本地大模型,這時準確率可能急劇降低,“40%-50%都算高的?!睘榱丝朔讓舆壿嫷膹碗s性,滴普科技開發(fā)了一個分析引擎MQL(metric query language),其可以統(tǒng)一連接多樣的數據庫引擎比如MySQL、Hive、ClickHouse等等,“MQL通過靈活的選維度,生成中間的MQL代碼,從而高性能地完成加速查詢并毫秒級返回。所以,我們的解題思路不是Text to SQL,而是Text to MQL,因為MQL已經把不同數倉的差異性進行了統(tǒng)一。在這個架構下,只要對模型做一定的微調,Text to SQL的準確率是可以達到100%的,而不僅僅是保證生產環(huán)境可行?!?/span>

這些方法論最終體現(xiàn)在滴普科技的大模型產品規(guī)劃上。

為兼顧效率、性能和體驗,滴普科技規(guī)劃了完善的產品體系,“我們從多個維度規(guī)劃了大模型產品體系。第一個維度是算力基礎,大模型的預訓練、微調的算力開銷很大,但客戶普遍算力資源不足,同時不知道如何在硬件上部署什么樣的大模型,以及如何部署。為此,我們提供的Fast5000E訓推一體機,從硬件到模型完全整合到一起提供給客戶,客戶只需要考慮場景適配和應用就可以了。雖然算力規(guī)模不大,遠低于互聯(lián)網大公司的算力,但對于大部分企業(yè)而言已經足夠?!?/span>

然后,在算力基礎之上,為了在應用層面提升效率,降低開發(fā)門檻,滴普科技開發(fā)了FastAGI智能體平臺,“可以理解成是一個Agent或智能體開發(fā)平臺,該平臺用于快速構建大模型工具鏈。我們提供了易于使用的開發(fā)工具,可以快速構建智能體能力。目前我們已經有了可以做高級數據分析的Data Agent,有處理非結構化數據的Doc Agent,還有一些用于擴展企業(yè)內部應用的Plugin Agent等等。除了這兩個核心產品,滴普科技也會基于具體的業(yè)務場景幫助客戶定制解決方案,比如在Data Agent之上做數據分析的Copilot、供應鏈智能助手等。“

這些成果體現(xiàn)了滴普科技順應大模型落地趨勢的認知,也反映了滴普科技在延展數據治理內涵上的努力。

數據治理的新趨勢,是治理手段的技術化、工具化、一體化,“一方面,對于規(guī)模相對較小的客戶,傳統(tǒng)的自頂向下的數據治理方法,周期長、見效慢。一般來說,都需要先規(guī)劃,請咨詢公司幫忙把相關標準、規(guī)范、流程、制度確立,然后再進行內部運營。這種做法在大公司里沒問題,但并不適合小公司。另外,大模型的數據治理還涉及非結構化數據的處理,非結構化數據和知識之間有很大的gap,專業(yè)門檻也很高?!?/span>

因此,滴普科技提倡數據治理要從傳統(tǒng)數據治理走向敏捷數據治理。在與Gartner聯(lián)合發(fā)布的《企業(yè)級數據治理體系建設指南》白皮書中,滴普科技明確提出,要將數據開發(fā)與治理一體化,在開發(fā)環(huán)節(jié)將治理動作執(zhí)行到位,從根源上保證數據質量,同時在大模型時代將數據治理內涵進一步延伸至非結構化數據,持續(xù)提高數據的治理質量、廣度和效率。

五、領域大模型的成本經濟學

滴普科技在大模型落地實踐中,將數據治理方法論進一步拓展,對數據質量、特性的評估建立了準確率、多樣性、統(tǒng)計型、預測型等維度,進而用于指導領域大模型的高效低成本訓練,同時追求性能和用戶體驗的極致,規(guī)劃了系統(tǒng)性的產品體系。這不僅是領域大模型的成本經濟學,也將成為滴普科技未來持續(xù)推進大模型落地應用的重要原則。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2022-03-15 10:00:00

美團數據治理

2023-07-19 22:13:25

一體化推送平臺

2024-07-10 08:52:17

2009-09-07 23:09:17

2023-11-16 13:24:39

OceanBase數據庫

2017-10-18 22:46:57

數據中心網絡通信技術

2009-07-02 09:32:00

2009-12-03 15:34:41

Suse Linux

2011-05-24 09:26:02

有線無線3G

2009-08-17 22:32:25

IT運維管理監(jiān)控運維一體化摩卡

2013-08-30 09:36:34

中間件虛擬化

2024-09-23 08:21:01

2010-04-29 15:39:54

2024-03-25 08:15:02

數據分析AI 一體化大數據

2017-05-16 10:46:06

博陽咨詢流程管理

2014-12-25 11:25:31

2014-10-14 10:45:18

用友

2009-03-19 09:50:00

華為機房一體化
點贊
收藏

51CTO技術棧公眾號