偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="cbbnk"><td id="cbbnk"><style id="cbbnk"></style></td></blockquote>

<nav id="cbbnk"><strong id="cbbnk"></strong></nav>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

攜程旅游大語(yǔ)言模型系統(tǒng)介紹及其應(yīng)用

作者：Terry 2023-12-08 09:30:11

開發(fā) 人工智能

無論是在學(xué)術(shù)研究還是商業(yè)領(lǐng)域中，LLM都有潛力成為一個(gè)強(qiáng)大的工具，幫助我們更好地理解和利用自然語(yǔ)言。

作者簡(jiǎn)介

Terry，攜程自然語(yǔ)言處理和大語(yǔ)言模型算法方向?qū)＜遥卸嗄甑淖匀徽Z(yǔ)言處理項(xiàng)目經(jīng)驗(yàn)和AI落地經(jīng)驗(yàn)。

一、背景

隨著OpenAI的ChatGPT火遍全球，大語(yǔ)言模型（Large Language Model，下文簡(jiǎn)稱LLM）成為了人工智能領(lǐng)域的熱門話題。大語(yǔ)言模型是一種基于深度學(xué)習(xí)的自然語(yǔ)言處理技術(shù)，它能夠模擬人類的語(yǔ)言能力并生成連貫的文本。這種技術(shù)的出現(xiàn)引起了廣泛的關(guān)注和應(yīng)用。大型語(yǔ)言模型在機(jī)器翻譯、文本生成、智能對(duì)話等領(lǐng)域發(fā)揮著重要作用。在這些領(lǐng)域中，它們能夠理解和生成自然語(yǔ)言，使得機(jī)器能夠更好地與人類進(jìn)行交流和合作。

無論是在學(xué)術(shù)研究還是商業(yè)領(lǐng)域中，LLM都有潛力成為一個(gè)強(qiáng)大的工具，幫助我們更好地理解和利用自然語(yǔ)言。但由于ChatGPT是閉源且信息安全存疑，并不適合在企業(yè)內(nèi)部的所有業(yè)務(wù)場(chǎng)景使用。此外，最近有大批優(yōu)秀的開源大語(yǔ)言模型涌現(xiàn)，比如Llama-2。因此，很多企業(yè)構(gòu)建屬于自己領(lǐng)域的LLM和配套系統(tǒng)，應(yīng)用在自身的業(yè)務(wù)場(chǎng)景中。為了適應(yīng)旅游場(chǎng)景的應(yīng)用，我們也構(gòu)建了一套訓(xùn)練、推理LLM的系統(tǒng)，充分利用LLM的強(qiáng)大能力。

二、LLM訓(xùn)練系統(tǒng)

2.1 訓(xùn)練基礎(chǔ)架構(gòu)

LLM訓(xùn)練系統(tǒng)有預(yù)訓(xùn)練（Pretrain）、繼續(xù)預(yù)訓(xùn)練（Continue Pretrain）、微調(diào)（Finetune）幾個(gè)模式。

1）預(yù)訓(xùn)練階段使用的數(shù)據(jù)是大規(guī)模的通用數(shù)據(jù)，通常訓(xùn)練成本高達(dá)數(shù)百萬GPU-hour，成本很高。例如在Llama-2-70B的預(yù)訓(xùn)練中，使用的172萬GPU-hour，在Falcon-180B的預(yù)訓(xùn)練中，使用了超過700萬GPU-hour。

2）繼續(xù)預(yù)訓(xùn)練階段基于預(yù)訓(xùn)練過的基座模型（foundation model），使用特定領(lǐng)域的無標(biāo)注數(shù)據(jù)訓(xùn)練，通常需要數(shù)千GPU-hour?？梢杂糜趯W(xué)習(xí)領(lǐng)域內(nèi)知識(shí)，拓展語(yǔ)言、領(lǐng)域詞表。

3）微調(diào)階段基于基座模型，使用特定任務(wù)的數(shù)據(jù)訓(xùn)練，可以使模型對(duì)齊某些輸出范式，完成特定的任務(wù)，通常需要10到1000 GPU-hour，成本較低。代表模型有Alpaca等。

訓(xùn)練框架基于PyTorch + DeepSpeed、Transformers的技術(shù)路線，有Nvidia、Meta、Microsoft、HuggingFace等公司支持，并且有廣泛社區(qū)支持。PyTorch在更新至2.0后，加入compile模式，大幅提升訓(xùn)練速度；DeepSpeed中的ZeRO與offload技術(shù)幫助模型在多機(jī)多卡的訓(xùn)練中使用較小的顯存用量；這些技術(shù)簡(jiǎn)化了百億到千億參數(shù)的模型的訓(xùn)練，并且在訓(xùn)練中保持穩(wěn)定。

通過Flash Attention、Apex、算子融合等提高硬件利用率的技術(shù)，目前我們可以以超過50%浮點(diǎn)利用率（MFU）的效率訓(xùn)練百億參數(shù)的模型。

2.2 訓(xùn)練參數(shù)量

根據(jù)可訓(xùn)練的參數(shù)量可以分為全參數(shù)訓(xùn)練、LoRA、QLoRA等技術(shù)。

全參數(shù)訓(xùn)練推薦在大量數(shù)據(jù)及預(yù)算充分的情況下使用，訓(xùn)練時(shí)模型的全部參數(shù)參與訓(xùn)練，可以精準(zhǔn)的對(duì)齊目標(biāo)范式；LoRA、QLoRA作為參數(shù)高效的訓(xùn)練方式，推薦在資源受限或需要快速獲取結(jié)果的情況下使用。

2.3 拓展詞表

Llama原生詞表中1個(gè)中文字通常對(duì)應(yīng)2個(gè)token，導(dǎo)致中文內(nèi)容的token數(shù)量較長(zhǎng)，不利于模型訓(xùn)練與推理的效率；并且Llama的預(yù)訓(xùn)練語(yǔ)料中中文占比較少，沒有針對(duì)中文語(yǔ)料優(yōu)化。

拓展詞表可以幫助解決這兩個(gè)問題。我們?cè)贚lama詞表的基礎(chǔ)上拓展了超過1萬的中文詞表，并使用大量中文語(yǔ)料繼續(xù)預(yù)訓(xùn)練，模型在中文數(shù)據(jù)上的困惑度（Perplexity）顯著降低。在訓(xùn)練與推理時(shí)，相同字?jǐn)?shù)的中文數(shù)據(jù)的token減少一半，成本降低。

2.4 Flash Attention

在GPU SRAM與HBM（High Bandwidth Memory）的IO速度相差十多倍，使用更少的內(nèi)存訪問量可以顯著提高計(jì)算速度。Flash Attention 的目標(biāo)是避免從HBM中讀寫注意力矩陣。Flash Attention解決了兩個(gè)問題達(dá)到這個(gè)目標(biāo)：

1）在不訪問整個(gè)輸入的情況下計(jì)算 softmax reduction。Flash Attention重組注意力計(jì)算，將輸入分成塊，并在輸入塊上進(jìn)行多次傳遞，從而逐步執(zhí)行 softmax reduction。

2）在后向傳播中不能存儲(chǔ)中間注意力矩陣。存儲(chǔ)前向傳遞的 softmax 歸一化因子，在后向傳播中快速重新計(jì)算片上注意力，這比從 HBM 中讀取中間注意力矩陣的標(biāo)準(zhǔn)方法更快。

三、LLM推理系統(tǒng)

LLM的推理系統(tǒng)的關(guān)鍵的是延遲與成本。延遲關(guān)系到用戶的感受，最低標(biāo)準(zhǔn)是不能低于人類的打字速度，每秒1-3字，在給用戶整段文章或者代碼提示時(shí)需要更快的速度，理想情況時(shí)可以略高于人類看文字的速度，約每秒5-10字。然而高速通常意味著更高的硬件要求，更高的成本。

我們的推理部署系統(tǒng)有低延遲、高吞吐、高并發(fā)、高可用的特性。（以13B模型、1xA100部署為例）

1）低延遲：最快生成速度20ms/token；

2）批量生成吞吐量達(dá)到1600+ token/s；

3）可有效應(yīng)對(duì)并發(fā)數(shù)超過100；

4）高可用部署，僅需10分鐘即可部署兩地、多區(qū)域部署。

3.1 KV-Cache

LLM在推理時(shí)是一個(gè)自回歸的過程，使用前n個(gè)token作為輸入預(yù)測(cè)第n+1個(gè)token。其中attention部分使用的K和V部分的前n token的向量在每次預(yù)測(cè)中時(shí)是不變的，可以將KV的值緩存下來，在預(yù)測(cè)下一個(gè)token的時(shí)候避免重復(fù)計(jì)算。

3.2 PagedAttention

在應(yīng)用KV-cache進(jìn)行LLM的自回歸解碼過程中，LLM 的所有輸入token都會(huì)生成其注意K和V張量，并且這些張量保存在x顯存中以生成下一個(gè)token。其中有兩個(gè)特點(diǎn)導(dǎo)致內(nèi)存大量浪費(fèi)，大約浪費(fèi)了60%-80%的顯存：

1）緩存占用大：在Llama-13B中單個(gè)序列最多占用1.7GB；

2）動(dòng)態(tài)：緩存大小取決于序列長(zhǎng)度，序列長(zhǎng)度變化很大并且不可預(yù)測(cè)。

PagedAttention 允許在不連續(xù)的內(nèi)存空間中存儲(chǔ)連續(xù)的KV張量。PagedAttention 將每個(gè)序列的 KV 緩存劃分為塊，每個(gè)塊包含固定數(shù)量toke的KV。在注意力計(jì)算過程中，PagedAttention 內(nèi)核有效地識(shí)別并獲取這些塊。除此之外使用的內(nèi)存共享，Copy-on-write等機(jī)制大幅降低內(nèi)存使用量，并提升吞吐量。比HuggingFace默認(rèn)方法提高最多24倍。

3.3 Continuous Batching

批量預(yù)測(cè)可以減少模型的加載次數(shù)，提高內(nèi)存帶寬利用率，提高計(jì)算資源的利用率，最終增加吞吐量、降低推理成本。

傳統(tǒng)的批量預(yù)測(cè)是靜態(tài)批處理，批處理的大小在推理完成前保持不變。然而在LLM的推理中每個(gè)請(qǐng)求逐個(gè)生成token，直到生成到最大長(zhǎng)度或者停止token（EOS），在同一批次中每個(gè)請(qǐng)求的生成長(zhǎng)度幾乎不可能相同。如果采用傳統(tǒng)的靜態(tài)批處理，需要不停生成直到最長(zhǎng)的序列完成，GPU并不能完全充分利用。在極端情況，同一批次同時(shí)生成最大長(zhǎng)度為100token與8000token的序列時(shí)，需要等待8000 token的序列完成，才能進(jìn)行下一批次的預(yù)測(cè)，這樣GPU利用率會(huì)低于分別推理每一條請(qǐng)求，即批處理大小為1的情況。

為了充分利用GPU，增大吞吐量，可以使用連續(xù)批處理（Continuous Batching）。在模型輸出停止token后放入新的待生成序列，批次中的每一個(gè)空白token都可以被充分利用。

3.4 實(shí)際推理速度

以部署在A100的13B模型為例，從第1個(gè)token生成至128token，在并發(fā)為1時(shí)可以實(shí)現(xiàn)2.6qps，在并發(fā)100時(shí)可以實(shí)現(xiàn)13qps，并且延遲得到有效控制，用戶感知的生成token速度在16-48 token/s，超過人類聊天時(shí)的打字速度，在客服聊天場(chǎng)景下體驗(yàn)良好。在需要高吞吐量的場(chǎng)景下，最高可以超過1700 token/s。按照A100 20元/小時(shí)的成本估算，約0.003元/1000token，比使用GPT-3.5的使用成本低5-10倍。

如下圖所示，并發(fā)限制在100時(shí)可以達(dá)到用戶感知與吞吐量的最佳平衡，用戶無需忍受超長(zhǎng)時(shí)間的等待，服務(wù)器可以以較低的成本提供服務(wù)。

四、旅游場(chǎng)景的應(yīng)用

4.1 智能客服機(jī)器人

智能客服機(jī)器人在攜程的服務(wù)環(huán)節(jié)起到非常重要的作用，60%以上的客人通過智能客服機(jī)器人等自助功能解決咨詢問題，例如下圖中的場(chǎng)景。

傳統(tǒng)的智能客服機(jī)器人，一般借助分類或者匹配模型，準(zhǔn)確識(shí)別用戶的意圖，進(jìn)而回答客人問題或者幫助客人解決問題。但傳統(tǒng)的分類或匹配模型經(jīng)常面臨召回率不高，缺少訓(xùn)練語(yǔ)料等問題，特別是針對(duì)較為長(zhǎng)尾的用戶意圖。一般情況下，有了充足的高質(zhì)量訓(xùn)練語(yǔ)料，模型才能有好的效果，而為了收集高質(zhì)量語(yǔ)料，往往需要投入較多的人力。

大語(yǔ)言模型系統(tǒng)，解決了上述的問題。首先，LLM可以取代傳統(tǒng)小模型，完成識(shí)別用戶意圖的任務(wù)，并且在準(zhǔn)確率和召回率上都有提升。此外，在我們LLM推理系統(tǒng)的加持下，LLM的推理速度可以達(dá)到傳統(tǒng)小模型的水平。線上數(shù)據(jù)表明，在識(shí)別意圖方面，LLM相比于傳統(tǒng)模型，準(zhǔn)確率提升5%以上，召回率提升20%以上，而響應(yīng)速度保持不變。

其次，由于LLM使用成本較高，對(duì)于繼續(xù)使用小模型的場(chǎng)景，借助LLM的生成能力，可以輕松構(gòu)造出大量的高質(zhì)量語(yǔ)料，并且這些樣本類型多樣，與客人的真實(shí)問題相近。通過這種方式可以提高模型的泛化性能，還能節(jié)省人力投入。目前已經(jīng)落地的場(chǎng)景中，準(zhǔn)備語(yǔ)料的人力投入平均從20人日減少到5人日以下。

4.2 信息抽取

在旅游的服務(wù)場(chǎng)景中，往往從客人或供應(yīng)商獲取的是大段的非結(jié)構(gòu)化文本信息，此時(shí)需要依賴人工進(jìn)行信息抽取并填表，需要花費(fèi)很高的人工成本。

而采用傳統(tǒng)算法進(jìn)行抽取，實(shí)際使用中的準(zhǔn)確率和召回率都不是很高。此外，當(dāng)提取復(fù)雜關(guān)系的實(shí)體時(shí)，需要花費(fèi)大量時(shí)間設(shè)計(jì)模型與規(guī)則，依然有很高的開發(fā)成本。

大語(yǔ)言模型系統(tǒng)，解決了上述的問題。使用LLM只需要簡(jiǎn)單地構(gòu)造prompt，就能輕松識(shí)別復(fù)雜關(guān)系的實(shí)體，開發(fā)成本大大降低。

以下圖的火車票信息抽取場(chǎng)景為例，非結(jié)構(gòu)化文本內(nèi)包含多人、多時(shí)間、不同出發(fā)地、到達(dá)地、車廂、座位等實(shí)體，并且輸出也需要?dú)w納為多行。經(jīng)過微調(diào)后的LLM，可以準(zhǔn)確地將目標(biāo)信息結(jié)構(gòu)化輸出為表格。針對(duì)火車票信息抽取場(chǎng)景，相比于采用傳統(tǒng)算法，LLM的抽取準(zhǔn)確率可以從80%提升到95%以上，而開發(fā)人日從5人日左右減少到1人日以下。

4.3 會(huì)話總結(jié)

在客服場(chǎng)景中，不同時(shí)間或不同場(chǎng)景，往往會(huì)由不同的客服人員服務(wù)客人。當(dāng)客人的對(duì)話結(jié)束時(shí)，需要對(duì)客人的對(duì)話記錄進(jìn)行歸納、總結(jié)，便于后續(xù)其他客服人員服務(wù)客人時(shí)，能快速了解之前的背景信息，否則需要花費(fèi)時(shí)間去查看歷史對(duì)話記錄。

如果依賴人工總結(jié)，會(huì)花費(fèi)大量的人工成本。而采用傳統(tǒng)的算法小模型，很容易造成信息丟失，準(zhǔn)確率不高等問題。

大語(yǔ)言模型系統(tǒng)，解決了上述的問題。借助LLM強(qiáng)大的生成能力，我們可以通過調(diào)整prompt，讓模型對(duì)會(huì)話內(nèi)容進(jìn)行歸納，并按我們需要的方式輸出，例如將客人問題發(fā)生的時(shí)間、地點(diǎn)、任務(wù)等信息，串聯(lián)成一段通順且便于理解的話，也可以將客人的問題總結(jié)成標(biāo)簽。

線上數(shù)據(jù)表明，采用LLM，準(zhǔn)確率相比小模型提升5%以上，節(jié)省客服人員平均每段對(duì)話的查看時(shí)間2分鐘以上。

五、未來與展望

除了大語(yǔ)言模型以外，其他的大模型也在高速發(fā)展中，多模態(tài)大模型未來會(huì)成為主流?？梢灶A(yù)見到，大模型在旅游領(lǐng)域的未來是非常廣闊的，隨著科技的不斷發(fā)展，大模型將在旅游行業(yè)中發(fā)揮重要作用。例如：

幫助旅游企業(yè)進(jìn)行市場(chǎng)分析和預(yù)測(cè)：通過對(duì)大量的數(shù)據(jù)進(jìn)行分析，大模型可以幫助企業(yè)了解旅游市場(chǎng)的趨勢(shì)和消費(fèi)者的需求，從而更好地制定營(yíng)銷策略和推出符合市場(chǎng)需求的產(chǎn)品。
提供個(gè)性化的旅游推薦和定制服務(wù)：通過分析用戶的歷史數(shù)據(jù)和偏好，大模型可以為用戶提供個(gè)性化的旅游推薦，包括旅游線路、酒店、景點(diǎn)等推薦場(chǎng)景。同時(shí)，大模型還可以根據(jù)用戶的需求進(jìn)行旅游行程的定制，提供更好的旅行體驗(yàn)。

隨著使用量的提高，對(duì)模型的反饋也可以幫助模型進(jìn)行大規(guī)模的人類反饋的強(qiáng)化學(xué)習(xí)（RLHF），進(jìn)一步提升大模型的性能，實(shí)現(xiàn)更優(yōu)秀的表現(xiàn)。

責(zé)任編輯：張燕妮來源：攜程技術(shù)

模型系統(tǒng)工具

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<nobr id="yyeld"></nobr>