偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="pde1d"></style>

<pre id="pde1d"></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

LLM詞元：開(kāi)發(fā)者實(shí)現(xiàn)AI高效開(kāi)發(fā)的入門指南

作者：布加迪 2025-03-17 08:00:00

詞元（token）是影響大語(yǔ)言模型（LLM）性能和成本的基本單元。這篇指南探討了為什么分詞（tokenization）是實(shí)現(xiàn)AI高效開(kāi)發(fā)的關(guān)鍵。

譯者 | 布加迪

審校 | 重樓

大語(yǔ)言模型（LLM）已徹底改變了機(jī)器理解和生成人類語(yǔ)言的方式，幕后支持從聊天機(jī)器人到內(nèi)容生成器的各種應(yīng)用。其出色功能背后是每個(gè)開(kāi)發(fā)人員都應(yīng)該理解的一個(gè)基本概念：詞元。這個(gè)基本單元直接影響使用LLM時(shí)的模型性能和成本。本文探討了什么是詞元、詞元在LLM中的功能以及為什么理解分詞對(duì)于高效實(shí)施AI至關(guān)重要。

了解大語(yǔ)言模型詞元

在AI和自然語(yǔ)言處理中，詞元是模型處理的文本的基本單位。不像人類將文本讀取成連續(xù)字符流，LLM 將輸入文本分解為名為詞元的小段。詞元可以是整個(gè)單詞、單詞的一部分、單個(gè)字符，甚至標(biāo)點(diǎn)符號(hào)或空格。

LLM識(shí)別的獨(dú)特分詞集構(gòu)成了詞匯表。通過(guò)將文本轉(zhuǎn)換成分詞，LLM就可以以更易于分析和生成的形式處理語(yǔ)言，充當(dāng)理解和生成文本的基礎(chǔ)。

LLM如何使用詞元？

LLM使用詞元作為從文本中學(xué)習(xí)和生成新內(nèi)容的基礎(chǔ)：

1. 在訓(xùn)練期間，LLM讀取大量文本，并將每個(gè)句子或文檔轉(zhuǎn)換成詞元序列。

2. 每個(gè)詞元都映射到名為嵌入（Embedding）的數(shù)字表示，以便模型可以對(duì)其執(zhí)行數(shù)學(xué)運(yùn)算。

3. 模型學(xué)習(xí)詞元序列的模式——哪些詞元通常在各種上下文中跟在其他詞元的后面。

4. 在推理期間，輸入文本被分詞化，模型處理這些詞元序列以預(yù)測(cè)下一個(gè)最有可能的詞元。

5. 模型根據(jù)學(xué)習(xí)到的概率按順序輸出每個(gè)詞元，每次一個(gè)詞元地生成最終響應(yīng)。

這種基于詞元的方法允許LLM捕獲單詞與短語(yǔ)之間的統(tǒng)計(jì)關(guān)系，從而使它們能夠生成連貫且上下文相關(guān)的文本。

分詞：如何將文本轉(zhuǎn)換成詞元？

分詞是將原始文本轉(zhuǎn)換成詞元的過(guò)程——這是LLM的關(guān)鍵第一步，因?yàn)樗鼈儫o(wú)法直接理解人類語(yǔ)言。分詞方法顯著影響了模型處理文本的效率以及它處理不同語(yǔ)言和寫作風(fēng)格的能力。

基于單詞、基于字符和子單詞的分詞

分詞主要有三種方法，每種方法都有不同的優(yōu)缺點(diǎn)：

1. 基于單詞的分詞：將每個(gè)單詞（用空格或標(biāo)點(diǎn)符號(hào)分隔開(kāi)來(lái)）視為單個(gè)詞元。比如說(shuō)，“LLMs are amazing！”變成[“LLMs”、“are”、“amazing”、“！”]。這種方法很直觀，但處理不熟悉的單詞（詞匯表之外的單詞）時(shí)會(huì)遇到困難，并且需要非常大的詞匯量。

2. 基于字符的分詞：該方法將文本分解成單個(gè)字符或字節(jié)。使用相同的例子，它變成 [“L”、“L”、“M”、“s”、“ ”、“a”、“r”、“e”等]。該方法可以表示任何可能的字符串，但會(huì)顯著增加序列長(zhǎng)度，從而降低處理效率。

3. 子詞分詞：通過(guò)將單詞分解成有意義的部分來(lái)達(dá)到平衡，這些部分可能比單詞短，但比字符長(zhǎng)。像“unhappiness”這樣的罕見(jiàn)單詞可能變成[“un”、“happiness”]。這種方法可以有效地處理新的或罕見(jiàn)單詞，同時(shí)保持詞匯量易于管理，使其成為現(xiàn)代LLM的首選方法。

單詞vs詞元

詞元是LLM處理的基本單位，而單詞是語(yǔ)言單位。詞元可以是整個(gè)單詞、單詞的一部分、字符或標(biāo)點(diǎn)符號(hào)。在英語(yǔ)中，一個(gè)單詞平均等于大約1.3個(gè)詞元，但這因語(yǔ)言和分詞方法而異。

不同分詞方法的例子

考慮不同的分詞器如何處理單詞“internationalization”：

基于單詞的分詞器可能將其視為單個(gè)詞元（如果已知）或?qū)⑵?/span>標(biāo)為[UNK]（未知）。
基于字符的分詞器會(huì)將其分解成20個(gè)單獨(dú)的字符。
子詞分詞器可能會(huì)將其拆分成[“inter”、“national”、“ization”]，以識(shí)別常見(jiàn)的形態(tài)單位。

這些差異表明了分詞為何很重要——選擇會(huì)影響模型處理文本的效率以及它們?nèi)绾翁幚聿皇煜さ膯卧~或表達(dá)。

常見(jiàn)的分詞工具

幾個(gè)工具和庫(kù)可以幫助開(kāi)發(fā)人員實(shí)現(xiàn)分詞：

NLTK和spaCy：擁有基于單詞的基本分詞器的流行NLP庫(kù)。
SentencePiece：支持BPE和Unigram分詞方法的谷歌庫(kù)。
Hugging Face分詞器：高效實(shí)現(xiàn)了各種分詞算法。
OpenAI的Tiktoken：針對(duì)OpenAI的模型（比如GPT-3和GPT-4）優(yōu)化的快速分詞器。
針對(duì)特定語(yǔ)言的分詞器：比如面向日語(yǔ)的Mecab或面向其他語(yǔ)言的專用工具。

詞元限制和模型約束

每個(gè)語(yǔ)言模型都有預(yù)定義的詞元限制，為輸入和輸出建立了界限。這種約束定義了“上下文長(zhǎng)度”，即模型在單個(gè)操作中可以處理的詞元數(shù)量。比如說(shuō)，擁有2048個(gè)詞元上下文長(zhǎng)度和500個(gè)詞元輸入的模型可以生成最多1548個(gè)詞元的響應(yīng)。這種限制是由于計(jì)算約束、內(nèi)存限制以及架構(gòu)設(shè)計(jì)選擇而存在的。

了解這種界限至關(guān)重要，因?yàn)槌?/span>界限可能會(huì)導(dǎo)致響應(yīng)被截?cái)?、信息丟失或模型錯(cuò)誤。隨著上下文窗口逐漸擴(kuò)大，模型不斷發(fā)展，但遵循詞元限制有效運(yùn)作仍然是LLM開(kāi)發(fā)人員的一項(xiàng)基本技能。

詞元限制如何影響性能？

詞元限制直接影響LLM維護(hù)上下文和生成連貫響應(yīng)的能力。當(dāng)輸入接近或超過(guò)這種限制時(shí)，模型可能會(huì)丟失文本中先前呈現(xiàn)的信息，從而導(dǎo)致準(zhǔn)確性下降、細(xì)節(jié)被遺忘或輸出相互矛盾。有限的詞元上下文尤其會(huì)阻礙需要長(zhǎng)期推理、解決復(fù)雜問(wèn)題或參考整個(gè)文檔中信息的任務(wù)。

此外，不同的分詞方法會(huì)影響文本的編碼效率——低效的分詞導(dǎo)致詞元的浪費(fèi)，這些詞元會(huì)計(jì)入上下文限制，卻不添加有意義的信息。了解這些性能影響有助于開(kāi)發(fā)人員設(shè)計(jì)更有效的提示和交互。

優(yōu)化詞元使用的幾個(gè)策略

有效的詞元優(yōu)化始于設(shè)計(jì)簡(jiǎn)潔清晰的提示，以消除冗余和不必要的細(xì)節(jié)。開(kāi)發(fā)人員可以在適當(dāng)?shù)那闆r下使用縮寫、刪除重復(fù)信息以及將查詢重點(diǎn)放在特定點(diǎn)而不是廣泛的主題上，以此減少詞元的使用。使用后續(xù)問(wèn)題而不是冗長(zhǎng)的單個(gè)提示來(lái)構(gòu)建交互可以最大限度地提高上下文利用率。

采用分塊（將內(nèi)容分成更小的段）等技術(shù)有助于在處理大型文檔時(shí)管理詞元約束。選擇詞元方法更高效的模型，并監(jiān)測(cè)成本敏感型應(yīng)用的詞元使用情況，可以顯著降低運(yùn)營(yíng)費(fèi)用，同時(shí)保持輸出質(zhì)量。

實(shí)踐中的LLM分詞

從聊天機(jī)器人到內(nèi)容生成系統(tǒng)，分詞影響與LLM的每次交互。了解其實(shí)際意義有助于開(kāi)發(fā)人員創(chuàng)建更有效的AI應(yīng)用程序。

AI應(yīng)用中分詞的例子：

聊天機(jī)器人和虛擬助手：分詞用戶查詢和以前的對(duì)話歷史記錄，以保持上下文。
機(jī)器翻譯：分詞源文本，在語(yǔ)言之間映射詞元，并生成翻譯輸出。
文本摘要：將文檔分解成詞元，以識(shí)別要提取或抽象的關(guān)鍵信息。
代碼完成：使用可以理解編程語(yǔ)言語(yǔ)法的專用分詞器。

分詞對(duì)SEO和內(nèi)容創(chuàng)建的影響

使用LLM創(chuàng)建內(nèi)容時(shí)，分詞會(huì)影響以下幾個(gè)方面：

內(nèi)容長(zhǎng)度和結(jié)構(gòu)：詞元限制可能需要將內(nèi)容分解成部分或規(guī)劃多部分生成。
關(guān)鍵字使用：了解如何分詞特定術(shù)語(yǔ)有助于確保它們?cè)谏傻膬?nèi)容中完整顯示。
內(nèi)容規(guī)劃：有效的提示需要了解不同指令的分詞效率。

流行的分詞算法及差異

現(xiàn)代LLM通常使用子詞分詞算法，每種算法都有不同的方法：

字節(jié)對(duì)編碼（BPE）

字節(jié)對(duì)編碼從單個(gè)字符入手，并迭代合并最常見(jiàn)的相鄰詞元對(duì)，直至達(dá)到目標(biāo)詞匯量。這種數(shù)據(jù)驅(qū)動(dòng)的方法可以有效地處理常見(jiàn)單詞，同時(shí)仍能夠表示罕見(jiàn)術(shù)語(yǔ)。OpenAI的GPT模型使用BPE的變體。

Unigram語(yǔ)言模型

Unigram分詞采用一種概率方法，從許多候選詞元入手，并迭代刪除對(duì)生成訓(xùn)練文本的可能性影響最小的詞元。這樣可以創(chuàng)建更具有語(yǔ)言意義的詞元。

WordPiece分詞

WordPiece是為BERT開(kāi)發(fā)的，與BPE相似，但優(yōu)先考慮最大化訓(xùn)練數(shù)據(jù)可能性的合并，而不僅僅是頻率。它通常用特殊前綴（比如BERT中的“##”）標(biāo)記子詞單元，以表示單詞連續(xù)。

Tiktoken（OpenAI 的分詞器）

OpenAI為GPT-3.5和GPT-4等模型定制的分詞器實(shí)現(xiàn)了BPE，并針對(duì)速度和效率進(jìn)行了優(yōu)化。它處理多語(yǔ)言文本、特殊字符和多種格式，同時(shí)保持可逆性（詞元可以完美地轉(zhuǎn)換回原始文本）。

結(jié)論

詞元構(gòu)成了大語(yǔ)言模型理解、處理和生成文本的基礎(chǔ)。理解分詞不僅僅具有學(xué)術(shù)意義，它還直接影響應(yīng)用程序的效率、成本管理和輸出質(zhì)量。如果掌握分詞概念和優(yōu)化策略，開(kāi)發(fā)人員可以構(gòu)建更有效的AI應(yīng)用程序，最大限度地發(fā)揮LLM的潛力，同時(shí)最大限度地減少其局限性。

隨著模型不斷發(fā)展，上下文窗口越來(lái)越大、架構(gòu)越來(lái)越復(fù)雜，有效的詞元管理對(duì)于力求創(chuàng)建最先進(jìn)應(yīng)用程序的AI開(kāi)發(fā)人員來(lái)說(shuō)仍是一項(xiàng)關(guān)鍵技能。

原文標(biāo)題：What Is an LLM Token: Beginner-Friendly Guide for Developers，作者：Janakiram MSV

責(zé)任編輯：華軒來(lái)源： 51CTO

大語(yǔ)言模型 AI 詞元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)