偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tt id="cejvw"></tt>

<u id="cejvw"></u><blockquote id="cejvw"></blockquote>

<wbr id="cejvw"><menu id="cejvw"></menu></wbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

碼農(nóng)基本功：字符集和編碼

作者：蠻荊 2025-05-28 08:15:00

Unicode 是一個編碼字符集標(biāo)準(zhǔn)，規(guī)定每個字符和碼點(diǎn) (數(shù)字) 的唯一映射關(guān)系，無法直接用于存儲和傳輸。

一、基本概念

我們在使用計(jì)算機(jī)時，主要閱讀并關(guān)注字符串中的數(shù)字、英文字符、中文字符、Emoji 表情等，但是計(jì)算機(jī)并不關(guān)注字符串的單個字符到底是什么意思，因?yàn)橛?jì)算機(jī)最終存儲和傳輸?shù)亩际嵌M(jìn)制比特?cái)?shù)據(jù)。

所以這里先來看下字符、字符集、編碼等基本概念。

字符：人類肉眼可以閱讀的最小書寫單元：字母、數(shù)字、標(biāo)點(diǎn)、漢字、符號、Emoji 表情等。
碼點(diǎn) (數(shù)字)：每個字符分配的唯一整數(shù)編號。
字符集：字符和碼點(diǎn) (數(shù)字) 的映射關(guān)系。
編碼（編碼方案）：如何設(shè)計(jì)和實(shí)現(xiàn)字符集的 “映射關(guān)系”。

二、ASCII

首先來看看 ASCII 編碼。

ASCII 是最早期的使用 1 個字節(jié) (byte) ，7 位 (bit) 編碼，最高位始終為 0，來表示常見的英文字符、阿拉伯?dāng)?shù)字、標(biāo)點(diǎn)符號和控制符號等。

基本上，你在鍵盤上面看到的字符，都是 ASCII 字符，使用 0 - 127 表示。

因?yàn)榫幋a范圍是固定的，所以主流編程語言都內(nèi)置了 ASCII 字符和數(shù)字互相轉(zhuǎn)化的 API，例如在 Python 中，可以通過 ord 和 chr 兩個函數(shù)來獲取數(shù)字與 ASCII 字符的對應(yīng)關(guān)系。

# 獲取數(shù)字與 ASCII 字符的對應(yīng)關(guān)系
print(ord('A'))   # 65
print(chr(65))    # 'A'

再比如，我們可以快速獲取到小寫字母 a-z 對應(yīng)的數(shù)字：

for x in range(ord('a'), ord('z') + 1):
    print(x, chr(x))

1. 局限性

對于語言為英文的計(jì)算機(jī)用戶來說，ASCII 編碼已經(jīng)基本夠用了，但是對于非英文用戶來說，ASCII 編碼所能表示的字符太有限了！例如，對于中文用戶來說，單單漢字就不止 128 個，還有像日本、韓國等其他有自己語言的國家用戶來說，ASCII 編碼也存在同樣的問題。

此外，還有像 Emoji 表情等更加個性化的符號，要作為字符本身進(jìn)行傳遞，ASCII 編碼同樣無能為力。

2. 理想中的編碼方案

為了解決 ASCII 編碼的不足，理想情況下，應(yīng)該設(shè)計(jì)一個可以包含世界上所有國家語言的字符編碼方案，這樣不同的國家都可以采用一種編碼方案。

同時，用戶無需關(guān)注和編碼相關(guān)的系統(tǒng)設(shè)置等 (例如使用不同的語言需要進(jìn)行不同的編碼設(shè)置)。

最后，為了兼容已有的 ASCII 編碼，其他國家可以在 ASCII 編碼的基礎(chǔ)上進(jìn)行延續(xù)，各自使用不同的 “數(shù)字區(qū)間” 來表示對應(yīng)的字符。

例如，ASCII 編碼使用 0 - 127 來表示，那么其他國家的語言編碼方案可以簡單設(shè)置為:

中文使用 10000 - 100000 來表示
日文使用 100000 - 110000 來表示
韓文使用 110000 - 120000 來表示
以此類推

三、Unicode

為了解決 ASCII 編碼表現(xiàn)能力不足的問題，由 The Unicode Standard 開發(fā)了一套業(yè)界標(biāo)準(zhǔn)字符集/編碼方案，為每種語言中的每個字符設(shè)定了唯一的二進(jìn)制編碼，并且跨語言、跨平臺，這也就是 Unicode 全球字符集編碼方案，簡稱 Unicode。

具體到實(shí)現(xiàn)細(xì)節(jié)來說，Unicode 又可以分為編碼方式和實(shí)現(xiàn)方式兩個層次：

編碼方式 (標(biāo)準(zhǔn)/接口)：Unicode 使用數(shù)字范圍 0-0x10FFFF 來映射世界上不同國家的所有字符，最多可以表示 1114112個字符
實(shí)現(xiàn)方式 (具體實(shí)現(xiàn))：每個字符和對應(yīng)的數(shù)字之間如何互相轉(zhuǎn)換，例如漢字的中固定使用數(shù)字 20013 來表示，但是中和 20013，這兩者之間的轉(zhuǎn)換方式可以由不同的方式來完成，例如 UTF-8、UTF-16、UTF-32 等等

從代碼的視角來看，Unicode 是接口，UTF-8 是具體實(shí)現(xiàn)。

下面是一些字符轉(zhuǎn)換為 Unicode 對應(yīng)編碼 (數(shù)字) 的 Python 代碼示例。

def main():
    # 輸出 Unicode 中對應(yīng)的唯一數(shù)字 (也就是碼位)
    print(ord('中')) # 20013
    print(ord('??')) # 128512
    print(ord('A')) # 65
    print(ord('a')) # 97
    print(ord('1')) # 49

    # 輸出 Unicode 編碼 (十六進(jìn)制) 表示
    print(hex(ord('中'))) # 0x4e2d
    print(hex(ord('??'))) # 0x1f600
    print(hex(ord('A'))) # 0x41
    print(hex(ord('a'))) # 0x61
    print(hex(ord('1'))) # 0x31

局限性/問題：

Unicode 雖然為每個字符分配了唯一的 (數(shù)字) 編號，但是它本身僅定義字符和數(shù)字的映射關(guān)系，并沒有指定數(shù)字在計(jì)算機(jī)中的存儲和傳輸方式 (二進(jìn)制表示)，這時候，就需要有專門的編碼方案來實(shí)現(xiàn) Unicode 提出的標(biāo)準(zhǔn) (接口)。

四、UTF-8

最為人熟知的 Unicode 編碼實(shí)現(xiàn)方案就是 UTF-8 了，除此之外，還有 UTF-16 和 UTF-32，以及僅針對中文字符編碼的 GBK 和 GB2312。

雖然每種編碼格式都有自己的特點(diǎn)和使用場景，但 UTF-8 因其高效性和兼容性成為互聯(lián)網(wǎng)最常用的編碼方式，幾乎所有的現(xiàn)代操作系統(tǒng)、主流編程語言和應(yīng)用程序開發(fā)都支持并且默認(rèn)使用 UTF-8。

UTF-8 成功背后的原因：

1. 向后兼容

UTF-8 采用可變長度編碼方式，對 ASCII 字符只用 1 個字節(jié)表示，而對其他字符則使用 2、3 或 4 個字節(jié)，具有向后完全兼容 ASCII 的優(yōu)勢。

2. 空間效率優(yōu)化

對 ASCII 字符只用 1 個字節(jié)表示，而對其他字符則使用 2、3 或 4 個字節(jié)，不會造成任何存儲空間的浪費(fèi)。

def main():
    # UTF-8 使用 1 個字節(jié)表示英文
    print(len("ab".encode('utf-8'))) # 2
    print(len("12".encode('utf-8'))) # 2

    # UTF-8 使用 3 個字節(jié)表示中文
    print(len("中文".encode('utf-8'))) # 6

    # UTF-8 使用 4 個字節(jié)表示 Emoji 表情
    print(len("??".encode('utf-8'))) # 4

3. 可擴(kuò)展性

UTF-8 可以表示所有 Unicode 字符，包括未來可能新出現(xiàn)的字符，例如新出現(xiàn)的字符超出了目前 Unicode 指定的標(biāo)準(zhǔn)范圍，那么只需要做兩件事情就可以在完全兼容已有字符的前提下，去開發(fā)新的字符：

Unicode 對于新字符制定新標(biāo)準(zhǔn) (新字符對應(yīng)的數(shù)字)
UTF-8 使用更多變長字節(jié)來表示新字符即可 (例如一個新字符使用 5 個字節(jié)來表示)

五、亂碼

講完了 ASCII、Unicode、UTF-8，再來順帶講一個，亂碼符號： ?。

? 其實(shí)是 Unicode 定義的一個有效字符，其具體表示方式為：

U+FFFD “replacement character” ?

在 Python 中，我們可以直接輸出：

def main():
    # 第一種方式
    print("\uFFFD")   # ?
    # 第二種方式
    print(chr(0xFFFD))  # ?

在 Python 中，當(dāng)解碼器遇到無法解析的字節(jié)時，會插入此字符以保證字符串有效性，而不會直接報錯，保證解碼過程不會中斷。當(dāng)然，除非手動指定 errors 參數(shù)的值設(shè)置 'strict'。

print(text.decode('utf-8', errors='strict')) # 涓?鏂?

大多數(shù)開發(fā)者肯定都遇到過的亂碼符號：?，例如常見的業(yè)務(wù)場景：網(wǎng)絡(luò)數(shù)據(jù)傳輸、數(shù)據(jù)庫服務(wù)器/客戶端數(shù)據(jù)傳輸、網(wǎng)頁爬蟲數(shù)據(jù)解析。

這背后的本質(zhì)原因就是: 解碼和編碼使用了不同/不兼容的字符集編碼方案，導(dǎo)致某些字符無法映射到目標(biāo)編碼字符集中的有效碼點(diǎn) (數(shù)字)，于是被強(qiáng)制替換為 ?。

下面使用一個小例子進(jìn)行說明。

def main():
    """
    原始數(shù)據(jù)使用 UTF-8 編碼
    解碼時卻使用 GBK
    通過將 errors 參數(shù)的值設(shè)置為 replace
    最終輸出亂碼
    """
    s = "中文".encode('utf-8')
    print(s.decode(encoding='gbk', errors='replace')) # 涓?鏂?

除此之外，部分編程語言截取一部分中文字符時，也會出現(xiàn)亂碼符號，例如在 Go 語言中，截?cái)嘀形淖址麜r，就會出現(xiàn)亂碼，下面是一個對應(yīng)的示例代碼。

package main

func main() {
  // 因?yàn)樽址杏兄形?，所以這種方式會出現(xiàn)亂碼:
  s := "Go 語言的優(yōu)勢是什么？"
  s2 := s[2:5]
  println(s2) //  ?
}

所以說，理解了編碼規(guī)則，自然也就理解了為什么會出現(xiàn)亂碼。

六、檢測字符串編碼工具類

不同字符的可以支持多種編碼方式，我們可以通過程序來檢測字符支持的編碼方式，下面是一個 Python 的實(shí)現(xiàn)示例代碼。

def detect_supported_encodings(text):
    """
    檢測給定的 Unicode 字符串支持的編碼實(shí)現(xiàn)
    """
    encodings = ['ascii', 'utf-8', 'gbk', 'big5', 'latin-1']
    supported = []

    for encoding in encodings:
        try:
            # 如果編碼成功，加入支持結(jié)果集
            text.encode(encoding)
            supported.append(encoding)
        except UnicodeEncodeError:
            continue

    return supported


def main():
    # 測試不同字符集的兼容性
    print("ASCII字符兼容性:", detect_supported_encodings("Hello World!"))
    # ['ascii', 'utf-8', 'gbk', 'big5', 'latin-1']

    print("中文字符兼容性:", detect_supported_encodings("中文"))
    # ['utf-8', 'gbk'] （GBK 可編碼常見漢字）

    print("Emoji兼容性:", detect_supported_encodings("??"))
    # ['utf-8'] （只有 UTF-8 支持 Emoji）

七、小結(jié)

Unicode 是一個編碼字符集標(biāo)準(zhǔn)，規(guī)定每個字符和碼點(diǎn) (數(shù)字) 的唯一映射關(guān)系，無法直接用于存儲和傳輸
UTF-8 提供了一種完全兼容、效率優(yōu)化、可擴(kuò)展的字符編碼實(shí)現(xiàn)方式，并成為互聯(lián)網(wǎng)/軟件領(lǐng)域的默認(rèn)字符編碼方式

最后，有個 Unicode 三明治原則，可以作為大多數(shù)應(yīng)用程序開發(fā)的最佳實(shí)踐。

責(zé)任編輯：趙寧寧來源：洋芋編程

字符集編碼字符

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<p id="rqn3g"></p>

<blockquote id="rqn3g"><pre id="rqn3g"><thead id="rqn3g"></thead></pre></blockquote>