UTF-8 编码的二进制字节序列的庖丁解牛-拓冰建站

UTF-8 编码的二进制字节序列是Unicode 码点到字节流的可变长度编码方案，其核心在于用前缀标记字节数，用后续字节承载数据，实现 ASCII 兼容与全球字符支持的统一。

💡关键设计：
首字节前缀：标识总字节数（0=1字节,110=2字节…）
后续字节：固定以10开头，避免与首字节混淆

结构：

0 1 0 0 0 0 0 1 ↑ 首字节（无后续）

结构：

1 1 0 0 0 0 1 1 1 0 1 1 0 0 0 1 ↑ ↑ ↑ ↑ ↑ 首字节（2字节） 后续字节

结构：

1 1 1 0 0 1 0 0 1 0 1 1 1 1 0 1 1 0 1 0 0 0 0 0 ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ 首字节（3字节） 后续字节 后续字节

结构：

1 1 1 1 0 0 0 0 1 0 0 1 1 1 1 1 1 0 0 1 1 0 0 1 1 0 0 0 0 0 1 0 ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ 首字节（4字节） 后续字节 后续字节 后续字节

📌验证方法：
首字节11110xxx→ 4 字节序列
后续字节必须10xxxxxx→ 否则为非法 UTF-8

检测：

try:data.decode('utf-8')exceptUnicodeDecodeError:print("非法 UTF-8 序列")

解决：

-- 表级CREATETABLEcomments(contentTEXT)CHARSET=utf8mb4COLLATE=utf8mb4_unicode_ci;-- 连接级SETNAMES utf8mb4;

PHP 默认行为：

json_encode("🙂");// 输出 "\ud83d\ude42"（UTF-16 代理对）

保留 UTF-8：

json_encode("🙂",JSON_UNESCAPED_UNICODE);// 输出 "🙂"

语言	正确方法	错误方法
PHP	`strlen("🙂")`→ 4	`mb_strlen("🙂")`→ 1（字符数）
Python	`len("🙂".encode('utf-8'))`→ 4	`len("🙂")`→ 1（字符数）

陷阱	破局方案
混淆字符数与字节数	存储/传输用字节长度，显示用字符长度
忽略 BOM 头	UTF-8 文件避免 BOM（`\xEF\xBB\xBF`），否则 API 解析失败
前端未声明 charset	HTML 必须包含`<meta charset="UTF-8">`