UTF-8 编码到底是几进制的？-编程阁

UTF-8 编码本身不是“几进制”的问题，而是一种将 Unicode 码点映射为字节序列的规则。
但若追问其底层表示，则：

存储/传输时：以二进制（Binary）形式存在（因为所有计算机数据最终都是 0/1）
人类可读表示：常用十六进制（Hex）书写（如E4 B8 AD）
逻辑结构：基于二进制位模式定义编码规则（如1110xxxx 10xxxxxx 10xxxxxx）

✅简明回答：
UTF-8 编码在物理层面是二进制，在工程调试中常以十六进制表示，其规则由二进制位模板定义。

一、为什么会有“几进制”的困惑？

▶ 1.不同场景使用不同进制表示

场景	表示方式	示例
CPU 内存	二进制（0/1）	`11100100 10111000 10101101`
开发者调试	十六进制（0x）	`0xE4 0xB8 0xAD`
网络协议	字节流（十进制）	`[228, 184, 173]`

▶ 2.UTF-8 规则本身用二进制定义

三字节模板：
```
1110xxxx 10xxxxxx 10xxxxxx
```
- 这是二进制位模式，不是十进制或十六进制

💡核心认知：
进制只是“书写方式”，UTF-8 的本质是“位模式规则”

二、UTF-8 的进制关系全景图

graph LR A[Unicode 码点 U+4E2D] -->|UTF-8 编码规则| B[二进制位序列] B --> C[内存/磁盘：0111001001011100010101101] C --> D[十六进制表示：E4 B8 AD] C --> E[十进制字节：228, 184, 173] C --> F[PHP 字符串："\xE4\xB8\xAD"]

所有表示都指向同一组二进制位，只是人类阅读习惯不同

三、工程实践：如何正确理解？

▶ 1.编码规则 = 二进制模板

UTF-8 标准（RFC 3629）明确使用二进制位模式定义：
```
U+0800–U+FFFF → 1110xxxx 10xxxxxx 10xxxxxx
```
实现时：编解码器按位操作（C/Go/Rust 直接处理 bit）

▶ 2.调试用十六进制

原因：
- 1 字节 = 8 位二进制 = 2 位十六进制 → 对齐清晰

工具输出：

echo-n"中"|hexdump -C# 输出：e4 b8 ad

▶ 3.编程用字节（十进制/转义）

PHP：

$bytes="\xE4\xB8\xAD";// 十六进制转义$bytes=chr(228).chr(184).chr(173);// 十进制构造

Python：

bytes([228,184,173])# 十进制列表b'\xe4\xb8\xad'# 十六进制字面量

四、避坑指南

陷阱	破局方案
认为“UTF-8 是十六进制”	UTF-8 是编码规则，十六进制只是表示法
混淆数值与字节序列	`0xE4B8AD`是 3 字节，不是 1 个整数
用十进制直接拼接	字节必须按顺序，不能数学运算（如`228*256² + ...`仅用于解析）