# 计算机字符体系完整基础字符 / 字节 / 编码 / 进制 --- # 一、计算机的本质 计算机内部只有一件事 所有数据最终都是 0 和 1 --- ## ✔ 最小单位 | 单位 | 含义 | |------|------| | bit | 0 或 1 | | byte | 8 个 bit | :contentReference[oaicite:0]{index0} --- ## ✔ 示例 text 1 bit 0 1 byte 10101010二、进制系统1️⃣ 二进制计算机101011002️⃣ 十进制人类1723️⃣ 十六进制工程表示AC✔ 关系二进制 → 机器存储 十进制 → 人类理解 十六进制 → 工程表示三、字符是什么字符 人类可读的符号例如A中四、字符集Character Set✔ 定义字符的“编号系统”Unicode✔ 本质字符 → 唯一编号码点✔ 示例字符UnicodeAU0041中U4E2DU1F60A✔ Unicode作用统一全球字符避免不同国家编码冲突支持 emoji / 多语言五、字符编码Encoding✔ 定义把 Unicode “编号”转换为“字节”的规则UTF-8✔ 常见编码编码作用ASCII英文GBK中文UTF-8全球通用UTF-16Unicode编码方式六、ASCII基础编码ASCII✔ 范围0 ~ 127✔ 包含内容A-Za-z0-9基本符号控制字符✔ 本质英文字符的最早编码系统七、控制字符0–31✔ 定义不可见字符用于控制设备行为✔ 常见控制字符值含义0NUL7BEL响铃8BS退格9TAB10LF换行13CR回车✔ 关键点不显示控制行为用于早期通信协议八、UTF-8 编码体系✔ 核心特点1~4 字节变长编码兼容 ASCII全球统一标准✔ UTF-8结构Unicode范围字节数0–1271字节128–20472字节2048–655353字节655364字节✔ UTF-8模板1字节0xxxxxxx2字节110xxxxx 10xxxxxx3字节1110xxxx 10xxxxxx 10xxxxxx4字节11110xxx 10xxxxxx 10xxxxxx 10xxxxxx九、编码转换完整流程示例字符“中”① 字符 → Unicode中 → U4E2D② Unicode → 二进制0100111000101101③ 判断UTF-8范围2048 ~ 65535 → 3字节④ UTF-8模板1110xxxx 10xxxxxx 10xxxxxx⑤ 填充数据0100111000101101 → 010011 | 100010 | 001101⑥ UTF-8结果二进制11100100 10111000 10101101⑦ 十六进制表示E4 B8 AD十、字节Byte✔ 定义1 byte 8 bit✔ 表示范围0 ~ 255✔ 示例10101100 1 byte十一、进制转换关系✔ 核心关系二进制 → 机器存储 十六进制 → 工程阅读 十进制 → 人类计算✔ 为什么用16进制1 byte 8 bit 2位16进制十二、乱码的本质❌错误原因用错误编码解析字节✔ 示例UTF-8存储 → GBK读取 → 乱码十三、完整体系总结核心结构字符人类 ↓ Unicode编号 ↓ UTF-8编码规则 ↓ 字节0/1 ↓ 存储 / 网络一句话总结字符是人类概念Unicode是编号UTF-8是规则字节是最终存储形式