Jamal的博客

编码问题

编码:
ASCII: 英文编码,无法表示中文
Unicode: 常用的两个字符表示一个字
UTF-8: 可变长编码,把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节

搞清楚了ASCII、Unicode和UTF-8的关系,我们就可以总结一下现在计算机系统通用的字符编码工作方式:

  1. 在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码。
  2. 用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里,编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件:
  3. 浏览网页的时候,服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器:

python3 字符串以Unicode编码