《流畅的Python》学习笔记（5） —— 文本和字节序列

其他 2020-01-30 10:42:20 阅读次数: 0

流畅的Python（5） —— 文本和字节序列

Python中对字符串的管理有两种方式一种是：字符序列另一种是Unicode，在中文的自然语言处理中，会使用到文本数据，所以需要仔细地研究字符串与文本关系，这也是Python中的一个坑点。

下图为Unicode与字节码的关系：
在这里插入图片描述

1.Unicode(码位) 与bytes(字节序列)

Unicode就是我们常说的“字符”，也叫码位，Python中string类型是Unicode编码，可以把他认为是人类看懂的字符，对于Python而言是统一的。

字节码：是由byte字节类型组成，用来表示字符的串。在C语言中，变量类型为char，占一个字节，根据不同的编码方法同一个字符会有不同个数的字节来表示。

2. 编解码问题

str.encode()和b.decode()是连接Unicode和bytes之间的两个重要方法。
在这里插入图片描述
编码（encode）：将Unicode按照编码方法（如：UTF-8, UTF-16）编译成字节序列

解码（decode）：将字节序列按照编码方法编译成Unicode编码

值得注意的是: 编解码的方法需要事先指定，否则回造成UnicodeError等常见错误

3. 常见的字符串错误与最佳实践

常见错误

错误名称	原因
UnicodeEncodeError	把文本转换成字节序列时，如果目标编码中没有定义某个字符，就会报错
UnicodeDecodeError	把二进制序列转换成文本时，如果假设是这两个编码中的一个，遇到无法转换的字节序列时会抛出 UnicodeDecodeError

目前的最佳实践是，IO过程需要进行编解码操作，而数据处理阶段仅需要完全对Unicode进行操作。
在这里插入图片描述

韩观

发布了4 篇原创文章 · 获赞 2 · 访问量 151

私信关注

猜你喜欢

转载自blog.csdn.net/baidu_34912627/article/details/104102767

《流畅的Python》学习笔记（5） —— 文本和字节序列

《流畅的Python》学习笔记（5） —— 文本和字节序列

《流畅的Python》读书笔记——Python文本和字节序列

流畅的python第四章, 文本和字节序列开始

python 中文转字节序列

《流畅的python》学习笔记 -内置序列模型

Python 二进制序列（字节序列）类型之一：bytes [学习 Python 必备基础知识][看此一篇就够了][文本序列（str）转换成字节序列（bytes）][字节序列转换为文本序列]

第4章文本和字节序列（上）

第4章--文本和字节序列

《流畅的Python》学习笔记（3） —— 序列的骚操作

《流畅的Python》学习笔记（3） —— 序列的骚操作

Python网络字节序与主机字节序

Python高效编程之88条军规（1）：编码规范、字节序列与字符串

《流畅的python》学习笔记 - 列表推导和生成器表达式

《流畅的Python》学习笔记3（第3章：字典和集合）

主机字节序和网络字节序

网络字节序和主机字节序

网络字节序列，本机字节序列

《流畅的Python》读书笔记——Python序列的修改、散列和切片

（三）Socket的学习（三）字节序相关

《流畅的python》学习笔记 - 元组

【C++】POCO学习总结（十三）：类型和字节序、错误处理和调试、获取系统信息

Python网络编程之数据的主机字节序与网络字节序

《流畅的python》读书笔记（5）

网络字节序和本地字节序的理解和实现

Python 学习笔记 | 5 类和对象

比特序和字节序

字节序和位序

《流畅的Python》1-序列

网络字节序和主机字节序详解

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)