基础数据类型转换-编码

文章目录

1数据类型间的转换问题

1.1int bool str 三者间转换
1.2str list两者转换
1.3list set 两者转换
1.4str bytes转换
1.5基础数据类型总结

2.编码

2.1转化

2.1.1str>>>bytes
2.1.2bytes>>>str
2.1.3 gbk>>>utf-8

1数据类型间的转换问题

数据类型有:int bool str list tuple dict set

1.1int bool str 三者间转换

# int ---> bool
i = 100
print(bool(i))  # True  # 非零即True
i1 = 0
print(bool(i1))  # False 零即False

# bool ---> int
t = True
print(int(t))  # 1  True --> 1
t = False
print(int(t))  # 0  False --> 0

# int ---> str
i1 = 100
print(str(i1))  # '100'

# str ---> int  # 全部由数字组成的字符串才可以转化成数字
s1 = '90'
print(int(s1))  # 90

# str ---> bool
s1 = '太白'
s2 = ''
print(bool(s1))  # True 非空即True
print(bool(s2))  # False
# bool ---> str
t1 = True
print(str(True))  # 'True'

1.2str list两者转换

# str ---> list
s1 = 'alex 太白 武大'
print(s1.split())  # ['alex', '太白', '武大']

# list ---> str  # 前提 list 里面所有的元素必须是字符串类型才可以
l1 = ['alex', '太白', '武大']
print(' '.join(l1))  # 'alex 太白 武大'
print("#".join(l1) # "alex#太白#武大"

1.3list set 两者转换

# list ---> set
s1 = [1, 2, 3]
print(set(s1))  #乱序的元组

# set ---> list
set1 = {1, 2, 3, 3,}
print(list(set1))  # [1, 2, 3]

1.4str bytes转换

# str ---> bytes
s1 = '太白'
print(s1.encode('utf-8'))  # b'\xe5\xa4\xaa\xe7\x99\xbd'

# bytes ---> str
b = b'\xe5\xa4\xaa\xe7\x99\xbd'
print(b.decode('utf-8'))  # '太白'

所有数据都可以转化成bool值
‘’,0,(),{},set(),None 的bool值都为False

1.5基础数据类型总结

按储存空间的占用分(从低到高)
数字
字符串
集合：无序，即无序存索引相关信息
元组：有序，需要存索引相关信息，不可变
列表：有序，需要存索引相关信息，可变，需要处理数据的增删改
字典：有序，需要存key与value映射的相关信息，可变，需要处理数据的增删改

按存值个数区分
标量/原子类型：数字，字符串
容器类型：列表，元组，字典

按可变不可变区分
可变：列表，字典
不可变：数字，字符串，元组，布尔值

按访问顺序区分
直接访问：数字
顺序访问(序列类型)：字符串，列表，元组
key值访问(映射类型)：字典

2.编码

ASCLL码：包含英文字母，数字，特殊字符与01010101对应关系
a 01000001 一个字符一个字节表示

GBK：只包含本国文字(以及英文字母，数字，特殊字符)与0101010对应关系
a 01000001 ascii码中的字符：一个字符一个字节表示。
中 01001001 01000010 中文：一个字符两个字节表示。

Unicode：包含全世界所有的文字与二进制0101001的对应关系。
　 a 01000001 01000010 01000011 00000001
　　 b 01000001 01000010 01100011 00000001
　　中 01001001 01000010 01100011 00000001

UTF-8:包含全世界所有的文字与二进制0101001的对应关系（最少用8位一个字节表示一个字符）。

a 01000001 ascii码中的字符：一个字符一个字节表示。
　　To 01000001 01000010 (欧洲文字：葡萄牙，西班牙等)一个字符两个字节表示。
　　中 01001001 01000010 01100011 亚洲文字；一个字符三个字节表示。

1.在计算机内存中，统一使用Unicode编码，当需要将数据保存到硬盘或者需要网络传输的时候，就转换为非Unicode编码比如：UTF-8编码

举个例子：用文件编辑器（word，wps,等）编辑文件的时候，从文件将你的数据（此时你的数据是非Unicode（可能是UTF-8，也可能是gbk，这个编码取决于你的编辑器设置））字符被转换为Unicode字符读到内存里，进行相应的编辑，编辑完成后，保存的时候再把Unicode转换为非Unicode（UTF-8，GBK 等）保存到文件。

图例：
在这里插入图片描述
2.不同编码之间，不能直接互相识别
比如你的一个数据：‘老铁没毛病’是以utf-8的编码方式编码并发送给一个朋友，那么你发送的肯定是通过utf-8的编码转化成的二进制01010101，那么你的朋友接收到你发的这个数据，他如果想查看这个数据必须将01010101转化成汉字，才可以查看，那么此时那也必须通过utf-8编码反转回去，如果要是通过gbk编码反转，那么这个内容可能会出现乱码或者报错。

前提条件：python3x
主要用途：数据的存取或者文件的传输

在计算机内存中，统一使用Unicode编码，当需要将数据保存到硬盘或者需要网络传输的时候，就转换为非Unicode编码比如：UTF-8编码

解释图例：
在这里插入图片描述
这个bytes类型与字符串类型，几乎一模一样，可以看看bytes类型的源码，bytes类型可以用的操作方法与str相差无几

str与bytes类型的区别于联系：
在这里插入图片描述

2.1转化

2.1.1str>>>bytes

# encode称作编码:将 str 转化成 bytes类型
s1 = '中国'
b1 = s1.encode('utf-8')  # 转化成utf-8的bytes类型
print(s1)  # 中国
print(b1)  # b'\xe4\xb8\xad\xe5\x9b\xbd'

s1 = '中国'
b1 = s1.encode('gbk')  # 转化成gbk的bytes类型
print(s1)  # 中国
print(b1)  # b'\xd6\xd0\xb9\xfa'

2.1.2bytes>>>str

# decode称作解码, 将 bytes 转化成 str类型
b1 = b'\xe4\xb8\xad\xe5\x9b\xbd'
s1 = b1.decode('utf-8')
print(s1)  # 中国

2.1.3 gbk>>>utf-8

因为不同编码之间不能直接互相识别（间接好了）

s1 = "中国"
b1 = s1.encode("gbk")
s1 = b1.decode("utf-8")
# s1 = s1.encode("gbk").decode("utf-8")

跟着上帝去流浪

发布了6 篇原创文章 · 获赞 7 · 访问量 200

私信关注