ascii码字节数目总结

ascii 英文字母，特殊字符，数字：一个字节，8位；
万国码Unicode：unicode 最开始16位两个字节，中文不够32位 4个字节。
占用资源多。

升级：utf-8 utf-16 utf-32
utf-8:最少用一个字节，8位表示一个英文。
欧洲16位，两个字节。
亚洲 24位，三个字节。
gbk：中国国产，只能用于中文和ascii码中的文字。

中文2个字节，英文字母一个字节

# 如何将字符串类型转化为bytes类型
# 编码:ascii码(一个字符用一个字节来表述,一个字节占8位), unicode码(32位四个字节),
# utf-8(8位一个字节),  gbk(8位一个字节)
# 1.各个编码之间的二进制,是不能相互识别的,会产生乱码;
# 2.文件的储存,传输,不能是unicode,只能是utf-8,utf-16,gbk,gb2312,ascii码
# python3 的 str在内存中是以unicode存储的
# bytes类型

 # py中的数据类型有:int,str,bool,list, ,字典,集合,bytes

# 如何将str转化位byte类型
# encode是编码,decode是解码
# 为什么将str转化位bytes类型,因为传输和存储必须为bytes类型
s1 = 'alex'
s11 = s1.encode('utf-8')
print(s11)
s2 = '中国'
s22 = s2.encode('utf-8')
s22
# 每一个字用3个字节来表示
# 1.编码之间的二进制不能相互识别,容易产生乱码;
# 2.文件的存储和传输不能是unicode;因为unicode的存储容量太大
# 3.bytes类型的表现形式:
#     英文:b+一个英文单词;
#     中文:b+16进制;(故py3中文不用bytes)
#   所以需要将str转换为bytes,内部是将unicode转换为gbk或utf-8

ascii码字节数目总结

猜你喜欢