Python入门(一)——变量 编码等基础

一:编码简介

1、ASCII编码中的字符每一个占用8bits,一个字节

2、中文起初是使用ASCII码中的扩展位实现编码的,与中文扩展表实现一一对应的关系

  以此为基础的编码有:

  GB2312  1980年  6763字 682字符

  GBK1.0  1995年  21003字

  GB18030  2000年   27484字(包括藏文等少数民族语言)

中国要求PC系统必须支持GB18030,嵌入式硬件不作要求

3、为了整合各个国家的映射,出现了万国码:

  Unicode,其中包括:

  unicode: utf-32:一个字符占4bytes

  unicode: utf-16:所有的占2bytes或大于2bytes

  unicode: utf-8   英文等ASCII码表中的占一个字节,中文占3bytes,欧文占2bytes

统称的unicode是向下兼容GB的,因此使用unicode编码的文件在GB编码的终端中可以正常显示中文

但是utf-8由于重新改变编码数据结构,因此并不兼容unicode,因此需要转码解码等操作。

4、Python中的编码规则,转码解码操作

(1)Python默认编码:

Python3.0 默认编码是unicode(也就是代码中的汉字以unicode进行存储)

Python2.0 默认编码是ASCII码

(2)2.0软件使用中文的方式:

#!coding:utf-8

用这个语句告诉Python以下编码按照utf-8进行编码

猜你喜欢

转载自www.cnblogs.com/AdairWilson/p/12256426.html