1. json和pickle模块

1.1 什么是序列化和反序列化

内存中的数据类型---->序列化---->特定的格式（json格式或者pickle格式）
内存中的数据类型<----反序列化<----特定的格式（json格式或者pickle格式）

土办法：

 {'aaa':111}--->序列化str({'aaa':111})----->"{'aaa':111}"
 {'aaa':111}<---反序列化eval("{'aaa':111}")<-----"{'aaa':111}"

1.2 为何要序列化

序列化得到结果=>特定的格式的内容有两种用途
1、可用于存储=》用于存档
2、传输给其他平台使用=》跨平台数据交互
python java
列表特定的格式数组

强调：
针对用途1=》：可是一种专用的格式=》pickle只有python可以识别
针对用途2=》：应该是一种通用、能够被所有语言识别的格式=》json

1.3 如何序列化和反序列化

示范1

import json
# 序列化
json_res=json.dumps([1,'aaa',True,False])
# print(json_res,type(json_res)) # "[1, "aaa", true, false]"

# 反序列化
l=json.loads(json_res)
print(l,type(l))

示范2

# 序列化的结果写入文件的复杂方法
json_res=json.dumps([1,'aaa',True,False])
with open('test.json',mode='wt',encoding='utf-8') as f:
    f.write(json_res)

# 将序列化的结果写入文件的简单方法
with open('test.json',mode='wt',encoding='utf-8') as f:
    json.dump([1,'aaa',True,False],f)


# 从文件读取json格式的字符串进行反序列化操作的复杂方法
with open('test.json',mode='rt',encoding='utf-8') as f:
    json_res=f.read()
    l=json.loads(json_res)
    print(l,type(l))

# 从文件读取json格式的字符串进行反序列化操作的简单方法
with open('test.json',mode='rt',encoding='utf-8') as f:
    l=json.load(f)
    print(l,type(l))

1.4 json强调

json格式兼容的是所有语言通用的数据类型，不能识别某一语言的所独有的类型

一定要搞清楚json格式，不要与python混淆

json.dumps({1,2,3,4,5})#json中没有Python集合的概念
# 无论数据是怎样创建的，只要满足json格式，就可以json.loads出来,不一定非要dumps的数据才能loads
l=json.loads('[1, "aaa", true, false]')
l=json.loads("[1,1.3,true,'aaa', true, false]")
print(l[0])

1.5 json了解知识

#在python解释器2.7与3.6之后都可以json.loads(bytes类型)，但唯独3.5不可以
l = json.loads(b'[1, "aaa", true, false]')
print(l, type(l))

with open('test.json',mode='rb') as f:
    l=json.load(f)


res=json.dumps({'name':'哈哈哈'})
print(res,type(res))

res=json.loads('{"name": "\u54c8\u54c8\u54c8"}')
print(res,type(res))

1.6 猴子补丁和ujson

1.6.1 什么是猴子补丁?

猴子补丁的核心就是用自己的代码替换所用模块的源代码

1.6.2 猴子补丁的功能(一切皆对象)

　　拥有在模块运行时替换的功能, 例如: 一个函数对象赋值给另外一个函数对象(把函数原本的执行的功能给替换了)

1.6.3 猴子补丁的应用

#json 在dumps和loads的运行速度不如ujson，可以在程序入口处将两个方法替换为ujson中的dumps和loads方法
#在入口处打猴子补丁，即run.py
import json
import ujson

def monkey_patch_json():
    json.__name__ = 'ujson'
    json.dumps = ujson.dumps
    json.loads = ujson.loads

monkey_patch_json() # 在入口文件出运行

#import ujson as json # 不行，只需要替换两个方法，而不是全部替换

# 后续代码中的应用，使用不发生改变
json.dumps()
json.dumps()
json.loads()
json.loads()

1.7 pickle模块

import pickle
res=pickle.dumps({1,2,3,4,5})
print(res,type(res))

s=pickle.loads(res)
print(s,type(s))

2. xml和shelve模块（了解）

2.1 shelve模块

shelve模块比pickle模块简单，只有一个open函数，返回类似字典的对象，可读可写;

key必须为字符串，而值可以是python所支持的数据类型

import shelve

f=shelve.open(r'sheve.txt')
# f['stu1_info']={'name':'egon','age':18,'hobby':['piao','smoking','drinking']}
# f['stu2_info']={'name':'gangdan','age':53}
# f['school_info']={'website':'http://www.pypy.org','city':'beijing'}

print(f['stu1_info']['hobby'])
f.close()

2.2 xml模块

xml是实现不同语言或程序之间进行数据交换的协议，跟json差不多，但json使用起来更简单，不过，古时候，在json还没诞生的黑暗年代，大家只能选择用xml呀，至今很多传统公司如金融行业的很多系统的接口还主要是xml。

xml协议在各个语言里的都是支持的，在python中可以用以下模块操作xml：

# print(root.iter('year')) #全文搜索
# print(root.find('country')) #在root的子节点找，只找一个
# print(root.findall('country')) #在root的子节点找，找所有

import xml.etree.ElementTree as ET
 
tree = ET.parse("xmltest.xml")
root = tree.getroot()
print(root.tag)
 
#遍历xml文档
for child in root:
    print('========>',child.tag,child.attrib,child.attrib['name'])
    for i in child:
        print(i.tag,i.attrib,i.text)
 
#只遍历year 节点
for node in root.iter('year'):
    print(node.tag,node.text)
#---------------------------------------

import xml.etree.ElementTree as ET
 
tree = ET.parse("xmltest.xml")
root = tree.getroot()
 
#修改
for node in root.iter('year'):
    new_year=int(node.text)+1
    node.text=str(new_year)
    node.set('updated','yes')
    node.set('version','1.0')
tree.write('test.xml')
 
 
#删除node
for country in root.findall('country'):
   rank = int(country.find('rank').text)
   if rank > 50:
     root.remove(country)
 
tree.write('output.xml')

#在country内添加（append）节点year2
import xml.etree.ElementTree as ET
tree = ET.parse("a.xml")
root=tree.getroot()
for country in root.findall('country'):
    for year in country.findall('year'):
        if int(year.text) > 2000:
            year2=ET.Element('year2')
            year2.text='新年'
            year2.attrib={'update':'yes'}
            country.append(year2) #往country节点下添加子节点

tree.write('a.xml.swap')

3. configparser模块

用于读取某些特定格式的配置文件（例如：ini，cft结尾的）

#配置文件如下：
# 注释1： 注释2

[section1]
k1 = v1
k2:v2
user=egon
age=18
is_admin=true
salary=31
[section2]
k1 = v1

import configparser
#将配置文件加载到内存
config=configparser.ConfigParser()
config.read('test.ini')

# 1、获取sections
print(config.sections())
#['section1', 'section2']

# 2、获取某一section下的所有options
print(config.options('section1'))
#['k1', 'k2', 'user', 'age', 'is_admin', 'salary']

# 3、获取items
print(config.items('section1'))
# [('k1', 'v1'), ('k2', 'v2'), ('user', 'egon'), ('age', '18'), ('is_admin', 'true'), ('salary', '31')]

# 4、获取指定配置信息
res=config.get('section1','user')
print(res,type(res))

res=config.getint('section1','age')
print(res,type(res))

res=config.getboolean('section1','is_admin')
print(res,type(res))

res=config.getfloat('section1','salary')
print(res,type(res))

4. hashlib模块

4.1 什么是哈希hash

hash一类算法，该算法接受传入的内容，经过运算得到一串hash值

hash值的特点：

I 只要传入的内容一样，得到的hash值必然一样
II 不能由hash值返解成内容
III 不管传入的内容有多大，只要使用的hash算法不变，得到的hash值长度是一定

4.2 hash的用途

用途1：特点II用于密码密文传输与验证
用途2：特点I、III用于文件完整性校验

4.3 如何用

hash算法就像一座工厂，工厂接收你送来的原材料（可以用m.update()为工厂运送原材料），经过加工返回的产品就是hash值

import hashlib

m=hashlib.md5()
m.update('hello'.encode('utf-8'))
m.update('world'.encode('utf-8'))
res=m.hexdigest() # 'helloworld'
print(res)

m1=hashlib.md5('he'.encode('utf-8'))
m1.update('llo'.encode('utf-8'))
m1.update('w'.encode('utf-8'))
m1.update('orld'.encode('utf-8'))
res=m1.hexdigest()# 'helloworld'
print(res)
'''
注意：把一段很长的数据update多次，与一次update这段长数据，得到的结果一样
但是update多次为校验大文件提供了可能。
'''

4.4 应用

示例1：模拟撞库

#alex3714的m5哈希值
cryptograph='aee949757a2e698417463d47acac93df'
import hashlib

# 制作密码字段
passwds=[
    'alex3714',
    'alex1313',
    'alex94139413',
    'alex123456',
    '123456alex',
    'a123lex',
]

dic={}
for p in passwds:
    res=hashlib.md5(p.encode('utf-8'))
    dic[p]=res.hexdigest()

# 模拟撞库得到密码
for k,v in dic.items():
    if v == cryptograph:
        print('撞库成功，明文密码是：%s' %k)
        break

示例2：提升撞库的成本=>密码加盐(对密码添加额外字段)

import hashlib

m=hashlib.md5()

m.update('天王'.encode('utf-8'))
m.update('alex3714'.encode('utf-8'))
m.update('盖地虎'.encode('utf-8'))
print(m.hexdigest())

#对于一个很大的文件，并不是将全部内容进行加密
#而是选取文件的几个部分组成的数据，进行加密，
#这样能很好的提升文件校验效率
#m.update(文件所有的内容)
#m.hexdigest()

f=open('a.txt',mode='rb')
f.seek()
f.read(2000) # 巨琳
m1.update(文见的一行)

m1.hexdigest()

5. subprocess模块

subprocess模块，主要执行子进程，用于执行系统命令的模块

注意：其返回值的编码类型，与所使用的操作系统有关，

windows -》gbk， mac-》utf-8

import subprocess

obj=subprocess.Popen('echo 123 ; ls / ; ls /root',shell=True,
                 stdout=subprocess.PIPE,
                 stderr=subprocess.PIPE,
                 )
# print(obj)
# res=obj.stdout.read()
# print(res.decode('utf-8'))

err_res=obj.stderr.read()
print(err_res.decode('utf-8'))

day22 常用模块（二）