版权声明:转载请联系作者,获得允许后,添加链接及作者到页首 https://blog.csdn.net/weixin_40683253/article/details/82874163
一些线上化刚刚起步的部门,并不是所有的数据都是直接推送到服务器的数据库中,有些数据往往是数据中心通过邮件形式推送的,如果每天接收邮件--下载附件--解压--合并文件--导入数据库,对于数据工程师来说,这无疑是琐碎且没有技术含量的工作,任谁都不愿意在这种工作上面浪费时间。对于这样的工作,最适合用代码自动完成了。
下面就是用 Python 完成下载邮箱附件并解压的代码了,如果还需要合并文件,可以查看博客该分类下的另一篇文章。
# coding: utf-8
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import poplib
import email
import datetime
import time
# import re
from email.parser import Parser
from email.header import decode_header
from email.utils import parseaddr
import zipfile
import chardet
poplib._MAXLINE=204800
# 输入邮件地址, 口令和POP3服务器地址:
email = '***************@163.com'#此处填写邮箱账号
password = '**********'#此处填写邮箱密码
pop3_server = 'pop.163.com'
today=datetime.datetime.now()
gap=datetime.timedelta(days=1)
date=today-gap
str_date=date.strftime('%m%d')
str_date2=today.strftime('%m%d')
file1="回盘业绩"
file2="_8月预催收业绩"
file3="全量账户报表"
filename2=[file1,file2,file3]
def decode_str(s):#字符编码转换
value, charset = decode_header(s)[0]
if charset:
value = value.decode(charset)
return value
def get_att(msg,filename2):
import email
attachment_files1= []
attachment_files2= []
for part in msg.walk():
file_name = part.get_filename()#获取附件名称类型
contType = part.get_content_type()
if file_name:
h = email.header.Header(file_name)
dh = email.header.decode_header(h)#对附件名称进行解码
filename = dh[0][0]
if dh[0][1]:
filename = decode_str(str(filename,dh[0][1]))#将附件名称可读化
print(filename)
#filename = filename.encode("utf-8")
if (filename[3:7] in filename2) or (filename[7:11] in filename2):
data = part.get_payload(decode=True)#下载附件
att_file = open(R'E:\\邮件下载\\' + "回盘业绩.xlsx", 'wb')
attachment_files1.append(filename)
att_file.write(data)#保存附件
att_file.close()
elif filename[:6] ==filename2[2]:
data = part.get_payload(decode=True)#下载附件
att_file = open(R'E:\\邮件下载\\' + filename, 'wb')
attachment_files2.append(filename)
att_file.write(data)#保存附件
att_file.close()
return attachment_files2
# 连接到POP3服务器,有些邮箱服务器需要ssl加密,对于不需要加密的服务器可以使用poplib.POP3()
server = poplib.POP3_SSL(pop3_server)
server.set_debuglevel(1)
# 打印POP3服务器的欢迎文字:
print(server.getwelcome().decode('utf-8'))
# 身份认证:
server.user(email)
server.pass_(password)
# 返回邮件数量和占用空间:
print('Messages: %s. Size: %s' % server.stat())
# list()返回所有邮件的编号:
resp, mails, octets = server.list()
# 可以查看返回的列表类似[b'1 82923', b'2 2184', ...]
print(mails)
index = len(mails)
f_list2=[]
for i in range(index,0,-1):
#倒序遍历邮件
resp, lines, octets = server.retr(i)
# lines存储了邮件的原始文本的每一行,
#邮件的原始文本:
result=chardet.detect(lines[0])
print(result)
msg_content = b'\r\n'.join(lines).decode("utf-8","ignore")#"ignore"
#解析邮件:
msg = Parser().parsestr(msg_content)
#获取邮件时间
date1 = time.strptime(msg.get("Date")[0:24],'%a, %d %b %Y %H:%M:%S') #格式化收件时间
date2 = time.strftime("%m%d", date1)#邮件时间格式转换
if date2==str_date2:
f_list = get_att(msg,filename2)#获取附件
f_list2.append(f_list)
elif date2<str_date2:
break
print(f_list2)
for i in f_list2:
if len(i)!=0:
f = zipfile.ZipFile(R'E:\\邮件下载\\' + i[0],'r')
for file in f.namelist():
f.extract(file,R'E:\\邮件下载\\excel\\')
f.close()
else:
continue
#print_info(msg)
server.quit()