Python - 下载附件 - 解压附件

一些线上化刚刚起步的部门，并不是所有的数据都是直接推送到服务器的数据库中，有些数据往往是数据中心通过邮件形式推送的，如果每天接收邮件--下载附件--解压--合并文件--导入数据库，对于数据工程师来说，这无疑是琐碎且没有技术含量的工作，任谁都不愿意在这种工作上面浪费时间。对于这样的工作，最适合用代码自动完成了。

下面就是用 Python 完成下载邮箱附件并解压的代码了，如果还需要合并文件，可以查看博客该分类下的另一篇文章。

# coding: utf-8
#!/usr/bin/env python3 
# -*- coding: utf-8 -*- 
import poplib 
import email 
import datetime 
import time 

# import re
from email.parser import Parser 
from email.header import decode_header 
from email.utils import parseaddr
import zipfile
import chardet

poplib._MAXLINE=204800  
  
# 输入邮件地址, 口令和POP3服务器地址: 
email = '***************@163.com'#此处填写邮箱账号
password = '**********'#此处填写邮箱密码
pop3_server = 'pop.163.com'
today=datetime.datetime.now()
gap=datetime.timedelta(days=1)
date=today-gap
str_date=date.strftime('%m%d')
str_date2=today.strftime('%m%d')
file1="回盘业绩"
file2="_8月预催收业绩"
file3="全量账户报表"
filename2=[file1,file2,file3]

def decode_str(s):#字符编码转换 
    value, charset = decode_header(s)[0] 
    if charset: 
        value = value.decode(charset) 
    return value 
  
def get_att(msg,filename2): 
    import email 
    attachment_files1= [] 
    attachment_files2= [] 
    for part in msg.walk(): 
        file_name = part.get_filename()#获取附件名称类型 
        contType = part.get_content_type() 

        if file_name:  
            h = email.header.Header(file_name) 
            dh = email.header.decode_header(h)#对附件名称进行解码 
            filename = dh[0][0] 
            if dh[0][1]: 
                filename = decode_str(str(filename,dh[0][1]))#将附件名称可读化 
                print(filename) 
            #filename = filename.encode("utf-8")
            if (filename[3:7] in filename2) or (filename[7:11] in filename2):
                data = part.get_payload(decode=True)#下载附件 
                att_file = open(R'E:\\邮件下载\\' + "回盘业绩.xlsx", 'wb')
                attachment_files1.append(filename) 
                att_file.write(data)#保存附件 
                att_file.close()
            elif filename[:6] ==filename2[2]:
                data = part.get_payload(decode=True)#下载附件 
                att_file = open(R'E:\\邮件下载\\' + filename, 'wb')
                attachment_files2.append(filename) 
                att_file.write(data)#保存附件 
                att_file.close()
    return attachment_files2 
  
      
# 连接到POP3服务器,有些邮箱服务器需要ssl加密，对于不需要加密的服务器可以使用poplib.POP3() 
server = poplib.POP3_SSL(pop3_server) 
server.set_debuglevel(1) 
# 打印POP3服务器的欢迎文字: 
print(server.getwelcome().decode('utf-8')) 
# 身份认证: 
server.user(email) 
server.pass_(password) 
# 返回邮件数量和占用空间: 
print('Messages: %s. Size: %s' % server.stat()) 
# list()返回所有邮件的编号: 
resp, mails, octets = server.list() 
# 可以查看返回的列表类似[b'1 82923', b'2 2184', ...] 
print(mails) 
index = len(mails) 

f_list2=[]
for i in range(index,0,-1): 
#倒序遍历邮件 
    resp, lines, octets = server.retr(i) 
    # lines存储了邮件的原始文本的每一行, 
    #邮件的原始文本: 
   
    result=chardet.detect(lines[0])
    print(result)
    msg_content = b'\r\n'.join(lines).decode("utf-8","ignore")#"ignore"
    
    #解析邮件: 
    msg = Parser().parsestr(msg_content) 
    #获取邮件时间 
    date1 = time.strptime(msg.get("Date")[0:24],'%a, %d %b %Y %H:%M:%S') #格式化收件时间 
    date2 = time.strftime("%m%d", date1)#邮件时间格式转换 
    if date2==str_date2: 
        f_list = get_att(msg,filename2)#获取附件
        f_list2.append(f_list)
    elif date2<str_date2:
        break 
print(f_list2)    

for i in f_list2:
    if len(i)!=0:
        f = zipfile.ZipFile(R'E:\\邮件下载\\' + i[0],'r')
        for file in f.namelist():
            f.extract(file,R'E:\\邮件下载\\excel\\')     
        f.close()
    else:
        continue
      #print_info(msg) 
server.quit()

Python - 下载附件 - 解压附件

猜你喜欢