主要用到pandas从csv文件中抓数据,pandas抓出的数据是dataframe格式的,而且有的可能是Nan,抓出df格式的数据需要再处理,才能批处理的写入数据库中,executemany批出的格式不能是df,这里处理成list
import pymysql
import codecs
import pandas as pd
# 打开数据库连接
def get_conn():
conn = pymysql.connect(host='xxxxx', port=3306, user='xx', passwd='xx', db='数据库名字', charset='utf8')
return conn
def insert(cur, sql, args):
cur.executemany(sql, args)
#从csv中读文件成数据
def read_csv(filename):
#pandas读取csv获取dataframe格式的数据
df = pd.read_csv(filename)
#将df中的Nan替换成none
df = df.where(df.notnull(), None)
#将df格式的数据转化为list格式
dataList = df.values.tolist()
return dataList
#将文件写入DB中
def fileToDb(dataList,dbTableName):
conn = get_conn()
cur = conn.cursor()
n = len(dataList[0])
str_s = ','.join(['%s' for _ in range(n)])
sql = 'insert into {} values({})'.format(dbTableName,str_s)
insert(cur, sql=sql, args=dataList)
conn.commit()
cur.close()
conn.close()
调用函数
dataList = read_csv('orders.csv')
fileToDb(dataList,'ordersfinal')