背景:330M的json文件,有大概100w+条数据,内部存在格式问题,需手动替换修改
办法:拆分为6个小json文件,代码如下:
# 读取大json文件
with open('binguan_all.json', 'r', encoding='utf-8') as f1:
N = [json.loads(line.strip()) for line in f1.readlines()]
# 将数据按照每20w条一份,分别存储
total = len(N)//200000
# 为了读取完全,total需要+1,将小json文件存到路径:F:\Github\
for i in range(total+1):
json.dump(N[i*200000:(i+1)*200000], open("F:\\Github\\" + str(i) + ".json", 'w', encoding='utf8'), ensure_ascii=False, indent=True)