前段时间有一个需求做文本语义匹配,但是公司的标注数据不够无监督学习效果不够好,只能使用开源的数据集。开源的数据集清洗成json格式,我们从json提取数据保存成txt格式方便后续的使用。JSON数据格式如下:
处理好的txt数据格式如下:
处理代码如下图所示:
import json
import os
import sys
sen1 = []
sen2 = []
label = []
with open('./1.json',encoding='utf-8') as f:
for line in f:
try:
line.index("sen1")
# line = line.strip('\n')
pos = line.index(':')
sen1.append(line[pos+3:len(line)-3])
except ValueError:
pass
try:
line.index("sen2")
# line = line.strip('\n')
pos = line.index(':')
sen2.append((line[pos+3:len(line)-3]))
except ValueError:
pass
try:
line.index("label")
try:
line.index("sen1")
except ValueError:
pos = line.index(':')
# label.append(line[pos + 3:len(line) - 2])
# label.append(line[pos + 1:len(line) - 1])
label.append(line[pos + 3:len(line) - 2])
except ValueError:
pass
write_file = open('./1.txt',"a+",encoding='utf-8')
j=0
while j< len(sen1):
str_info = sen1[j]+"\t"+sen2[j]+"\t"+label[j]+"\n"
write_file.write(str_info)
j = j + 1