工作上接触到的数据特别脏
主要体现:
1.OCR识别精度
2.人工乱给label,同一个数据能给三种不同的label
主要清洗方法:
1.模型特定的预测概率表示完全匹配(如:0.82828)
2.所有特征值>0.99,给全分;所有特征值<0.01,给0分
3.人工筛选
希望能找到更加适合的方式
清理工具(还没有测试):
OpenRefine: regular expressions, GREL
工作上接触到的数据特别脏
主要体现:
1.OCR识别精度
2.人工乱给label,同一个数据能给三种不同的label
主要清洗方法:
1.模型特定的预测概率表示完全匹配(如:0.82828)
2.所有特征值>0.99,给全分;所有特征值<0.01,给0分
3.人工筛选
希望能找到更加适合的方式
清理工具(还没有测试):
OpenRefine: regular expressions, GREL