在神经网络训练之前,需要检查核对数据。对于庞大的数据集,如果其中存在少量的脏数据,人为检查是很难查到的。
因为输入到神经网络的都是Numpy数组,所以可以使用numpy的工具来检查自己的数据中是否存在脏数据,代码如下:
import nump as np
# 下面的程序嵌套在数据读取的循环内
if True in (img == np.nan):
# 打印第idx个数据是脏数据
print("this is a bad data:{}".format(idx))
# 打印这个脏数据值的位置
print(np.where(True in (img == np.nan)))