一、图像编码处理
众所周知,一张RGB彩色想可以看成一个三维矩阵,矩阵中的每一个数字表示了图像上不同位置,不同颜色的亮度。但是图像在存储时不是直接记录这些距震中的数字,而是记录经过压缩编码之后的结果,因此要将一张图像还原成一个三维矩阵,需要解码。tensorflow提供了对JPEG和PNG格式图像的编码/解码函数。
下列代码解释了编码和解码的过程
import tensorflow as tf
import matplotlib.pyplot as plt
#读取原始数据,r表示UTF-8编码,rb表示非UTF-8编码
image_raw_data = tf.gfile.FastGFile('dog.jpg','rb').read()
with tf.Session() as sess:
#对图像的JPEG格式解码从而得到图像对应的三维矩阵。tensorflow还提供了tf.image.decode_png函数对png格式的图像进行解码
#解码之后的结果为一个张量,在使用它的取值之前需要明确调用运行的过程
image_data = tf.image.decode_jpeg(image_raw_data)
#输出解码之后的三维矩阵
print(image_data.eval())
#可视化图像
plt.imshow(image_data.eval())
plt.show()
#将表示一张图像的三维矩阵重新按照JPEG格式编码并存入文件中,打开这张图像,可以得到和原始图像一样的图像
encoded_image = tf.image.encode_jpeg(image_data)
with tf.gfile.GFile('F:/python-code/tensorflow_learning/dog1.jpg','wb') as f:
f.write(encoded_image.eval())
二、图像大小处理
这里会牵涉到图像放大的方法,想要了解的请移步这里图像内插
1.tf.image.resize_images(input_image,output_size,method)
该函数是将整幅图像进行放大或缩小,其中method的取值如下:
method取值 | 图像大小调整算法 |
---|---|
0 | 双线性插值法 |
1 | 最近邻居法 |
2 | 双三次插值法 |
3 | 面积插值法 |
接下来的代码放在上述代码的plt.show()之后即可
#将image_data原本是0-255中的整数转换成0-1之间的浮点数
image_data = tf.image.convert_image_dtype(image_data,dtype = tf.float32)
resized = tf.image.resize_images(image_data,[300,300],method=0)
plt.imshow(resized.eval())
plt.show()
需要将0-255的像素值转化为0.0-1.0范围内的实数的原因:大多数API支持整数和实数类型的输入。如果实数类型,这些API会在内部将输入转化为实数后处理,在将输出转化为整数。如果有多个处理步骤,在实数和整数之间反复转化会导致精度损失,因此最好在图像处理前将其转化为实数类型
2.tf.image.resize_image_with_crop_or_pad(input_img, h,w)
该函数用于对图像进行裁剪或者填充。h,w分别表示输出图像的height,weight
如果输出图像的大小小于输入图像,那么这个函数会自动截取原始图像中居中的部分,如果输出图像的大小小于输入图像,那么这个函数会自动在原始图像的四周填充全零背景
image_data = tf.image.resize_image_with_crop_or_pad(image_data,300,300)
plt.imshow(image_data)
plt.show()
3.tf.image.central_crop(input, alpha)
该函数用于按比例裁剪图像中间的部分,其中0<alpha<=1
image_data = tf.image.central_crop(image_data,0.5)
plt.imshow(image_data)
plt.show()
三、图像翻转
#上下翻转
flipped = tf.image.flip_up_down(image_data)
plt.imshow(flipped.eval())
plt.show()
左右翻转和沿着对角线翻转函数如下所示
flipped = tf.image.flip_left_right(image_data)
flipped = tf.image.transpose_image(image_data)
另外,在训练时,需要对图像进行随机翻转,tensorflow提供了下述函数进行概率为50%的随机翻转:
flipped = tf.image.random_flip_left_right(image_data)
flipped = tf.image.random_flip_up_down(image_data)
四、图像色彩调整
和图像反转类似,调整图像的亮度,对比度,饱和度和色相在很多图像识别应用中都不应该影响识别结果。所以在训练神经网络模型时,可以随机调整训练图像的属性,从而使训练得到的模型尽可能小的收到无关因素的影响 。
色彩跳帧给定API可能导致像素的实数值超出0.0-1.0的范围,因此在输出最终图像前要将其值截断在0.0-1.0范围,否则会出错。
截断函数:tf.clip_by_value(input,0.0,1.0)
- 亮度调整
#将图像的亮度-0.5
adjusted = tf.image.adjust_brightness(image_data, -0.5)
#在[-max_delta, max_delta] 的范围随机调整图像的亮度
adjusted = tf.image.random_brightness(image_data, max_delta)
#调整完之后别忘了截断
adjusted = tf.clip_by_value(adjusted, 0.0 , 1.0)
- 对比度调整
#将图像的对比度减少到0.5倍
adjusted = tf.image.adjust_contrast(image_data, 0.5)
#将图像的对比度增加到5倍
adjusted = tf.image.adjust_contrast(image_data, 5)
#在[lower, upper]范围内随机调整对比度
adjusted = tf.image.random_contrast(image_data, lower, upper)
- 色相调整
#将色相加0.1
adjusted = tf.image.adjust_hue(image_data, 0.1)
#在[-max_delta, max_delta]范围内随机调整色相,0<max_delta<0.5
adjusted = tf.image.random_hue(image_data, max_delta)
- 饱和度调整
#将图像的饱和度-5
adjusted = tf.image.adjust_saturation(image_data, -5)
#将图像的饱和度+5
adjusted = tf.image.adjust_saturation(image_data, +5)
#在[lower, upper] 范围呃逆随机调整图像的饱和度
adjusted = tf.image.random_saturation(image_data, lower, upper)
- 图像标准化
该操作将图像上的亮度均值变成0,方差变成1
adjusted = tf.image.per_image_standardization(image_data)
五、标注框
在很图像识别的数据集中,图像中需要关注的物体通常会被标注框圈出来。tensorflow提供了一些工具来处理标注框,以下代码展示了如何通过tf.image.draw_bounding_boxes函数在图像中加入标注框
#将图像缩小一些,这样可视化能让标注框更加清楚
image_data = tf.image.resize_images(image_data,[182,267],method=1)
#tf.image.draw_bounding_boxes函数要求图像矩阵中的数字为实数,所以需要先将图像矩阵转化
#成实数类型,而且其输入是一个batch数据,也就是多张图像组成的四维矩阵,所以需要将解码之后的图像矩阵加一维
batched = tf.expand_dims(tf.image.convert_image_dtype(image_data,tf.float32),0)
#给出每一张图像的所有标注框,一个标注框有四个数字,分别代表[ymin,xmin,ymax,xmax]
#注意,这里给出的数字都是图像的相对位置,范围在0-1之间
#boxes需要三维数组的原因,分别代表了[batch, N, 4]
boxes = tf.constant([[[0.05,0.05,0.9,0.7],[0.35,0.47,0.5,0.56]]])
result = tf.image.draw_bounding_boxes(batched, boxes)
plt.imshow(result[0].eval())
plt.show()