一、图像编码处理

众所周知，一张RGB彩色想可以看成一个三维矩阵，矩阵中的每一个数字表示了图像上不同位置，不同颜色的亮度。但是图像在存储时不是直接记录这些距震中的数字，而是记录经过压缩编码之后的结果，因此要将一张图像还原成一个三维矩阵，需要解码。tensorflow提供了对JPEG和PNG格式图像的编码/解码函数。
下列代码解释了编码和解码的过程

import tensorflow as tf
import matplotlib.pyplot as plt

#读取原始数据，r表示UTF-8编码，rb表示非UTF-8编码
image_raw_data = tf.gfile.FastGFile('dog.jpg','rb').read()  

with tf.Session() as sess:
    #对图像的JPEG格式解码从而得到图像对应的三维矩阵。tensorflow还提供了tf.image.decode_png函数对png格式的图像进行解码
    #解码之后的结果为一个张量，在使用它的取值之前需要明确调用运行的过程
    image_data = tf.image.decode_jpeg(image_raw_data)
    #输出解码之后的三维矩阵
    print(image_data.eval())
    #可视化图像
    plt.imshow(image_data.eval())
    plt.show()

    #将表示一张图像的三维矩阵重新按照JPEG格式编码并存入文件中，打开这张图像，可以得到和原始图像一样的图像
    encoded_image = tf.image.encode_jpeg(image_data)
    with tf.gfile.GFile('F:/python-code/tensorflow_learning/dog1.jpg','wb') as f:
        f.write(encoded_image.eval())

二、图像大小处理

这里会牵涉到图像放大的方法，想要了解的请移步这里图像内插

1.tf.image.resize_images(input_image,output_size,method)
该函数是将整幅图像进行放大或缩小，其中method的取值如下：

method取值	图像大小调整算法
0	双线性插值法
1	最近邻居法
2	双三次插值法
3	面积插值法

接下来的代码放在上述代码的plt.show()之后即可

    #将image_data原本是0-255中的整数转换成0-1之间的浮点数
    image_data = tf.image.convert_image_dtype(image_data,dtype = tf.float32)
    resized = tf.image.resize_images(image_data,[300,300],method=0)
    plt.imshow(resized.eval())
    plt.show()

需要将0-255的像素值转化为0.0-1.0范围内的实数的原因：大多数API支持整数和实数类型的输入。如果实数类型，这些API会在内部将输入转化为实数后处理，在将输出转化为整数。如果有多个处理步骤，在实数和整数之间反复转化会导致精度损失，因此最好在图像处理前将其转化为实数类型

2.tf.image.resize_image_with_crop_or_pad(input_img, h,w)
该函数用于对图像进行裁剪或者填充。h,w分别表示输出图像的height，weight
如果输出图像的大小小于输入图像，那么这个函数会自动截取原始图像中居中的部分，如果输出图像的大小小于输入图像，那么这个函数会自动在原始图像的四周填充全零背景

    image_data = tf.image.resize_image_with_crop_or_pad(image_data,300,300)
    plt.imshow(image_data)
    plt.show()

3.tf.image.central_crop(input, alpha)
该函数用于按比例裁剪图像中间的部分，其中0<alpha<=1

    image_data = tf.image.central_crop(image_data,0.5)
    plt.imshow(image_data)
    plt.show()

三、图像翻转

    #上下翻转
    flipped = tf.image.flip_up_down(image_data)
    plt.imshow(flipped.eval())
    plt.show()

左右翻转和沿着对角线翻转函数如下所示
flipped = tf.image.flip_left_right(image_data)
flipped = tf.image.transpose_image(image_data)

另外，在训练时，需要对图像进行随机翻转，tensorflow提供了下述函数进行概率为50%的随机翻转：
flipped = tf.image.random_flip_left_right(image_data)
flipped = tf.image.random_flip_up_down(image_data)

四、图像色彩调整

和图像反转类似，调整图像的亮度，对比度，饱和度和色相在很多图像识别应用中都不应该影响识别结果。所以在训练神经网络模型时，可以随机调整训练图像的属性，从而使训练得到的模型尽可能小的收到无关因素的影响。
色彩跳帧给定API可能导致像素的实数值超出0.0-1.0的范围，因此在输出最终图像前要将其值截断在0.0-1.0范围，否则会出错。
截断函数：tf.clip_by_value(input,0.0,1.0)

亮度调整

#将图像的亮度-0.5
adjusted = tf.image.adjust_brightness(image_data, -0.5)
#在[-max_delta, max_delta] 的范围随机调整图像的亮度
adjusted = tf.image.random_brightness(image_data, max_delta)
#调整完之后别忘了截断
adjusted = tf.clip_by_value(adjusted, 0.0 , 1.0)

对比度调整

#将图像的对比度减少到0.5倍
adjusted = tf.image.adjust_contrast(image_data, 0.5)
#将图像的对比度增加到5倍
adjusted = tf.image.adjust_contrast(image_data, 5)
#在[lower, upper]范围内随机调整对比度
adjusted = tf.image.random_contrast(image_data, lower, upper)

色相调整

#将色相加0.1
adjusted = tf.image.adjust_hue(image_data, 0.1)
#在[-max_delta, max_delta]范围内随机调整色相，0<max_delta<0.5
adjusted = tf.image.random_hue(image_data, max_delta)

饱和度调整

#将图像的饱和度-5
adjusted = tf.image.adjust_saturation(image_data, -5)
#将图像的饱和度+5
adjusted = tf.image.adjust_saturation(image_data, +5)
#在[lower, upper] 范围呃逆随机调整图像的饱和度
adjusted = tf.image.random_saturation(image_data, lower, upper)

图像标准化
该操作将图像上的亮度均值变成0，方差变成1

adjusted = tf.image.per_image_standardization(image_data)

五、标注框

在很图像识别的数据集中，图像中需要关注的物体通常会被标注框圈出来。tensorflow提供了一些工具来处理标注框，以下代码展示了如何通过tf.image.draw_bounding_boxes函数在图像中加入标注框

    #将图像缩小一些，这样可视化能让标注框更加清楚
    image_data = tf.image.resize_images(image_data,[182,267],method=1)
    #tf.image.draw_bounding_boxes函数要求图像矩阵中的数字为实数，所以需要先将图像矩阵转化
    #成实数类型，而且其输入是一个batch数据，也就是多张图像组成的四维矩阵，所以需要将解码之后的图像矩阵加一维
    batched = tf.expand_dims(tf.image.convert_image_dtype(image_data,tf.float32),0)
    #给出每一张图像的所有标注框，一个标注框有四个数字，分别代表[ymin,xmin,ymax,xmax]
    #注意，这里给出的数字都是图像的相对位置，范围在0-1之间
    #boxes需要三维数组的原因，分别代表了[batch, N, 4]
    boxes = tf.constant([[[0.05,0.05,0.9,0.7],[0.35,0.47,0.5,0.56]]])
    result = tf.image.draw_bounding_boxes(batched, boxes)
    plt.imshow(result[0].eval())
    plt.show()

tensorflow学习（10）：图像处理函数

一、图像编码处理

二、图像大小处理

三、图像翻转

四、图像色彩调整

五、标注框

猜你喜欢