畅游人工智能之海--Keras教程之图像数据预处理(一)
畅游人工智能之海--Keras教程之图像数据预处理(一)
上周我们结束了优化器的学习,这周我们将要展开数据预处理中关于图像数据预处理函数的学习。数据预处理的函数可以帮助我们将原始数据转换成可用于训练模型的对象,这也是训练神经网络的过程中非常重要的一步,让我们一起来看看吧。
image_dataset_from_directory函数
1 | tf.keras.preprocessing.image_dataset_from_directory( |
该函数会从目录中的图像文件生成 tf.data.Dataset 。
如果目录结构如下:
1 | main_directory/ |
然后调用image_dataset_from_directory(main_directory,labels='inferred')
, 将返回tf.data.Dataset
,从子目录class_a
和生成批次图像class_b
,以及标签0和1(0对应于class_a
和1对应于class_b
)。
支持的图像格式:jpeg,png,bmp,gif。动画gif被截断到第一帧。
返回值:
一个tf.data.Dataset
对象。如果label_mode为None,它将生成形状为(batch_size,image_size[0],image_size[1],num_channels)的float32张量,对图像进行编码。否则,将生成一个元组 (images, labels)
,其images
形状为(batch_size, image_size[0], image_size[1], num_channels)
,有可能为int、binary和categorial。如果label_mode
是int
,标签是形如(batch_size,)的int32张量;如果label_mode
是binary
,,标签是形如(batch_size, 1)的0s和1s的float32张量;如果label_mode
为categorial
,标签是形如(batch_size, num_classes)的float32张量,表示类索引的单次编码。
如果color_mode
为grayscale
,则图像张量中有1个通道。如果color_mode
是rgb
,则图像张量中有3个通道。如果color_mode
是rgba
,则图像张量中有4个通道。
load_img函数
1 | tf.keras.preprocessing.image.load_img( |
将图像加载为PIL格式。
例子:
1 | image = tf.keras.preprocessing.image.load_img(image_path) |
返回:
PIL实例
注意:
ImportError:如果PIL不可用。
ValueError:如果不支持插值方法。
img_to_array函数
1 | tf.keras.preprocessing.image.img_to_array( |
返回值:
3D的numpy阵列
注意:
ValueError:如果无效img
或data_format
已通过。
ImageDataGenerator类
1 | tf.keras.preprocessing.image.ImageDataGenerator( |
使用实时数据增强生成一批张量图像数据。数据将被循环(分批)。
该类有多种API,如flow、flow_from_directory等等,明天我们将进行相关的讲解。
今天我们学习了一部分图像数据预处理的函数和类,大家可以动手尝试将它们运用到代码当中,及时巩固,谢谢大家的阅读,明天见!