畅游人工智能之海--Keras教程之图像数据预处理(二)
畅游人工智能之海--Keras教程之图像数据预处理(二)
前言
tf.keras.preprocessing
这个库用来将原始数据生成固定可用于训练的格式tf.data.Dataset
。
flow method
1 | from tensorflow.keras.preprocessing import ImageDataGenerator |
这个函数用于生成batch数据,同时增加了一些辅助功能,其中shuffle、sample_weight、seed、subset
在前面已经说过了,save_to_dir、save_prefix
是配套使用的,用于将生成的数据保存在硬盘上。
flow_from_dataframe method
1 | ImageDataGenerator.flow_from_dataframe( |
用于处理pandas格式下的dataframe,并返回标准化的batch数据。directory
实际上是目标程序运行时要读取的路径,在这个函数中相当于是输出路径。在 https://medium.com/@vijayabhaskar96/tutorial-on-keras-imagedatagenerator-with-flow-from-dataframe-8bd5776e45c1 这篇博客中提到了另一种使用该函数的方法:先在命令行中执行 pip uninstall keras-preprocessing
,pip install
git+https://github.com/keras-team/keras-preprocessing.git
,然后使用from keras_preprocessing.image import ImageDataGenerator
调用这个类即可。
关于一个使用该函数的例子如下所示,其中数据集可以到这里获取: https://www.kaggle.com/c/cifar-10/data
1 | import pandas as pd |
flow_from_directory method
1 | ImageDataGenerator.flow_from_directory( |
从某个目录直接获取数据并生成batch数据,但是数据目录需要满足特定的格式,举个例子,更加详细的样例代码见 https://gist.github.com/fchollet/0830affa1f7f19fd47b06d4cf89ed44d :
1 | data/ |