畅游人工智能之海--Keras教程之Keras基础知识与安排

畅游人工智能之海--Keras教程之Keras基础知识与安排

现在我们将结合一个简单的例子,开始keras的学习!

一个例子

小编在GitHub上找到了一个基于卷积神经网络(CNN)的验证码识别项目,将关键的代码进行整理,去掉了无助于理解过程的代码。keras编程的过程可划分为六个阶段:数据预处理\(\rightarrow\)定义神经网络结构\(\rightarrow\)编译模型\(\rightarrow\)训练网络\(\rightarrow\)使用模型进行预测\(\rightarrow\)进行数据后处理。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
'''为了凸显keras编程的核心步骤,需要导入的库以及路径的定义不再列出'''
# 数据预处理--the 1st core step
# 将数据从本地文件加载到内存中,并进行格式化处理
data, label = load_data(pic_folder)
data_train, data_test, label_train, label_test = \
train_test_split(data, label, test_size=0.1, random_state=0)
# 定义神经网络结构--the 2nd core step
# keras是模块化的添加层结构
inputs = layers.Input((40, 40, 3))
x = layers.Conv2D(32, 9, activation='relu')(inputs)
x = layers.Conv2D(32, 9, activation='relu')(x)
x = layers.MaxPool2D((2, 2))(x)
x = layers.Dropout(0.25)(x)
x = layers.Flatten()(x)
x = layers.Dense(640)(x)
x = layers.Dropout(0.5)(x)
out = layers.Dense(len(APPEARED_LETTERS), activation='softmax')(x)
model = Model(inputs=inputs, outputs=out)
# 编译模型--the 3rd core step
# 配置损失函数、优化目标等
model.compile(
optimizer='adadelta',
loss=['categorical_crossentropy'],
metrics=['accuracy'],
)
# 训练神经网络--the 4th core step
# 开始训练神经网络,进行一些独立于网络结构之外的预处理,例如提前确认在计算的过程中对某些数据进行保存
his = model.fit(
x_train, y_train, batch_size=128, epochs=100,
validation_split=0.1, callbacks=[ModelCheckpoint(
os.path.join(weight_folder, '{epoch:02d}.hdf5'))],
)
# 基于模型的预测--the 5th core step
# 直接调用predict函数即可
model.load_weights(model_path)
data = get_testX()
out = model.predict(data)
# 数据后处理--the 6th core step
# 其实就是分析数据
# metrics数据结果
print(his.history)
# 可视化结果
tb_cb = keras.callbacks.TensorBoard(log_dir=log_filepath, write_images=1, histogram_freq=1)
cbks = [tb_cb] # cbks作为一个回调函数在执行fit函数时调用

六个阶段可以总结为两个部分

所有的六个阶段放在一起又可以分成两个大的部分,一个是模型的训练,包含前四个阶段,另一个是模型的应用,包含后两个阶段。

模型训练

我们建立的神经网络就是一个封闭的自循环的计算系统,如图1所示。图中的上下两部分分别对应着前向传播和反向传播:在进行前向传播的过程中,我们需要定义神经网络的结构,也就是第二个阶段要完成的任务;在进行反向传播的过程中,我们需要定义损失函数、优化目标等信息,也就是第三个阶段要完成的任务。相比于二三阶段,第一和第四阶段就显得不那么重要了,但也是必不可少的。在第一阶段我们要将数据转化成神经网络可识别的格式,在第四阶段,我们开始这个计算过程。

1582617185583

图1 神经网络计算流程
转自 https://towardsdatascience.com/lets-code-a-neural-network-in-plain-numpy-ae7e74410795

模型应用

在这一部分我们使用已经训练好的神经网络对测试数据进行预测,并通常使用一定的可视化手段对获得的数据进行预测,比如将loss的变化过程打印出来看看神经网络收敛的效果如何,看看多测试集上正确率的分位数等 等,如图所示。

1582623111869

图2-1 loss随时间变化

1582622869368

图2-2 分位数、均值、最值示意图

我们的计划

按照六个阶段的重要程度,我们将率先对第二阶段进行讲解,紧接着是第三第四阶段,最后是数据的预处理和后处理。那么,下一次,我们就会从使用keras建立各种各样的网络结构开始,对第二个阶段进行详细的分析,敬请期待。

写在文末

我们在文章中给出的代码一般都是不能运行的,这么做只是为了更加地清晰对问题进行描述,还请见谅,我们会将可以运行的源代码放在GitHub上,以供参考。

GitHub地址:https://github.com/1173710224/keras-cnn-captcha