畅游人工智能之海--Keras教程之数据集(二)
畅游人工智能之海--Keras教程之数据集(二)
今天我们来继续说明Keras剩下的三个内置数据集。
路透社新闻分类数据集
数据集来源于路透社的 11,228 条新闻文本,总共分为 46 个主题。
load_data功能
1 | tf.keras.datasets.reuters.load_data( |
该功能用于加载路透社新闻分类数据集,这最初是通过解析和预处理经典的Reuters-21578数据集生成的,但是预处理代码不再与Keras打包在一起。
与 IMDB 数据集一样,每条新闻都被编码为一个词索引的序列(相同的约定)。为了方便起见,单词以数据集中的整体频率索引,因此,例如整数“ 3”编码数据中第3个最频繁出现的单词。这样就可以进行快速过滤操作,例如:“仅考虑前10,000个最常用的词,而排除前20个最常用的词”。
按照惯例,“ 0”不代表特定单词,而是用于编码任何未知单词。
返回值:
Numpy数组的元组:(x_train, y_train), (x_test, y_test)
。
x_train,x_test:序列列表,它是索引(整数)列表。如果num_words参数是特定的,则最大可能的索引值为num_words - 1
。如果maxlen
指定了参数,则最大可能的序列长度为maxlen
。
y_train,y_test:整数标签(1或0)的列表。
get_word_index功能
1 | tf.keras.datasets.reuters.get_word_index( |
检索将单词映射到路透数据集中索引的字典。
返回值:
单词索引字典。键是单词字符串,值是它们的索引。
Fashion-MNIST时尚物品数据集
这是一个包含10个时尚类别的60,000张28x28灰度图像的数据集,以及10,000张图像的测试集。该数据集可以用作MNIST的替代品。类标签是:
标签 | 描述 |
---|---|
0 | T恤/上衣 |
1 | 裤子 |
2 | 拉过来 |
3 | 连衣裙 |
4 | 涂层 |
5 | 凉鞋 |
6 | 衬衫 |
7 | 运动鞋 |
8 | 袋 |
9 | 脚踝靴 |
load_data功能
1 | tf.keras.datasets.fashion_mnist.load_data() |
加载Fashion-MNIST数据集。
返回值:
Numpy数组的元组:(x_train, y_train), (x_test, y_test)
。
x_train,x_test:uint8个形状为(num_samples,28,28)的灰度图像数据数组。
y_train,y_test:uint8个形状为(num_samples,)的标签数组(范围为0-9的整数)。
Boston房价回归数据集
数据集来自卡内基梅隆大学维护的 StatLib 库。
样本包含 1970 年代的在波士顿郊区不同位置的房屋信息,总共有 13 种房屋属性。 目标值是一个位置的房屋的中值(单位:k$)。
load_data功能
1 | tf.keras.datasets.boston_housing.load_data( |
加载波士顿房屋数据集。
返回值:
Numpy数组的元组:(x_train, y_train), (x_test, y_test)
。
x_train,x_test:具有(num_samples, 13)
包含训练样本(对于x_train)或测试样本(对于y_train)的形状的numpy数组。
y_train,y_test:(num_samples,)
包含目标标量的numpy形状数组。目标是通常在10到50之间的浮动标量,以k $表示房价。
谢谢大家的观看!