1. 摘要

从人类参与者的实验数据集中发现，标准的神经网络能够比行为经济学中已建立的模型更准确地预测玩家的行为。神经网络在预测精度和交叉熵方面优于其他模型，具有较高的经济价值。这篇文章还证明了如果可用的输入只是一个游戏的短序列，那么关于游戏的经济信息对于预测玩家的行为是很重要的。而足够长的序列输入使得经济信息因素不能提高网络的性能,这表明较长的动作序列中蕴含的信息足够满足神经网络的预测。 # 2. 简介这篇论文着重预测人类玩家在重复性游戏的情况下的行为。学习模型比较契合需求，这些模型根据之前反馈实现更新。然而，这些模型通常以小步长更新其预测的分布，并且在准静态分布之间收敛或缓慢移动，因此未必适合预测单个玩家的动态行为。对于只玩一次的游戏，神经网络比行为模型更具优势。神经网络预先从一组实例中学习一个固定的函数，然后使用这个相同的函数对新实例进行预测。

在这篇文章的监督学习框架中，在训练阶段，网络的输入是t时刻之前的游戏历史，输出是对玩家t + 1时刻动作的预测。根据损失函数对模型参数进行优化。使用2x2（双人游戏）数据集进行评估，该数据集由12个游戏组成，每个游戏都有一个独特的纳什均衡。文章使用了两种典型的网络模型——多层感知机(MLP)和卷积神经网络(CNN)，并与行为经济学中已建立的模型和由特定游戏训练得到的网络模型进行比较，衡量的标准是交叉熵损失、预测精度和经济价值。

3. 设定预测指标

对于一般的重复性游戏，假设共有n个玩家。由A_i表示玩家i的行为空间，由a^t_i∈A_i表示参与者i在t时段的动作。由a_−i表示除玩家i之外的其他玩家的动作(即，a_−i = (a₁，…，a_i−1, a_i+1，…，a_n))。定义u_i(a_i,a_−i)为效用函数，它决定了当其他玩家选择a_−i时，每个玩家选择a_i动作所获得的收益。在选定数据集对应的（2X2）游戏中：有两个玩家（行玩家和列玩家）根据一个固定效用函数进行重复游戏。

行为建模任务是在t = 1......T的每个时间，预测玩家i的下一个行动a^t+1_i。输入是两个玩家的历史决策，以及可能的额外信息，如游戏收益矩阵或其函数。输出是动作A_i的概率。在训练阶段，模型对人类玩家在一组游戏G中所进行的动作序列进行观察，并对其预测进行优化，并用训练好的模型对不属于G的游戏中的游戏序列进行测试。评价指标是交叉熵损失、预测精度和经济价值。更形式化地说，令y^t_i∈{0,1}为t = 1...T时玩家i的动作，当对行玩家进行预测的时候，0和1代表上下。对列玩家进行预测的时候，0和1代表左右。并让yˆ^t_i∈[0,1]是y^t_i=0的概率。则在有n个玩家的游戏g中，模型的交叉熵损失是: 在这里插入图片描述预测精度指标是正确的预测的百分比：，y为向量: (y1i,…, yTi)，1和y有相同的维数。经济价值的计算方法是：，其中optti的计算方法是： ,它是t时刻玩家i的最佳选择。模型的损失、准确性和经济价值被定义为不同游戏中每个指标的平均值。 # 4. 神经网络模型 ### 4.1 多层感知器（MLP）该论文使用的MLP具有两个隐藏层，每个隐藏层有512个神经元，每个隐藏层有一个点态修正线性激活函数(ReLU)。输出层具有两个神经元，有一个softmax激活函数，输出玩家动作的概率。训练采用dropout正则化，权值删除率为0.3，使用Adam优化器，学习率为0.0002，Batch为64。这些网络将每个输入序列作为单个向量，而没有将数据的时间维度显式地作为其输入的单独维度。 ### 4.2 卷积神经网络（CNN）神经网络能够表示局部时间关系与少量的参数。在重复的游戏设置中，这些可能是临时的局部动作和响应模式，可能出现在观察序列的不同位置。玩家和对手的动作以两个独立的通道作为网络的输入，并在一段时间内进行卷积。文章使用一个有两个卷积层的网络，每层有64个5×1滤波器，一个有256个神经元的全连接层和ReLU激活函数，一个有两个神经元的softmax输出层，使用与MLP网络相同的正则化和优化方法。文章还测试了两个单通道输入CNN，一个参数数量与双通道模型相同，另一个参数数量是其两倍，发现增加输入通道比增加变量个数更有效。 # 5. 结果评价 ### 5.1与静态预测的比较图1a和1b展示了两种网络类型(MLP和CNN)的损失和准确性。可以看出，这两种网络类型都比最佳静态分布具有更低的损耗和更高的精度水平。从图1c可以看出，这一优势也转化为经济价值上的巨大差异:网络模型获得了87%以上的最优值，显著高于最佳静态分布所获得的78.3%。在这里插入图片描述

Figure 1: Comparison to static distributions: (1a) cross entropy loss, (1b) prediction accuracy, and (1c) economic value of the network models and the equilibrium models. The blue horizontal line indicates the performance of the best static distribution benchmark, and the red line indicates the performance of the random benchmark.

5.2与动态预测结果的比较

图2a和图2b展示了MLP和CNN网络的损失和准确性，可以看出，所有的神经网络模型在预测损失和准确性方面都优于所有的非网络模型。

Figure 2: Comparison to dynamic models and benchmarks:(1a) cross entropy loss, (1b) prediction accuracy, and (1c) economic value of the network models, the Reinforcement Learning (RL) and Normalized Fictitious Play (NFP) dynamic models, and the benchmarks of Inertia and the Most Frequent action in the previous history (MF). The blue horizontal line indicates the performance of the best static distribution benchmark, and the red line indicates the performance of the random benchmark (see Section 4.2 for more details).

BBIT

热门论文用于预测重复游戏中人类交互行为的神经网络

热门论文|用于预测重复游戏中人类交互行为的神经网络

1. 摘要

3. 设定预测指标

5.2与动态预测结果的比较