利用人的注意力从微博帖子中提取关键词

利用人的注意力从微博帖子中提取关键词

1. 摘要

该论文研究了社交媒体上关键词的自动提取。虽然这方面的研究已经取得了可喜的成果,但忽视了在关键词标注过程中人类的阅读行为。该论文中,人类的注意力由眼球追踪文本的阅读时长来表示,通过注意力机制将人的注意力与神经网络模型相结合。此外,该论文还将人类的注意力整合到非监督模型中。

2. 介绍

关键词由一个或多个具有代表性的词语且可代表文档主题组成。通常需要使用人工标注关键字的语料库来训练模型,这是因为以往对关键词提取的研究忽略了:人类阅读行为可帮助提取关键词得特点。因此,该论文旨在将人类阅读行为整合到关键词抽取框架中。

通常在阅读时,一个人并没有注意到所有的单词,所以通过对每个单词的阅读时间可反映对各种内容的不同程度的关注。在框架的设计中,通过注意机制来模仿人类在阅读和观看时的视觉注意的神经模块。为了对注意力机制的预测值进行正则化,利用眼球追踪语料库估计出的人的注意力作为其地面真值(ground truth)。

通过定量和定性分析表明:该论文的模型比最先进的模型性能更优,此外,该论文证明了人的注意力在无监督的关键字提取模型上也是有效的。

3.关键词提取框架

对于给定的一个目标微博帖子xi=<xi,1,xi,2,···,xi,|xi|>,其中|xi|表示xi的长度,该论文的目标是产生一个标签序列<yi,1,yi,2,···,yi,|xi|>,其中yi,w有五个可能的取值: \[ y \in \{Single,Begin,Middle,End,Not\} \] Single :xi,w是一个关键词。Begin、Middle和End分别表示xi,w是关键短语的第一个单词、中间单词和最后一个单词。Not :xi,w不是关键词或关键短语的一部分。

如图1所示,该论文的模型使用了Jebbara和Cimiano提出的字符级单词嵌入: \[ y_{i,w}=\sigma(W_ytanh(W_\tilde{y}h_{i,w}+b_\tilde{y})+b_y) \] 其中,hi,w为xi,w通过双向LSTM (BiLSTM)层后的数据表示,Wy和by为函数的参数,σ(·)是一个非线性函数。

img

根据隐藏层,按照下列公式,预测词的原始注意分数ai,w: \[ a_{i,w}=W_ae_{i,w}+b_a \]

\[ e_{i,w}=tanh(W_eh_{i,w}+b_e) \]

其中We和be为函数tanh(·)的参数。

再归一化为注意力权重: \[ \widetilde{a_{i,w} }=\frac{a_{i,w} }{\sum_ka_{i,k} } \] 模型的最终损失函数结合了word-level和attention-level的损失:

Word-level : 最小化模型输出和真正的文字标签之间的平方误差: \[ L_{word}=\sum_i\sum_w(y_{i,w}-\hat{y}_{i,w})^2 \] attention-level : 最小化关注权重和真正的人类注意力之间的平方误差: \[ L_{att}=\sum_i\sum_w(a_{i,w}-\hat{a}_{i,w})^2 \] 结合方法 : 两个权重参数:λword和λatt∈(0,1) \[ L=\lambda_{word}L_{word}+\lambda_{att}L_{att} \] 除了上述单层模型外,该论文还使用了BiLSTM模型用来处理有两种输出类型的任务(yi,w1和yi,w2)。yi,w1有一个二进制标记集,它表示单词xi,w是否是关键字的一部分。yi,w2使用公式2中定义的5值标记集。每个BiLSTM层上都有一个注意模块,以获取相应的预测结果。out : 模型网络层数。 \[ L=\sum_{i=1}^{out}\lambda_{word}^iL_{word}^i+\sum_{i=1}^{out}\lambda_{att}^iL_{att}^i \] 4.实验设计

4.1 Twitter数据集

该论文的实验是在两个数据集上进行的,即,Daily-Life数据集(从使用Twitter的steaming API收集到的一组日常生活关键词,时间 : 2018年1月到2018年4月)和 Election-Trec 数据集(基于开源数据集TREC2011 track和Election语料库构建)。

关键词标注:使用微博标签作为关键词,并使用如下方法过滤微博帖子:

一,每个帖子只有一个散列标签(hashtag);

二,标签在帖子中。

然后,删除关键字之前的所有' # ',以8:1:1的比例划分数据来进行训练、开发和测试。再根据不同种类的hashtag,将无空格的hashtag分段。

4.2 眼球追踪语料库

自然阅读的开源眼控语料库包括Dundee语料库和GECO。该论文以正常阅读为基础,从GECO语料库估算了人类的注意力。GECO具有不同的特征,包括首次注视时间(FFD)和总阅读时间(TRT)。在该论文中,仅仅使用TRT特征来代表了人类在阅读过程中对单词的注意力。ATRT = TRT / 阅读人数。

4.3 实现细节

在训练阶段:选用300维的BiLSTM。单层模型:λword和λatt分别设置为0.7和0.3。联合层模型:\(λ^1_{word}\)\(λ^1_{att}\)\(λ^2_{word}\)\(λ^2_{att}\)分别设置为0.4,0.2,0.2和0.2。epoch设置为5。

4.4 对比实验

将该论文的模型与CRF、无注意力机制的BiLSTM模型、有注意机制但未被人类注意力修正的A-BiLSTM模型。将模型的性能与P、R和F1评价指标进行了比较。

5. 结论

  • 通过眼动跟踪语料库估算人的注意分数,有助于提高神经网络关键字提取的性能。如表2所示,所有人注意模型的F1值均高于对照组模型。如此证明了将人类阅读行为信息整合到神经网络是可行的。
  • 开源眼控语料库可以提高不同类型数据集模型的性能。
img