NLP-篇章计算
NLP | 篇章计算
一. 语篇分析简介
1.自然语言处理的不同层次:
- 词法:词的构成
- 语法:词语次之间的结构关系
- 语义:词的意义、词之间组合意义
- 篇章:句子之间的关系,上下文的含义
2.篇章表示与相似度计算:
(1). 向量空间模型:将文本文件表示为一个向量的模型。
[1]. 表示方法:\(d_j = (f_{j,1},f_{j,2},..,f_{j,n})\),其中\(d_j\)表示第j个文本文件,向量的每个维度对应此表中的一个词,如果,文本中含有该词,我们令对应项为1,反之为0。
[2]. 上述方法的关键是在于,对一个文本中的词进行建模。但是单纯的将他们设置为0或者1仅仅是考虑了有没有这个词这一点,而对于词出现的次数没有考虑。
[3]. 针对[2]中所述问题,我们可以对模型进行改进:对于此如果文本\(d_j\)中含有\(x_i\)个\(word_i\),那么我们就将\(f_{j,i}\)置为\(x_i\)。
[4]. 在[3]的改进中确实将词频纳入考虑,但是对于不同词而言,我们将他们的出现进行打分时,权重简单的设置为1,这其实是不合理的,因为对于一些文本而言,有一些词是具有着重要意义与地位的,比如:键盘、鼠标常出现在电脑、计算机相关的文本中;而方向盘、马达则常出现在汽车等文档中。他们的特点是:未必会在一个文本中出现特别多的次数,但是他们却只在小范围的文本中出现,所以他们对于文本的类别归属做出了很大的贡献。由此可见我们将他们的权值统一为1是不恰当的,这时我们就结合[3]中的改进一起,使用tf-idf方法进一步改进模型(w为权重): \[ TF_{ji} = \frac{文档j中出现词项word_i的次数}{文档j中总词数} = \frac{n_{ji} }{\sum_{k} n_{j,k} } \\ IDF_{i} = \log(\frac{语料库中文档总数}{包含word_i的文档数}) = \log(\frac{D}{t_i}) \\ w_{ji} = TF_{j,i} * IDF_{i} \\ \] [5]. 对于一些无意义词:'的','了'等出现的次数特别多,只考虑词频的话,会出现这类无意义词占主导地位的情况,这我们可以通过删除文本中停用词来进行改进;
(2). 相似度计算:
通过(1)中或其他模型我们得到了一个文本的向量表示之后,下一步我们就需要进行相似度的计算。
这其中可能是文档与文档之间的相似度计算,也可能是查询和文档之间的相似度计算,这要取决于任务的不同。
相似度计算可以采用简单的向量之间进行内积的方式,也可以使用余弦相似度,下面给出预选相似度的公式: \[ sim(d_i,d_j) = \frac{d_i * d_j}{||d_i|| * ||d_j||} \] 分子的计算仍然是内积,分母是两个向量的模相乘。
二. 指代、衔接、连贯
1.指代的一个例子:
在真实的文本中,根据用语习惯,通常不会出现如下的描述:"张三一大早就赶到了学校。张三先到食堂吃早餐,然后张三到张三的宿舍拿张三自己的教材和张三自己的笔记本。当张三匆忙来到教室时,张 三发现张三的课本拿错了。"
我们通常会省略掉其中的一些文字,让文本更加的简洁,读起来朗朗上口:"张三一大早就赶到了学校。他先到食堂吃早餐,然后到宿舍拿自己的教材和笔记本。当匆忙来到教室时,他发现课本拿错了。"
这就产生了指代现象。
2.指代表示:
[1]. Indefinite NPs(不定名词):引入一个实体时常用不定表示,他可能是明确存在的,也可能不是明确的。例如:一辆汽车。
[2]. Definite NPs(特定名词):无论读者是否知道,他是客观存在的:。例如:首位进入太空的宇航员;
[3]. Pronouns(人称代词):他、她、它
[4]. Demonstratives(指示代词):这、那,常与是等连用:张三花了大价钱买了个金子做的苹果,那是一个金闪闪的装饰品。注:如果将这类指示代词与名词连用,就变成了[2]中的情况。
[5]. One-anaphora(one指代):英文中的one进行指代。
[6]. Zero anaphora(0型指代):省略了对对象的称呼。
3.语篇的意义:语篇应该是前后意义相关的句子序列,这些句子围绕着某个话题或是中心而展开,且不仅具有语义上的相关性,还具有形式上的关联关系。
4.衔接与连贯:
[1]. 连贯:句子意义表示(语义)的关联:
这一类则要考虑语句之间是不是具有某种关系:因果关系、递进关系等等。比如说:今天我给朋友买了个生日礼物。他的房子着火了。
从上面的例子中我们不难看出,前后句子有点儿不搭,他们不具备十分明显的关联关系。
[2]. 修饰结构理论RST:该理论认为语篇的构成具有层次结构(树形图结构),可以通过修饰结构表示语篇结构,进而判断连贯性。本质上是根据一些的二元或多元关联关系,定义父节点和子节点,对文本中的句子使用树状图的方式进行结构化描述。
[3]. 衔接:词汇表示上(形式)的关联:
这一类的体现是,句中会出现大量的实体或是指代对应着文档的主题或是中心,比如:"张三擅长素描。他给家里的每个人都画了一幅,挂在房间的是自画像"。 在这个句子中:素描,画了,一幅[画]【画字已省略能使用中括号括起】,自画像等等。也就是说,我们可以单单从词语的类别上判断出,他是和画、画画紧密相关的。
[4]. 词汇衔接的几种基本表示:
复现:重复、同义或近义词、上下义词、泛指词
搭配关系:固定搭配等等。
这里着重于词汇上的无缝衔接。