NLP-歧义和未登录词

Posted on 2021-06-13 Edited on 2021-06-14

通过字符匹配进行的分词错误大多会出现在歧义上，也有少部分会出现在新词等未登录词的范围内，所以，接下来会简单介绍一下歧义和未登录词的内容。

1. 歧义

1). 真歧义：

本身的语法和语义都没有问题, 即便采用人工切分也会产生同样的歧义，只有通过上下文的语义环境才能给出正确的切分结果。例如：对于句子“美国会通过对台售武法案”，既可以切分成“美国/会/通过对台售武法案”，又可以切分成“美/国会/通过对台售武法案”。

2).交集型切分歧义：

设A、J、B皆为字符串，若 AJ JB皆为词，J ----> 交集串。交集型歧义字段中含有交集字段的个数 ----> 链长 e.g: 链长字段 1 ------------------------------------------------------- ----------------------> 和尚未 2 -----------------------------------------------------------------------------> 结合成分 … … 8 -----------------------------------------------------------------------------> 治理解放大道路面积水解释一下链长为8的那个例子：治理，理解，解放，放大，大道，道路，路面，面积，积水，都是词；治理，理解，含交集串：理，同理，交集串还有：解，放，大，道，路，面，积共8个，所以链长为8.

3). 组合型切分歧义：

设A、B皆为字符串，若 A、B、AB皆为词，AB ----> 组合型切分歧义。 e.g：AB = 起身，A =起， B =身， A,B,AB皆为词，故AB ---->组合型切分歧义他站|起|身|来；他|起身|去广场；

2.新词与未登录词：

词典管辖之外的词统称为新词+未登录词。包含：专有名词（中文人名，地名，机构名，外国译名，时间词）；重叠词（研究研究…）；派生词：（一次性…）；术语（互联网…）

1)新词：

在人民日益增长物质文化需要的同时，词语对于自己的发展也是十分的在意，每天都在丰富自己，20多年几乎每年都有800多新词语出生，给我们的分词造成了很大的困扰，几乎6成的分词错误都是由它造成的。没办法，新词的产生是文化丰富发展的必然趋势，我们要取其精华，去其…跑远了。

2)未登录词：

缩略词：中韩，中美，中巴，… 专有名词：人名，地名，机构名（张三，北京，微软）派生词：主要指含有后缀词素的词：电脑化，巨大化复合词：由动词和名词等组合成：获允，搜寻法，电脑桌数字类复合词：时间日期电话号码地址数字… 注：这一部分的分类啥的，不许去花费太多时间记，没啥意思，之后遇到再说。

3）直接抄书：

由于中文词语定义的迷糊型，新词没有统一的定义标准，且涵盖面广，很难找到一种通用的有效的方法；新词尤其是非命名实体，在构成方面没有普遍的规律，对于低频新词由于数据稀疏，识别难度大；很难根据词语的词性、词义和词语用法的变化以及录用事件信息发现新词。（也即新词是分词失败的罪魁祸首之一）不同未登录词（新词）识别难度差异：较成熟：中国人名、译名、地名较困难：商标字号，机构名很困难：专业术语，缩略词，新词语