NLP-歧义和未登录词

通过字符匹配进行的分词错误大多会出现在歧义上,也有少部分会出现在新词等未登录词的范围内,所以,接下来会简单介绍一下歧义和未登录词的内容。

1. 歧义

1). 真歧义:

本身的语法和语义都没有问题, 即便采用人工切分也会产生同样的歧义,只有通过上下文的语义环境才能给出正确的切分结果。例如:对于句子“美国会通过对台售武法案”,既可以切分成“美国/会/通过对台售武法案”,又可以切分成“美/国会/通过对台售武法案”。

2).交集型切分歧义:

设A、J、B皆为字符串,若 AJ JB皆为词,J ----> 交集串。 交集型歧义字段中含有交集字段的个数 ----> 链长 e.g: 链长 字段 1 ------------------------------------------------------- ----------------------> 和尚未 2 -----------------------------------------------------------------------------> 结合成分 … … 8 -----------------------------------------------------------------------------> 治理解放大道路面积水 解释一下链长为8的那个例子: 治理,理解,解放,放大,大道,道路,路面,面积,积水,都是词; 治理,理解,含交集串:理,同理,交集串还有:解,放,大,道,路,面,积 共8个,所以链长为8.

3). 组合型切分歧义:

设A、B皆为字符串,若 A、B、AB皆为词,AB ----> 组合型切分歧义。 e.g:AB = 起身,A =起, B =身, A,B,AB皆为词,故AB ---->组合型切分歧义 他站|起|身|来; 他|起身|去广场;

2.新词与未登录词:

词典管辖之外的词统称为新词+未登录词。 包含:专有名词(中文人名,地名,机构名,外国译名,时间词);重叠词(研究研究…);派生词:(一次性…);术语(互联网…)

1)新词:

在人民日益增长物质文化需要的同时,词语对于自己的发展也是十分的在意,每天都在丰富自己,20多年几乎每年都有800多新词语出生,给我们的分词造成了很大的困扰,几乎6成的分词错误都是由它造成的。没办法,新词的产生是文化丰富发展的必然趋势,我们要取其精华,去其…跑远了。

2)未登录词:

缩略词:中韩,中美,中巴,… 专有名词:人名,地名,机构名(张三,北京,微软) 派生词:主要指含有后缀词素的词:电脑化,巨大化 复合词:由动词和名词等组合成:获允,搜寻法,电脑桌 数字类复合词:时间日期电话号码地址数字… 注:这一部分的分类啥的,不许去花费太多时间记,没啥意思,之后遇到再说。

3)直接抄书:

由于中文词语定义的迷糊型,新词没有统一的定义标准,且涵盖面广,很难找到一种通用的有效的方法;新词尤其是非命名实体,在构成方面没有普遍的规律,对于低频新词由于数据稀疏,识别难度大;很难根据词语的词性、词义和词语用法的变化以及录用事件信息发现新词。 (也即新词是分词失败的罪魁祸首之一) 不同未登录词(新词)识别难度差异: 较成熟:中国人名、译名、地名 较困难:商标字号,机构名 很困难:专业术语,缩略词,新词语