自然语言处理——7.5 自动分词基本算法

? 有词典切分/ 无词典切分

? 基于规则的方法/ 基于统计的方法

－有词典切分，机械切分

假设句子：，某一词：为词典中最长词的字数。

设待切分字串，其中为单个的字，为串的长度，。建立一个节点数为的切分有向无环图，各节点编号依次为。

求最短路径：贪心法或简单扩展法。

把输入字串(句子) 作为的输入；切分后的单词串为状态的输出，即观察序列。词性序列为状态序列，每个词性标记对应中的一个状态，。

将分词过程看作是字的分类问题。该方法认为，每个字在构造一个特定的词语时都占据着一个确定的构词位置(即词位)。假定每个字只有4个词位：词首(B)、词中(M)、词尾(E)和单独成词(S)，那么，每个字归属一特定的词位。

该方法的重要优势在于，它能够平衡地看待词表词和未登录词的识别问题，文本中的词表词和未登录词都是用统一的字标注过程来实现的。在学习构架上，既可以不必专门强调词表词信息，也不用专门设计特定的未登录词识别模块，因此，大大地简化了分词系统的设计

使用3-gram:

而基于字的分词方法采用区分式模型(Discriminative model)

假设是观察值，是模型。如果对进行建模, 就是生成式模型。其基本思想是：首先建立样本的概率密度模型，再利用模型进行推理预测。要求已知样本无穷多或者尽可能地多。该方法一般建立在统计学和 Bayes 理论的基础之上。

? 主要特点 ：从统计的角度表示数据的分布情况，能够反映同类数据本身的相似度。

? 主要优点 ：实际上所带的信息要比判别式模型丰富，研究单类问题比判别式模型灵活性强，模型可以通过增量学习得到，且能用于数据不完整(missing data) 情况。

? 主要缺点 ：学习和计算过程比较复杂。

6.2.2 判别(区分)式模型(Discriminative Model)

如果对条件概率(后验概率) 进行建模，就是判别式模型。基本思想是：有限样本条件下建立判别函数，不考虑样本的产生模型，直接研究预测模型。表性理论为统计学习理论。

? 主要特点 ：寻找不同类别之间的最优分类面，反映的是异类数据之间的差异。

? 主要优点 ：判别式模型比生成式模型较容易学习。

? 主要缺点 ：黑盒操作，变量间的关系不清楚，不可视。

基于字的区分模型有利于处理集外词，而基于词的生成模型更多地考虑了词汇之间以及词汇内部字与字之间的依存关系。因此，可以将两者的优势结合起来。

6.2.3 结合方法1

结合方法1：将待切分字串的每个汉字用替代，以作为基元，利用语言模型选取全局最优(生成式模型)。

6.2.4 结合方法2:插值法把两种方法结合起来