成语大全网 - 经典成语 - 自动分词的匹配法

自动分词的匹配法

最大匹配法

亦称MM法;其基本思想是这样的,假设自动分词词典(或词库)中的最

长词条是i个字,则取被处理材料当前字符串序列中的前i个字作为匹配字段,查找词

典,若词典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来;

如果在词典中找不到这样一个i字词,则匹配失败,匹配字段去掉最后一个字,剩下的

字段重新进行匹配,如此进行下去,直到匹配成功,也就是完成一轮匹配,切分出一个

词为止。

这种分词方法,在由北京航空学院等十多个单位协同进行的我国第一次大规模现代汉语

词频统计工作中,实现了我国第一个自动分词系统CDWS。

逆向最大匹配法

亦称OMM法,或RMM,IMM法;其基本原理和MM法相同,不同的是分

词切分方向;它从被处理材料的末端开始匹配,每次取最末端的i个字作为匹配字段,

匹配失败则去掉最前面的一个字。OMM法要求配置逆序分词词典。

逐词遍历匹配法

它把词典中的词按照由长到短递减的顺序逐个搜索匹配整个代处

理材料,直到把所有的词都切分出来为止。

正向最佳匹配法和逆向最佳匹配法

最佳匹配法的出发点,是在词典中按词频的大

小排列词条,以求缩短对分词词典的搜索时间,达到最佳效果,从而降低分词的时间复

杂度,以加快分词速度。实际上,这是对分词词典预先进行的一种加工,也不是纯粹意

义上的一种分词方法。