这三种优劣势如下:
1、基于Trie树切词优势是利用了Trie树的字符串检索的特性,在分词中无须知道词语长度,按照树的某个节点往下匹配直到遇到结束位置就可以了;劣势是构造词典比较复杂。
2、整词二分切词优势是速度快,通过构建收字散列表的hash定位和词索引表,查询速度快。劣势是精度低。
3、逐字二分切词优势是融合了整词二分的存储优势与Trie树的查询优势。精度高,逐字匹配,不会出现歧义。
这三种优劣势如下:
1、基于Trie树切词优势是利用了Trie树的字符串检索的特性,在分词中无须知道词语长度,按照树的某个节点往下匹配直到遇到结束位置就可以了;劣势是构造词典比较复杂。
2、整词二分切词优势是速度快,通过构建收字散列表的hash定位和词索引表,查询速度快。劣势是精度低。
3、逐字二分切词优势是融合了整词二分的存储优势与Trie树的查询优势。精度高,逐字匹配,不会出现歧义。