中文切词(又称中文分词,Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
中文分词的缘起
之所以存在中文分词技术,是由于中文在基本文法上有其特殊性,具体表现在:
1、与英文为代表的拉丁语系语言相比,英文以空格作为天然的分割符,而中文不存在
例句:“Knowledge is power“ , 可自然分割为 Knowledge/ is/ power 三个词,每个词能独立表义
而中文里:知识就是力量 , 由于缺少分隔符,无法进行符合汉字表义的切分:知识/ 就是/ 力量
2、在中文里,“词”比“单字”的表义能力更强
现代汉语的基本表达单元为“词”,以双字或者多字居多,其单独切分后难以独自表义
例如:机械工程,基本语义单元为“机械”和“工程”,如果按单子切分为“机”、“械”、“工”、“程”,则这些单字不符合人对中文语义的理解,因此不符合需求。