想要进行词频统计,你要多的第一部是要得到里面有多少个词。也就是首先你要对全文进行切分,按照词性 动词、名词、语气词等多种词性区分开,显然,如果你想从0开始这么做,你还需要有一个词典,这个词典应当包括了多有的词,然后挨个字去字典里找匹配,才能分开。
对于个人开发者来说这很难。但好在有很多大的云计算服务商他们已经将这种事情给我们做好了,虽然并非那么完美,你有需要的话 可以搜索一下 新浪SAE所提供的分词服务。
想要进行词频统计,你要多的第一部是要得到里面有多少个词。也就是首先你要对全文进行切分,按照词性 动词、名词、语气词等多种词性区分开,显然,如果你想从0开始这么做,你还需要有一个词典,这个词典应当包括了多有的词,然后挨个字去字典里找匹配,才能分开。
对于个人开发者来说这很难。但好在有很多大的云计算服务商他们已经将这种事情给我们做好了,虽然并非那么完美,你有需要的话 可以搜索一下 新浪SAE所提供的分词服务。