成语大全网 - 成语词典 - 如何能一段中文内容进行词语频率统计并排序?

如何能一段中文内容进行词语频率统计并排序?

想要进行词频统计,你要多的第一部是要得到里面有多少个词。也就是首先你要对全文进行切分,按照词性 动词、名词、语气词等多种词性区分开,显然,如果你想从0开始这么做,你还需要有一个词典,这个词典应当包括了多有的词,然后挨个字去字典里找匹配,才能分开。

对于个人开发者来说这很难。但好在有很多大的云计算服务商他们已经将这种事情给我们做好了,虽然并非那么完美,你有需要的话 可以搜索一下 新浪SAE所提供的分词服务。