由于词意库是自学习形成,因此不需要预先设置庞大的词典库,而且最重要的是,学习是持续性的,系统对词意的理解会随着外界的变化而变化,并能不断增添新创词汇。 由于同一个词,对于不同的人,词意可能是不同的,因此可以根据每个用户的习惯形成自己的子词意库,可使用子词意库对文本进行二次分析,产生个性化结果。 系统的学习分为两种方式: 知识学习 系统自动在互联网上进行,无特定目的地吸收网上各种信息,并对收集到的信息进行分析后作为知识保留,整个过程无需人工干预,可一天 24 小时不间断地进行。 经验学习 每一次用户的具体使用,其结果也将作为经验保留下来,并对知识学习的结果进行修正。分词技术不追求 100%的准确,而讲究实用、快速,不依赖于庞大的词汇库或知识库,因此可以做到不针对特定领域,可解决人名、地名、新出现的词汇等的分词,这些问题是传统分词方法难以解决的,尤其是新词汇的分词,几乎是一个世界性的难题。 由于整个核心算法并非基于字、词典及语法,而是从模仿人类对语言文字的理解入手,比如一个儿童并不懂得查字典和语法,但能够听懂别人说的话,因此对核心只要稍作修改便能够用于英语及其它文字语言,就好象一个婴儿,你把他放到哪个国家,他就能学会当地的语言。