知识管理技术
自然语言处理技术据统计,当前数字化的信息中80%的信息以非结构化的形式存在,其中大部分信息以自然语言描述形式的文本。方正智思舆情预警辅助决策支持系统作为一个信息资讯分析应用系统,能够对自然语言描述文本形式进行深入的分析挖掘。
n 自动分词技术
自动分词技术是中文信息处理与分析的基础。错误的分词将导致完全错误的信息语义。方正智思舆情预警辅助决策支持系统中以词典和规则为基础,综合利用了基于概率分析的语言模型方法,使分词的准确性达到99%,并可根据不同的应用进行适合特定要求的分词。
n 自动关键词与自动摘要技术
方正智思舆情预警辅助决策支持系统在篇章语义分析的基础上,综合考虑词频、词性、位置信息,实现准确的自动关键词与自动摘要。同时利用指代消解等技术使得摘要更具可读性。
信息检索技术n 全文检索技术
方正智思舆情预警辅助决策支持系统的全文引擎将传统的全文检索技术与最新的WEB搜索技术相结合,大大提高检索引擎的性能指标。同时融合了多种相关技术,提供丰富的检索手段以及同义词等智能检索方式。
数据挖掘技术n 自动分类与自动聚类
分类是通过对训练集的学习,得出每一分类的属性特征的模型,然后使用这一模型对未知分类情况的数据进行分类。典型的应用是系统通过对部分已知分类文档的学习训练后,对文档集进行自动分类。它区别于聚类的关键是它有个学习的过程。
聚类是将数据集合中的数据划分为具有一定意义的子集,使得不同子集中的数据差别(距离)尽可能大,而同一子集中的数据差别(距离)尽可能小。典型的应用例子是,在空间数据库中,根据数据点的空间分布情况,将数据点分成不同的簇。
相似搜索与消重相似搜索是在对象集合中,找到与指定的查询对象相似的对象实例或对象子集。例如:从WEB中找出与指定内容相似的页面、图片或其他信息。
在实际应用中,找出舆情信息内容几乎相同的文章,实现对舆情信息的消重;根据文章主题相似性,形成专题报道,背景分析等等。