成语大全网 - 汉语词典 - 军犬网络舆情监控系统的核心技术

军犬网络舆情监控系统的核心技术

军犬网络舆情监控系统的核心技术为互联网信息采集技术、自然语言智能处理技术(文本挖掘技术)、全文检索技术和舆情应用技术。

1.1 互联网信息采集技术

1.1.1 强大的信息采集功能

强大的信息采集功能是其他所有功能的保障。采集技术不过硬的产品不可能达到有效的舆情监测效果。军犬的数据采集与数据挖掘居全行业之首,为信息的深度处理提供了强有利的保证。

1.1.2 支持各种网络载体的监控

可监控各大搜索引擎,新闻门户,BBS,博客,留言版,微博,视频,搜索,文档

1.1.3 元数据搜索功能

元搜索引擎集成了不同性能和不同风格的搜索引擎并发展了一些新的查询功能。查一个元搜索引擎就相当于查多个独立搜索引擎。进行网络信息检索与收集时,元搜索可指定搜索条件,从而既提高信息采集的针对性又扩大了采集范围的广度,收到事半功倍的效果。 1.1.4 内置1.8万个监控网站

无需过多配置便可轻松对1.8万网站实施监控。

1.1.5 可监控各种语言,各种编码的网站

无需配置自动识别语言和网站编码。

1.1.6 信息智能提取技术

网页内容智能提取技术能有效地提取网页中的有效信息,区分网页中的标题、正文等信息项,并对内容具有连续性的多个网页内容进行自动合并、网络论坛信息自动提取等。

1.1.7 结构化采集技术

对非结构化的网页数据在采集的时候进行结构化的信息抽取和数据存储,以满足多维度的信息挖掘和统计需要。

1.1.8 全天候不间断监控

可定时监控,也可7*24全天候监控。实际应用中可以做到分钟级的采集更新。

1.2 自然语言智能处理技术

1.2.1 自动分词技术

采用以词典为基础,规则与统计相结合的分词技术,有效解决了切分歧义。综合利用了基于概率分析的语言模型方法,使分词的准确性达到99%,并可根据不同的应用进行适合特定要求的分词分词速度快。

1.2.2 自动关键词和自动摘要技术

在文本语义分析的基础上,综合考虑词频、词性、位置信息,实现准确的自动关键词与自动摘要。同时利用指代消解等技术使得摘要更具可读性。

1.2.3 自动分类技术

不需要人工干预的自动分类技术,有效提高非结构化信息的加工效率。文本分类是指计算机根据文本内容进行类别划分的功能。中科点击自动分类技术包括以下两中分类方式:

A 基于内容的文本自动分类

B 基于规则的文本分类

1.2.4 自动聚类技术

自动聚类技术是基于相似性算法的自动聚类技术,自动对海量的无类别文档进行归类,把内容相近的文档归为一类,并自动为其生成主题词,为确定类目名称提供方便。可应用于自动生成舆情专题,重大新闻事件追踪等等

1.2.5 相似性检索和查重技术

基于文档“指纹”的文本查重技术,支持海量数据的信息查重。

相似性检索是指对于给定样本的文本,在文本集合中查找出与之内容相似的其他文本的技术。在实际应用中,找出舆情信息内容几乎相同的文章,实现对舆情信息的消重;根据文章主题相似性,形成专题报道,背景分析等等。

1.3 智能检索技术

本系统的全文引擎将传统的全文检索技术与最新的WEB搜索技术相结合,大大提高检索引擎的性能指标。同时融合了多种相关技术,提供丰富的检索手段以及同义词等智能检索方式。