近几年,中国着力于利用技术手段实现对海量的网络舆情信息进行深度挖掘与分析,以快速汇总成舆情信息,从而代替人工阅读和分析网络舆情信息的繁复工作。网络舆情相关的关键性技术归结为:单体化技术与系统化技术两类,现逐一论述。
网络舆情相关的单体化技术主要包含以下四个:
(1) 网络舆情采集与提取技术:网络舆情主要通过新闻、论坛/BBS、博客、即时通信软件等渠道形成和传播,这些通道的承载体主要为动态网页,它们承载着松散的结构化信息,使得舆情信息的有效抽取很有难度。梅雪等人(2007)通过全自动生成网页信息抽取Wrapper的方法在一定程度上实现了动态网页数据的抽取与集成,具有一定的处理准确率以及抽取效率。
(2) 网络舆情话题发现与追踪技术:网民讨论的话题繁多,涵盖社会方方面面,如何从海量信息中找到热点、敏感话题,并对其趋势变化进行追踪成为研究热点。早期的Allan James、J. Allan、G.Hulten、Qiaozhu Mei等人的研究思路是基于文本聚类,即文本的关键词作为文本的特征。这种方法虽然能将一个大类话题下的文本进行聚合,但没有保证话题的可读性与准确性。段建国等人(2007)在此思路的基础上进行改进,实现了话题发现与追踪:即将文本聚类问题转换为话题特征聚类问题,并依据事件对语言文本信息流进行重新组织与利用。
(3) 网络舆情倾向性分析技术:通过倾向性分析可以明确网络传播者所蕴涵的感情、态度、观点、立场、意图等主观反映。比如新浪网的“新闻心情排行”将用户阅读新闻评论时的心情划分为如图2-1所示的八个层次。对舆情文本进行倾向性分析,实际上就是试图用计算机实现根据文本的内容提炼出文本作者的情感方向的目标。唐慧丰、徐琳宏、李艳玲等人(2007)致力于网络舆情文本的倾向性分析技术:通过判断网络环境下倾向性特征词的特点和类型,并进行语气极性判别和标注,从而构建一个面向互联网的倾向性语气词典,建设一定规模的标准数据集,为中文倾向性分析的深入研究提供支持。
(4) 多文档自动文摘技术:新闻、帖子、博文等页面都包含着垃圾信息,多文档自动摘要技术能对页面内容进行过滤,并提炼成概要信息,便于查询和检索。张姝(2007)、刘茂福(2008)、张瑾(2008)在一定程度上实现了网络舆情信息自动生成报文,并能通过浏览器进行浏览和信息检索。
通过中国网络舆情相关领域的单体化技术研究综述可以看出:从网络舆情信息的采集与提取,到话题的发现与追踪、到态度倾向性分析,再到多文档自动摘要的生成,为我国网络舆情安全评估的研究提供了有效的舆情信息获取和分析方法。但是,它们都是从纯技术角度出发的,而缺乏“舆情”这一社会层面在技术层面上的体现。