重磅干货!吉奥大数据舆情分析平台设计与实践
近日,“罗一笑”事件刷爆了朋友圈。持续几日后,此事热度不减,众多媒体争相追踪报道,网络上舆论此起彼伏。
目前中国网民数量已跃居全球第一,互联网已成为信息的集散地;此外,随着新媒体的出现和发展又使得公众更加容易地参与社会热点事件的讨论,加之互联网的开放与包容性,就很有可能出现煽动性、误导性的言论。这些一旦进入公众的视野,就会迅速形成网络热点,甚至成为社会性的大事件。
通过抓取今年的40件舆情事件进行对比分析,我们不难发现“两微一端”,即微信、微博和客户端,现已经成为舆情信息的主要来源,占到了舆情总数量的72.6%,同时像知乎这类的问答型网站、网络直播、共享文档等新媒体已逐渐成为舆情传播的工具,并且影响着舆论趋势。
因而在大数据时代,舆情充分反映数据爆炸背景下的数据处理与应用需求,舆情监测分析变得愈发重要。面对机遇与挑战,吉奥在舆情大数据分析领域也做了一些探索实践。利用公司自主核心产品技术,我们打造了吉奥大数据舆情监测分析平台。这款产品有哪些重要功能与特色呢,和小编一起往下看吧……
1. 全面可靠的分布式数据采集
吉奥大数据舆情监测分析平台拥有强大的数据采集能力,数据采集系统建立与监测分析主题相关的行业数据库,在大大缩小监测范围的同时,提高了数据采集的精准度。借助于分布在全国的数百台服务器,建立分布式数据采集平台,保证数据的持续更新。实现采集范围的媒体全覆盖,尤其是占据舆情总数比重较多的“两微一端”。
该平台对热点事件进行全程监测,可全面掌握互联网热点舆论事件的热度走势。
2. 及时精准的舆情发现预警
吉奥大数据舆情监测分析平台综合预警关键词矩阵、中文语义分析和情绪识别、舆论噪音去除算法三种方法去发现舆情事件,并及时向客户端推送预警。
预警关键词矩阵
关键词组成矩阵按行业、人物、部门、站点来源、预警级别来划分,矩阵中的关键词是可以自由组合的,通过矩阵能够精确地发现识别舆情。
中文语义分析与情绪识别
基于词语情感值,加入互联网流行的网络用语,并结合特定的语境条件对文本进行语义分析,经过机器学习训练后,具有较高的准确率。
舆情噪音的辨别与去除
舆情噪音的辨别与去除有四步的处理,首先是垃圾网站过滤掉,其次识别出标题党,有些文章具有很夸张的标题,通过关联分析和相似分析将标题党识别出来,最后对账号发贴行为进行分析,自动剔除广告账号。
3. 智能多样的大数据处理分析
在大数据时代,吉奥大数据舆情监测分析平台使用NoSQL大数据存储,做到海量数据水平自动分区、存储横向扩展、以及高性能随机读写;使用Spark计算离线计算框架,实现计算节点自动扩展,融合多源数据实现海量数据快速计算;基于关键词矩阵和中文自然语言处理算法,对文本进行智能分析,实现热点自动发现、多维度话题演变,并能够自动生成多样化图表;对海量舆情数据建立全文索引,提高数据检索效率。
观点分析
平台自动监测热点事件中的网友评论,基于中文自然语言处理算法对所有网友评论进行情感分析和观点挖掘分析,形成很多个独立意见,根据这些独立意见,最后得出网友观点倾向分类。
观点监测
自动观点提取
观点分类
4. 全生命周期舆情监测分析服务
基于吉奥大数据舆情监测平台,我们提供全生命周期舆情监测分析服务,从发现舆情、舆情预警、舆情跟踪、舆情导控到事后分析,是一个完整的闭环流程。同时提供数据采集、平台定制、舆情报告等多样化的增值服务。