舆情浅析舆情监测系统的设计和搭建

舆情系统  时间:2021-02-25  阅读:()

精品文档可编辑 值得下载

浅析舆情监测系统的设计和搭建

【摘要】近年来随着网络舆情事件的频繁发生舆情监测系统的重要性得到了社会各界的关注如何设计和搭建适合客户的舆情监测系统成为舆情研究的重点本文将在舆情监测系统设计架构和舆情监测系统技术难点等问题上给读者提供一些建议。

【关键词】舆情监测系统分词技术全文检索引擎热点预判

1绪论

1 .1什么是舆情监测系统。舆情是“舆论情况”的简称是指在一定的社会空间内围绕中介性社会事件的发生、发展和变化作为主体的民众对作为客体的社会管理者及其政治取向产生和持有的社会政治态度。它是较多群众关于社会中各种现象、 问题所表达的信念、态度、意见和情绪等等表现的总和。 出现了社会舆情相关行政部门和新闻媒体等机构想第一时间的获得舆情信息就造就了舆情监测系统的产生。舆情监测系统是指通过相关的专业舆情软件按照一定的规则和算法将互联网上繁杂的数据信息当中用户所关注的信息抓取出来并通过分析过滤等方式最终呈现出与需求相匹配的舆情信息并以舆情报告形式呈现。

精品文档可编辑 值得下载

1 .2舆情监测系统现状。我国关于舆情监测系统的研究始于2005年经过10年的发展舆情监测系统在功能上已经发展的相当完善通过舆情服务对象舆情监测系统大体可以分为以人民网为代表的综合舆情监测系统、以军犬、红麦等商业系统提供商为代表的特定行业舆情监测系统、以地方综合网站为代表的区域舆情监测系统。近两三年地方网站纷纷加大了舆情监测的投入在舆情监测系统上又有了一定的创新逐步成为舆情监测的新生力量得到广大区域客户的欢迎。

2系统设计思路

2.1系统架构

2.2技术选型。为了保证舆情监测系统的高效、安全和跨平台等特性在技术选型上决定所有服务器使用Linux系统结构上采用多层B/S结构在开发语言上选择JavaEE体系结构和MVC三层设计模式。

2.3系统构成。舆情监测系统从信息采集到生成最终舆情报告经过五个阶段信息采集、信息加工、舆情分析、舆情发布、舆情跟踪舆情报告其中每个阶段又分为五个独立子系统进行处理。

2.4关键技术

2.4.1敏感分析技术。针对互联网上敏感词的多样性我们对于采集来的信息进行预加工将信息按照时间、地点、

精品文档可编辑 值得下载

事件等条件进行分类同时我们将用户输入的敏感词逻辑关系表达式进行分词形成模糊查询条件将符合模糊条件的信息导入备选库在形成检索的敏感词中引入同义词、反义词、拼音、字形等扩充进一步完善查询条件再从备选库中将符合条件的信息展示出来。

但是在现实操作中发布舆情信息者为了避免计算机自动识别和关键词屏蔽往往会将敏感词进行修饰其中主要的干扰手段有敏感词之间加入空格或者特殊字符使用会意字、 同音字或拼音等代替敏感词中的部分文字使用图片、图形等代替敏感词中部分文字。针对这些变形我们可以通过分词技术、 OCR识别技术、正则表达式等方式去除干扰。

同时为了增加敏感词检索效率我们会将用户输入的敏感词逻辑关系表达式识别成一个个的关键词进行索引。信息预加工的时候如果信息敏感词可以在索引中找到关键词直接归类如不在索引中找到将信息导入备选库系统每天零点将备选库中信息进行二次计算避免信息的遗漏。

2.4.2热点预判技术。互联网每天新增的信息数量庞大、内容覆盖领域广泛。很难通过原有的跟踪技术分析热点事件。但我们根据网络传播的规律可以得到从信息产生到成为热点大体需要1-3个小时的发酵期在这几个小时内信息如果没有引起权威渠道重点网站、社区或知名自媒体的关注信息将会进入沉淀期沉淀期的信息要重新成为热点需

精品文档可编辑 值得下载

要具备以下条件 1 、通过同型或异型热点话题诱发关注2、权威渠道的再次关注。如果发酵期被权威渠道关注将进入关注期信息将会出现第一个报道峰值此阶段大体时间0.5-2小时具体时间根据自媒体推广时间和搜索引擎抓取时间而定。之后会进入传播期传播期的时间不好预测有可能是几个小时或者是几天如在传播期得到网友的关注被广泛转载和推荐将进入消息的井喷期此时将出现第二个报道峰值此时的报道将主要是消息的解读、纵深、相关等内容这样热点正式形成。我们对于热点的预判应该在信息的传播期进行分析系统采集到信息后两个小时开始分析信息“每小时热度” 每小时热度是由以下几方面决定的 1 、是否是近期热点事件可以通过百度搜索风云榜top.baidu.com查询 

2、此事件相关话题的报道数量3、此事件报道的网页发布站点的权威度可以参考百度指数和pr值 4、此事件报道的网页点击量、分享量和评论情况 我们分析5-10小时热度曲线得到信息传播的热力发展情况如曲线无衰减或较少衰减我们就认定此信息为热点事件。

2.4.3信息排重技术。因为互联网网站数量十分庞大网站信息同质化情况严重造成采集来的信息重复度很高对于舆情分析来说相同内容信息只需要显示一条就可以所以就产生了信息排重的需求。我们通过信息指纹技术进行信息排重。信息指纹技术在百度百科中的解释是提取一个信息

精品文档可编辑 值得下载

的特征通常是一组词或者一组词+权重然后根据这组词调用特别的算法例如MD5 将之转化为一组代码这组代码就成为标识这个信息的指纹。生成信息指纹之前先将采集来的信息去除非特征关键词、连接词、形容词、语气词等干扰关键词针对每段剩余的关键词生成信息指纹比对疑似相同内容的文章各段的信息指纹判断内容是否相同。

2.4.4稿件溯源技术。信息的出口地址对于舆情分析和舆情处理起着十分重要的作用我们的溯源算法是通过分析信息时间点和信息关系拓扑计算出来的。其中的几个时间点有网页文件生成时间、 网页内容发布时间、搜索引擎快照时间、搜索引擎收录时间。通过分词技术和信息指纹技术找到信息内容的原始拷贝结合网页提供的相关参数和上面提到的几个时间我们可以大体的分析出信息的原始出口。

3结论。舆情监测系统的好坏归根到底唯一的标准就是第一时间将舆情数据展示给客户。不管你的舆情监测系统技术架构有多先进抓取效率有多么的高如果不能第一时间将舆情内容提交给用户那都得不到用户的信任所以舆情监测系统是个不断迭代更新的系统。随着移动互联网、大数据、web3.0的时代到来市场细分加剧服务更趋于个性化舆情监测系统更需要关注整个互联网的发展形势提供更加专业、细分的舆情信息和舆情处理服务。

Kinponet是谁?Kinponet前身公司叫金宝idc 成立于2013年 开始代理销售美国vps。

在2014年发现原来使用VPS的客户需求慢慢的在改版,VPS已经不能满足客户的需求。我们开始代理机房的独立服务器,主推和HS机房的独立服务器。经过一年多的发展,我们发现代理的服务器配置参差不齐,机房的售后服务也无法完全跟上,导致了很多问题发生,对使用体验带来了很多的不便,很多客户离开了我们。经过我们慎重的考虑和客户的建议。我们在2015开始了重大的改变, 2015年,我们开始计划托管自己...

rfchost:洛杉矶vps/双向CN2 GIA,1核/1G/10G SSD/500G流量/100Mbps/季付$23.9

rfchost怎么样?rfchost是一家开办了近六年的国人主机商,一般能挺过三年的国人商家,还是值得入手的,商家主要销售VPS,机房有美国洛杉矶/堪萨斯、中国香港,三年前本站分享过他家堪萨斯机房的套餐。目前rfchost商家的洛杉矶机房还是非常不错的,采用CN2优化线路,电信双程CN2 GIA,联通去程CN2 GIA,回程AS4837,移动走自己的直连线路,目前季付套餐还是比较划算的,有需要的可...

gcorelabs:CDN业务节点分布100多个国家地区,免费版提供1T/月流量

卢森堡商家gcorelabs是个全球数据中心集大成的运营者,不但提供超过32个数据中心的VPS、13个数据中心的cloud(云服务器)、超过44个数据中心的独立服务器,还提供超过100个数据中心节点的CDN业务。CDN的总带宽容量超过50Tbps,支持免费测试! Gcorelabs根据业务分,有2套后台,分别是: CDN、流媒体平台、DDoS高防业务、块存储、cloud云服务器、裸金属服务器...

舆情系统为你推荐
安装程序配置服务器失败安装用友T3出现安装程序配置服务器失败是怎么回事快速美白好方法有什么变白的好方法bluestacksbluestacks怎么用?xp系统停止服务xp系统停止服务怎么办?lockdowndiphone4s 完美越狱5.1.1时出现Could not connect to lockdownd。求救啊!!bt封杀BT下载被封锁了,怎么办,下载不了电影了!商标注册查询官网商标注册查询官方网站?商标注册查询官网怎么查商标有没有注册云挂机云软件挂机赚钱是骗子怎么上传音乐怎么上传音乐
香港虚拟主机 上海服务器租用 广州主机租用 免费国际域名 网页空间租用 免费域名跳转 如何注册中文域名 lamp安装 hostgator 樊云 长沙服务器 免费个人网站申请 有奖调查 能外链的相册 银盘服务是什么 香港亚马逊 我的世界服务器ip lamp怎么读 windowsserver2008 中美互联网论坛 更多