舆情浅析舆情监测系统的设计和搭建

舆情系统  时间:2021-02-25  阅读:()

精品文档可编辑 值得下载

浅析舆情监测系统的设计和搭建

【摘要】近年来随着网络舆情事件的频繁发生舆情监测系统的重要性得到了社会各界的关注如何设计和搭建适合客户的舆情监测系统成为舆情研究的重点本文将在舆情监测系统设计架构和舆情监测系统技术难点等问题上给读者提供一些建议。

【关键词】舆情监测系统分词技术全文检索引擎热点预判

1绪论

1 .1什么是舆情监测系统。舆情是“舆论情况”的简称是指在一定的社会空间内围绕中介性社会事件的发生、发展和变化作为主体的民众对作为客体的社会管理者及其政治取向产生和持有的社会政治态度。它是较多群众关于社会中各种现象、 问题所表达的信念、态度、意见和情绪等等表现的总和。 出现了社会舆情相关行政部门和新闻媒体等机构想第一时间的获得舆情信息就造就了舆情监测系统的产生。舆情监测系统是指通过相关的专业舆情软件按照一定的规则和算法将互联网上繁杂的数据信息当中用户所关注的信息抓取出来并通过分析过滤等方式最终呈现出与需求相匹配的舆情信息并以舆情报告形式呈现。

精品文档可编辑 值得下载

1 .2舆情监测系统现状。我国关于舆情监测系统的研究始于2005年经过10年的发展舆情监测系统在功能上已经发展的相当完善通过舆情服务对象舆情监测系统大体可以分为以人民网为代表的综合舆情监测系统、以军犬、红麦等商业系统提供商为代表的特定行业舆情监测系统、以地方综合网站为代表的区域舆情监测系统。近两三年地方网站纷纷加大了舆情监测的投入在舆情监测系统上又有了一定的创新逐步成为舆情监测的新生力量得到广大区域客户的欢迎。

2系统设计思路

2.1系统架构

2.2技术选型。为了保证舆情监测系统的高效、安全和跨平台等特性在技术选型上决定所有服务器使用Linux系统结构上采用多层B/S结构在开发语言上选择JavaEE体系结构和MVC三层设计模式。

2.3系统构成。舆情监测系统从信息采集到生成最终舆情报告经过五个阶段信息采集、信息加工、舆情分析、舆情发布、舆情跟踪舆情报告其中每个阶段又分为五个独立子系统进行处理。

2.4关键技术

2.4.1敏感分析技术。针对互联网上敏感词的多样性我们对于采集来的信息进行预加工将信息按照时间、地点、

精品文档可编辑 值得下载

事件等条件进行分类同时我们将用户输入的敏感词逻辑关系表达式进行分词形成模糊查询条件将符合模糊条件的信息导入备选库在形成检索的敏感词中引入同义词、反义词、拼音、字形等扩充进一步完善查询条件再从备选库中将符合条件的信息展示出来。

但是在现实操作中发布舆情信息者为了避免计算机自动识别和关键词屏蔽往往会将敏感词进行修饰其中主要的干扰手段有敏感词之间加入空格或者特殊字符使用会意字、 同音字或拼音等代替敏感词中的部分文字使用图片、图形等代替敏感词中部分文字。针对这些变形我们可以通过分词技术、 OCR识别技术、正则表达式等方式去除干扰。

同时为了增加敏感词检索效率我们会将用户输入的敏感词逻辑关系表达式识别成一个个的关键词进行索引。信息预加工的时候如果信息敏感词可以在索引中找到关键词直接归类如不在索引中找到将信息导入备选库系统每天零点将备选库中信息进行二次计算避免信息的遗漏。

2.4.2热点预判技术。互联网每天新增的信息数量庞大、内容覆盖领域广泛。很难通过原有的跟踪技术分析热点事件。但我们根据网络传播的规律可以得到从信息产生到成为热点大体需要1-3个小时的发酵期在这几个小时内信息如果没有引起权威渠道重点网站、社区或知名自媒体的关注信息将会进入沉淀期沉淀期的信息要重新成为热点需

精品文档可编辑 值得下载

要具备以下条件 1 、通过同型或异型热点话题诱发关注2、权威渠道的再次关注。如果发酵期被权威渠道关注将进入关注期信息将会出现第一个报道峰值此阶段大体时间0.5-2小时具体时间根据自媒体推广时间和搜索引擎抓取时间而定。之后会进入传播期传播期的时间不好预测有可能是几个小时或者是几天如在传播期得到网友的关注被广泛转载和推荐将进入消息的井喷期此时将出现第二个报道峰值此时的报道将主要是消息的解读、纵深、相关等内容这样热点正式形成。我们对于热点的预判应该在信息的传播期进行分析系统采集到信息后两个小时开始分析信息“每小时热度” 每小时热度是由以下几方面决定的 1 、是否是近期热点事件可以通过百度搜索风云榜top.baidu.com查询 

2、此事件相关话题的报道数量3、此事件报道的网页发布站点的权威度可以参考百度指数和pr值 4、此事件报道的网页点击量、分享量和评论情况 我们分析5-10小时热度曲线得到信息传播的热力发展情况如曲线无衰减或较少衰减我们就认定此信息为热点事件。

2.4.3信息排重技术。因为互联网网站数量十分庞大网站信息同质化情况严重造成采集来的信息重复度很高对于舆情分析来说相同内容信息只需要显示一条就可以所以就产生了信息排重的需求。我们通过信息指纹技术进行信息排重。信息指纹技术在百度百科中的解释是提取一个信息

精品文档可编辑 值得下载

的特征通常是一组词或者一组词+权重然后根据这组词调用特别的算法例如MD5 将之转化为一组代码这组代码就成为标识这个信息的指纹。生成信息指纹之前先将采集来的信息去除非特征关键词、连接词、形容词、语气词等干扰关键词针对每段剩余的关键词生成信息指纹比对疑似相同内容的文章各段的信息指纹判断内容是否相同。

2.4.4稿件溯源技术。信息的出口地址对于舆情分析和舆情处理起着十分重要的作用我们的溯源算法是通过分析信息时间点和信息关系拓扑计算出来的。其中的几个时间点有网页文件生成时间、 网页内容发布时间、搜索引擎快照时间、搜索引擎收录时间。通过分词技术和信息指纹技术找到信息内容的原始拷贝结合网页提供的相关参数和上面提到的几个时间我们可以大体的分析出信息的原始出口。

3结论。舆情监测系统的好坏归根到底唯一的标准就是第一时间将舆情数据展示给客户。不管你的舆情监测系统技术架构有多先进抓取效率有多么的高如果不能第一时间将舆情内容提交给用户那都得不到用户的信任所以舆情监测系统是个不断迭代更新的系统。随着移动互联网、大数据、web3.0的时代到来市场细分加剧服务更趋于个性化舆情监测系统更需要关注整个互联网的发展形势提供更加专业、细分的舆情信息和舆情处理服务。

柚子互联(34元),湖北十堰高防, 香港 1核1G 5M

柚子互联官网商家介绍柚子互联(www.19vps.cn)本次给大家带来了盛夏促销活动,本次推出的活动是湖北十堰高防产品,这次老板也人狠话不多丢了一个6.5折优惠券而且还是续费同价,稳撸。喜欢的朋友可以看看下面的活动详情介绍,自从站长这么久以来柚子互联从19年开始算是老商家了。六五折优惠码:6kfUGl07活动截止时间:2021年9月30日客服QQ:207781983本次仅推荐部分套餐,更多套餐可进...

HostKvm开年促销:香港国际/美国洛杉矶VPS七折,其他机房八折

HostKvm也发布了开年促销方案,针对香港国际和美国洛杉矶两个机房的VPS主机提供7折优惠码,其他机房业务提供8折优惠码。商家成立于2013年,提供基于KVM架构的VPS主机,可选数据中心包括日本、新加坡、韩国、美国、中国香港等多个地区机房,均为国内直连或优化线路,延迟较低,适合建站或者远程办公等。下面列出几款主机配置信息。美国洛杉矶套餐:美国 US-Plan1CPU:1core内存:2GB硬盘...

wordpress高级跨屏企业主题 wordpress绿色企业自适应主题

wordpress高级跨屏企业主题,通用响应式跨平台站点开发,自适应PC端+各移动端屏幕设备,高级可视化自定义设置模块+高效的企业站搜索优化。wordpress绿色企业自适应主题采用标准的HTML5+CSS3语言开发,兼容当下的各种主流浏览器: IE 6+(以及类似360、遨游等基于IE内核的)、Firefox、Google Chrome、Safari、Opera等;同时支持移动终端的常用浏览器应...

舆情系统为你推荐
手机游戏排行榜2015安卓手机单机游戏2015年排行榜?邮箱怎么写工作邮箱怎么填iphone5解锁iphone5密码忘了怎么解锁flash导航条如何制作flash导航条自助建站自助建站哪个平台最好?微信如何建群微信可以建立两个人的群吗?有一个是自己网站联盟网盟跟b2b平台有什么区别唱吧电脑版官方下载唱吧有没有电脑版的啊?网店推广网站什么平台适合做淘宝店铺推广qq怎么发邮件qq怎么发文件和邮件
网站空间免备案 独享100m hostmonster t牌 hawkhost 60g硬盘 鲜果阅读 免费全能空间 最好的空间 godaddy域名证书 adroit 爱奇艺会员免费试用 789电视剧 双线机房 smtp虚拟服务器 太原联通测速 免费asp空间 域名转入 国外网页代理 netvigator 更多