数据基于电信运营商固网DPI系统的大数据清洗方案

数据清洗  时间:2021-02-25  阅读:()

电信工程技术与标准化 2016年第2期

大节省了存储空间和网络传输带宽对运营商开展固网大数据业务具有重要的借鉴意义。

关键词 大数据数据清洗 DPI系统

中图分类号 TN915 文献标识码 A 文章编号 1008-5599 2016 02-0040-04

大数据热浪的推进为手握大把数据资源的电信运 程会占用大量的网络带宽资源和存储空间并且对后续营商带来了机遇。大数据可以让运营商能够全面洞察客 RTB、精准广告等大数据业务的产品开发、运营、销售、户行为精确化地识别客户精准地制订策略支持经 服务和经营支撑工作均无实际指导意义。 因此如何对营决策增强电信核心竞争力也可以利用大数据资产 海量垃圾数据进行清洗是运营商开展大数据业务面临的优势发展大数据对外业务为合作伙伴提供数据分析开 第一个巨大挑战。

放能力提升对大数据产业链的服务能力。

DPI 深度数据分组检测技术是一种基于应用层 1 DPI系统采集数据分析

的流量检测和控制技术针对数据分组的不同层信息如

IP地址、应用层端口、应用层协议等进行深度检测和 互联网上的各种应用协议具有不同的数据价值理分析从而得到整个数据流或数据分组的应用层信息 想状态是DPI系统对全网全协议全流量进行全覆盖分然后按照系统定义的策略对流量进行统计分析和控制。 析可以得出最全面的分析效果但是这样的分析范围电信运营商大都在固网和移动网侧建设了基于DPI技术 会使得DPI系统的建设规模和资金花费巨大。通过对互的分析系统用于监控网络的流量流向、分析用户使用 联网上的流量构成进行分析如表1所示发现对电信行为为网络提供建设依据、为对内对外增值业务提供 运营商内外业务开展尤其是大数据业务最有价值的数据基础。 是http流量而这部分流量占总流量的比例仅为10%

运营商使用固网DPI的采集信息可以开展RTB、 所以在现网部署中建议对最有价值的http流量进行全精准广告等大数据业务但DPI的采集信息中含有海量 覆盖监控对其它价值较低的流量做局部或抽样分析的用户非主动行为访问数据这部分数据的上报传输过 提高投资的性价比。

收稿日期 2015-09-13

40

2016年第2期 电信工程技术与标准化对于http流量的抽取可以由DPI系统本身完成 的记录中不符合质量规则的剔除其余的记录进行封装也可以在清洗系统中进行。 由于目前绝大部分DPI厂商 上传供大数据业务开展使用。

均已支持http流量抽取且执行效率要高于清洗系统

所以文章后续对清洗系统的分析以DPI厂商直接输出 3 大数据清洗系统部署架构http GET流量为前提。

表1 http流量功能分析 电信运营商的DPI系统通常以省为单位进行建设

传送给集团和省内的大数据业务平台。集团大数据清洗2 数据清洗目的及原理 系统负责收集各省大数据清洗系统上传的清洗后数据

统一发送给集团的大数据业务平台用于集团统一开展大数据清洗的目的主要是检测和发现数据中存在的错 数据业务 同时负责黑名单知识的维护/学习、黑白名误和不一致剔除或者改正它们有效提高数据质量 单规则的下发以及数据清洗质量的验证。

剔除非用户主动访问行为记录等无效垃圾数据减少网

络传输带宽和存储资源构建高质量数据资产信息库 4 系统功能

保证数据的准确性、一致性、完整性和有效性为大数

据应用产品提供有效数据支撑。 4. 1省级大数据清洗系统

数据清洗的原理是利用统计、数据挖掘、模式规则 省级大数据清洗系统功能架构如图2所示主要分

将符合黑名单特征的记录剔除、将保留 图1 大数据清洗系统部署架构

2016年2月第2期第29卷总第221期 月刊

电信工程技术与标准化 2016年第2期为数据接入层、数据清洗层和数据管理层。其中数据接 4. 1 .3数据管理层

入层实现对DPI系统抽取的http GET数据进行接入和 实现集团清洗验证模块清洗质量验证模块所需的原调度以及黑白名单的同步数据清洗层实现数据清洗及 始数据抽取、 留存验证数据抽取留存规则可通过配置数据封装上报功能数据管理层负责清洗质量验证所需 进行修改对上报数据中关键指标进行统计分析以及对数据的抽取、清洗分析监测。 清洗过程中的指标进行分析监测并将每天分析结果上

图2 省级大数据清洗系统功能模块 4.2. 1清洗质量验证

数据清洗质量验证主要是指定期对黑名单过滤记录

4. 1 . 1数据接入层 进行抽样检测使用爬虫工具执行URL爬取根据爬取

通过与DPI系统间的接口将http GET流量实时传 到的ContentType/title等内容人工确认是否有用户有送到清洗系统清洗系统通过负载均衡方式将数据分发 效访问记录被清洗掉以检验黑名单过滤特征是否准确。到数据清洗层 同时与集团清洗系统间同步黑白名单。 4.2.2黑名单知识维护学习

4. 1 .2数据清洗层 黑名单知识库是数据清洗的基础知识库的质量直

清洗层读取DPI系统上报的数据并加载到清洗主 接决定数据清洗质量。知识学习维护是一个动态的过程机内存中将符合白名单要求的数据封装后旁路上传给 每天需要对新增的互联网访问记录进行跟踪分析 同时集团大数据清洗系统对剩余的数据根据黑名单进行清 需要定期清除掉已经失效的知识。

洗符合黑名单特征的记录直接剔除将其余数据封装 黑名单知识维护学习流程每日抽取高峰时段未匹并上报。在黑白名单过滤的同时对数据进行质量规则检 配黑名单的URL对这些URL进行PV排序使用爬验对不符合质量规则如缺少关键字段、数值异常等 虫工具爬取URL排名前Top n的ContentType/title的数据进行剔除。 对这些进行域名、 目录聚合形成新的URL特征对新

白名单是根据业务需求提出的一组URL集合主 特征人工审核审核通过后加入黑名单知识库。要由业务名称、 URL特征等要素构成通常由业务使 4.2.3黑白名单下发

用部门直接提出。黑名单是一组URL或关键字集合 黑白名单规则在由集团大数据清洗系统生成和维此类知识可以明确标识是非用户主动行为产生的请求 护。在管理员审核通过后向省级大数据清洗系统下发URL符合黑名单特征的记录直接过滤。过滤类型包 供数据清洗使用。在现网部署时可根据各省实际网络和括图片链接、应用接口、各类插件、广告推送、统计监 业务开展情况制定不同的黑名单规则。

控、格式文件、脚本文件、错误页面等关键字特征包

括*.mp4、 *.m4a、 *.jpg等 URL特征包括*qlogo. 5 数据处理流程cn/*、 tianqi.2345.com/plugin/widget/index.htm、hm.baidu.com/*等。 省级大数据清洗系统对省DPI系统上报的http

42

2016年第2期 电信工程技术与标准化

图3 省级大数据清洗系统数据处理流程 文件大小约为630 GB峰值上传G E T数据按照黑白名单规则进行清洗具体流程如图 流量约为160 Mbit/s。部署清洗系统节省了大量的数据3所示。除了上传给集团大数据清洗系统外 同时还需 存储空间和网络上传带宽并大大提升了大数据业务平上传一份黑白名单清洗后的数据给省里的大数据业务 台的处理效率对于计划使用固网DPI采集信息开展大平台。 数据业务的运营商具有重要的借鉴意义。

Study of big data cleaning solution based on DPI system of operators

XIAO Ming-kun,WANG Ji-shun

(Jiangsu Posts&Telecommunications Planning and Designing Institute Co.,Ltd.,Nanjing 210006,China)

2016年2月第2期第29卷总第221期 月刊

咖啡主机22元/月起,美国洛杉矶弹性轻量云主机仅13元/月起,高防云20G防御仅18元/月

咖啡主机怎么样?咖啡主机是一家国人主机销售商,成立于2016年8月,之前云服务器网已经多次分享过他家的云服务器产品了,商家主要销售香港、洛杉矶等地的VPS产品,Cera机房 三网直连去程 回程CUVIP优化 本产品并非原生地区本土IP,线路方面都有CN2直连国内,机器比较稳定。咖啡主机目前推出美国洛杉矶弹性轻量云主机仅13元/月起,高防云20G防御仅18元/月;香港弹性云服务器,香港HKBN CN...

宝塔面板批量设置站点404页面

今天遇到一个网友,他在一个服务器中搭建有十几个网站,但是他之前都是采集站点数据很大,但是现在他删除数据之后希望设置可能有索引的文章给予404跳转页面。虽然他程序有默认的404页面,但是达不到他引流的目的,他希望设置统一的404页面。实际上设置还是很简单的,我们找到他是Nginx还是Apache,直接在引擎配置文件中设置即可。这里有看到他采用的是宝塔面板,直接在他的Nginx中设置。这里我们找到当前...

VirMach:$27.3/月-E3-1240v1/16GB/1TB/10TB/洛杉矶等多机房

上次部落分享过VirMach提供的End of Life Plans系列的VPS主机,最近他们又发布了DEDICATED MIGRATION SPECIALS产品,并提供6.5-7.5折优惠码,优惠后最低每月27.3美元起。同样的这些机器现在订购,将在2021年9月30日至2022年4月30日之间迁移,目前这些等待迁移机器可以在洛杉矶、达拉斯、亚特兰大、纽约、芝加哥等5个地区机房开设,未来迁移的时...

数据清洗为你推荐
ptrint(*ptr)*()怎么理解?最新qq空间代码qq空间最新免费代码工信部备案去国家工信部备案需要什么手续呢网店推广网站可以介绍几个可以做店铺推广的网站吗?如何建立一个网站如何建立一个网站腾讯文章腾讯新闻的精选微信里面收藏的文章在哪里xp系统停止服务XP系统停止服务后电脑怎么办?奇虎论坛360有论坛中心?什么是云平台什么是云平台管理软件,一个云平台软件应该具有哪些基本功能网管工具做技术网管需要哪些工具?具体做些什么?
edgecast hawkhost 国外idc 轻博客 好看qq空间 中国电信测速112 日本bb瘦 asp免费空间申请 135邮箱 服务器托管什么意思 shuang12 广州虚拟主机 免费asp空间申请 华为云建站 免费个人网页 黑科云 国外代理服务器 广州服务器托管 美国主机 机柜尺寸 更多