数据fusioncharts

fusioncharts  时间:2021-05-20  阅读:()
广播电视行业应用大数据技术白皮书(2018)国家广播电视总局2019年5月前言当前,云计算、大数据、人工智能、虚拟现实、区块链等新一代信息技术的发展与应用,全方位影响着广播电视生产制作、播出传输和服务模式,推动媒体格局的变化.
研究探讨新一代信息技术在广播电视行业的应用,对于推进媒体融合发展、促进广电媒体产业升级、提升主流媒体传播力和舆论引导能力,具有重要的技术支撑作用.
广播电视行业拥有海量的媒体内容数据、用户服务数据,如何充分挖掘这些数据的价值,为内容生产、业务创新、用户服务、运营推广、领导决策等提供支持,是一个全新的课题.
国家广播电视总局已经将大数据科技创新与应用列为重点工作,研究分析广电行业大数据的应用需求、关键技术、体系架构,是当前刻不容缓的一项重要任务.
为了加强大数据技术在广播电视行业应用的引导与规范,2018年,国家广播电视总局科技司组织广播电视有关节目制播、传输机构、科研单位和相关企业开展广播电视行业大数据技术研究与应用工作.
在深入分析广电大数据技术应用现状和发展趋势,研究广播电视节目制播生产、有线网络传播、网络视听业务服务等领域的应用场景、总体框架、关键技术的基础上,组织起草了本白皮书.
本白皮书旨在加强顶层设计,为各级广电机构利用大数据技术、建设大数据平台提供指导,推动行业在大数据技术应用上开展创新实践,为未来广电行业大数据平台的建设奠定基础.
本白皮书经过国家广播电视总局科技司组织的专家多轮讨论、修改和审定,由国家广播电视总局正式发布.
本白皮书指导单位:国家广播电视总局科技司本白皮书主要起草单位:江苏省广播电视总台、国家广播电视总局广播电视科学研究院、上海广播电视台、成都索贝数码科技股份有限公司、阿里云计算有限公司、新奥特(北京)视频技术有限公司、北京阳光云视科技有限公司、银河互联网电视有限公司、华为技术有限公司.
本白皮书主要编写指导:孙苏川、张源、彭洁颖本白皮书主要起草人:顾建国、吴昊、赵明、朱光荣、毛敏明、万倩、马海龙、徐书朗、许辰铭、陈靖、张凯、邵勇、卜静燕、宋小民、王维、高胜发、岳妍、赵显臣、董全武、赵一婧、张磊目录1概述.
12大数据的发展背景.
42.
1国外发展情况.
42.
2中国发展情况.
52.
3广电行业发展机遇.
62.
4广电大数据的特征.
73广电大数据应用需求分析.
93.
1广电大数据分类.
93.
2媒体内容大数据应用需求分析.
113.
3用户服务大数据应用需求.
134大数据的关键技术.
164.
1大数据采集技术.
164.
2大数据预处理技术.
184.
3大数据存储管理技术.
194.
4媒体数据结构化处理技术.
234.
5大数据挖掘技术.
254.
6大数据处理框架技术.
264.
7大数据展现与应用技术.
275广电大数据平台建设.
285.
1广电大数据架构.
285.
2广电大数据平台建设规划.
335.
3广电大数据处理流程.
365.
4数据治理.
386广电大数据安全.
456.
1基础安全.
456.
2数据生命周期安全.
466.
3大数据平台安全.
487广电大数据的典型应用.
537.
1广播电视台.
537.
2有线网络公司.
587.
3网络视听.
637.
4广播电视节目收视综合评价大数据系统.
678大数据的政策法规与标准.
708.
1大数据相关政策法规.
708.
2大数据标准规范.
738.
3大数据人才培养.
749编后语.
7611概述当今世界,科技进步日新月异,以互联网、物联网、大数据、云计算、人工智能等为代表的数字技术在各领域广泛渗透,与传统产业深度融合,提高了资源利用率,降低了资源匹配成本,培育新增长点、形成新动能,带动人类社会生产方式的变革、生产关系的再造、经济结构的重组、生活方式的巨变.
特别是大数据的产生与应用,推进信息化进入一个新的发展阶段.
被誉为"大数据时代预言家"的维克托·迈尔·舍恩伯格认为,"大数据开启了一次重大的时代转型",指出大数据将带来巨大的变革,改变我们的生活、工作和思维方式,改变我们的商业模式,影响我们的经济、政治、科技和社会等各个层面.
党的十八大以来,以习近平同志为核心的党中央高度重视发展数字经济,党中央、国务院出台了网络强国、宽带中国、"互联网+"行动、促进大数据发展、促进人工智能发展等一系列重大战略、规划和举措.
2016年2月,习近平在北京主持召开党的新闻舆论工作座谈会并发表重要讲话,他指出:随着形势发展,党的新闻舆论工作必须创新理念、内容、体裁、形式、方法、手段、业态、体制、机制,增强针对性和实效性.
要适应分众化、差异化传播趋势,加快构建舆论引导新格局.
要推动融合发展,主动借助网络视听传播优势.
2017年12月8日,中共中央政治局就实施国家大数据战略进行第二次集体学习,习近平总书记强调"大数据发展日新月异,我们应该审时度势、精心谋划、超前布局、力争主动,深入了解大数据发展现状和趋势及其对经济社会发展的影响,分析我国大数据发展取得的成绩和存在的问题,推动实施国家大数据战略,加快完善数字基础设施,推进数据资源整合和开放共享,保障数据安全,加快建设数字中国,更好服务我国经济社会发展和人民生活改善.
"2018年1月23日,习近平总书记主持召开中央全面深化改革领导小组第二次会议,强调"要适应大数据发展形势,积极推进科学数据资源开发利用和开放共享,加强重要数据基础设施安全保护,依法确定数据安全等级和开放条件,建立数据共享和对外交流的安全审查机制,为政府决策、公共安全、国防建设、科学研究提供有力支撑.
"2018年5月26日,习近平总书记在2018中国国际大数据产业博览会致贺信中强调"中国高度重视大2数据发展.
我们秉持创新、协调、绿色、开放、共享的发展理念,围绕建设网络强国、数字中国、智慧社会,全面实施国家大数据战略,助力中国经济从高速增长转向高质量发展".
2018年5月28日,习近平总书记在中国科学院第十九次院士大会、中国工程院第十四次院士大会上强调"要推进互联网、大数据、人工智能同实体经济深度融合,做大做强数字经济.
"广播电视行业拥有丰富的数据资源,特别是随着近年来的数字化、网络化、媒体融合发展,内容生产由模拟信号处理方式向全流程的数字化、网络化转变,传输分发由单向发射传输向双向数字网络转变,内容消费方式由简单接收向多元化互动方式转变,广播电视行业在内容生产、传输分发和用户服务过程中产生的数据规模快速增长、数据体量十分庞大.
国家广播电视总局《2018年全国广播电视行业统计公报》公布:2018年全国广播节目制作时间为801.
76万小时,全国电视节目制作时间357.
74万小时.
2018年全国公共广播节目播出时间1526.
74万小时;全国公共电视节目播出时间1925.
03万小时.
2018年全国有线广播电视实际用户数2.
18亿户,全国有线数字电视实际用户数2.
01亿户.
2018年全国交互式网络电视(IPTV)用户1.
54亿户,互联网电视(OTT)用户4.
20亿户.
2018年11月22日,推进全国"智慧广电"建设现场会在贵阳召开,中宣部副部长、国家广播电视总局局长、党组书记聂辰席在会上强调要充分运用和拓展行业大数据资源,进一步增强广播电视服务能力,他提出"要充分运用和拓展行业大数据资源,激活智慧广电生态.
数据是智慧广电建设的基础资源和源头活水,也是广播电视行业多年运行积累的优势资源,我们要统筹广电大数据中心建设,发挥好数据的基础资源作用和创新引擎作用","要构建以数据为关键要素、以创新为主要引领的广电大数据应用体系,为智慧广电生态建设提供有力支撑.
"2019年4月15日,聂辰席局长在全国广播电视创新创优工作座谈会上强调"要借助云计算、大数据技术把握受众需求、研究用户习惯、挖掘市场需求、增强作品创作的针对性","我们借助大数据等新技术,必须由正确政治方向、舆论导向、价值取向来驾驭,不能被算法和数据绑架.
"2019年3月20日,国家广播电视总局副局长张宏森在CCBN2019主体报告会发表主旨演讲,强调要建好管好用好广电大数据,他提出"大数据建设意义重大.
广电大数据迈出了重要一步,但未来还有漫长的里程.
我们要加速推进大数据建设的速度和力度,让大数据在广电发展进程中发挥更大作用.
"3广播电视行业的内容生产与传播消费过程中产生的海量数据如媒体内容数据、用户服务数据等,蕴含着丰富的价值.
应用大数据技术,做好对这些海量数据的聚合、挖掘、分析、应用,可以更好地促进广电业务生产与用户服务,更好地激发媒体融合发展的创新活力.
42大数据的发展背景上个世纪80年代,就有学者提出了"大数据"概念.
随着数字化、互联网的普及,云计算技术的成熟,近年来大数据取得了突飞猛进的发展,全球无论是经济政治科技生活,还是文化媒体,都在积极应用大数据技术进行创新.
未来,大数据将在支撑履行政府职能、保障公共安全、实施社会治理、支持重大决策和改进公共服务等方面,发挥越来越重要而又积极的作用.
2.
1国外发展情况当前,许多国家的政府和国际组织都认识到大数据的重要作用,积极开发利用大数据,实施大数据战略,以夺取新一轮竞争制高点.
1、美国美国2012年发布《大数据研究和发展倡议》,提出将提升美国收集和提炼数据价值的能力,协助加速科学、工程领域创新步伐,强化美国国土安全,转变教育和学习模式.
2014年发布《大数据:抓住机遇,守护价值》报告,提出在发挥大数据应用正面价值的同时,应警惕所带来的隐私、公平等问题,以积极、务实的态度深刻剖析可能面临的治理挑战.
2016年发布《联邦大数据研发战略计划》,形成涵盖技术研发、数据可信度、基础设施、数据开放与共享、隐私安全与伦理、人才培养以及多主体协同等七个维度的系统的顶层设计,打造面向未来的大数据创新生态.
2、欧盟欧盟2014年发布《数据驱动经济战略》,大力推动"数据价值链战略计划",用大数据改造传统的治理模式,构建一个以数据为核心的连贯性欧盟生态体系,创新产品和服务,降低公共部门成本,促进经济和就业的增长.
欧盟委员会支持对开放数据访问、大数据使用等问题的研究,以促进数据标准、准则和应用的发展.
欧盟还制定了《通用数据保护条例》,旨在对大数据环境下,收集、记录、存储、修改、使用、传播等与个人数据有关的业务流程进行约束,确保个人数据使用和用户画像过程中的合法、合理和透明,从而保护用户的数据权利.
53、英国英国2013年发布《把握数据带来的机遇:英国数据能力战略规划》,将全方位构建数据能力上升为国家战略,并提出11项具体行动部署.
2017年发布《数字战略2017》,旨在从数据中挖掘出更大的价值,创造并维护一个能够保持更多收益和增长的经济体系.
2018年发布《工业战略:人工智能》报告,立足引领全球人工智能和大数据发展,从鼓励创新、培养和集聚人才、升级基础设施、优化营商环境以及促进区域均衡发展等五大维度提出一系列具体的举措.
4、日本日本政府提出"提升日本竞争力,大数据应用不可或缺"的大数据战略.
2012年发布《面向2020年的ICT综合战略》,重点关注大数据应用所需的社会化媒体等智能技术开发等公共领域应用.
2013年发布"创建最尖端IT国家宣言",全面阐述了2013年至2020年间以发展开放公共数据和大数据为核心的国家战略,包括促进公共数据的开放应用、完善个人信息和隐私保护法规并加强数据流通、关注大数据应用的信息技术创新和加强专业人才培养等政策.
5、韩国韩国提出以大数据等技术为核心应对第四次工业革命.
2013年发布"大数据产业发展战略",将发展重点集中在大数据基础设施建设和大数据市场创造上,推动韩国在数据产业方面的发展.
2015年通过《K-ICT》战略将大数据产业定义为九大战略性产业之一,目标是到2019年使韩国跻身世界大数据三大强国.
2016年年底提出《智能信息社会中长期综合对策》,将大数据及其相关技术界定为智能信息社会的核心要素,并提出具体的发展目标与举措.
2.
2中国发展情况党中央、国务院高度重视大数据发展,将大数据上升为国家战略之一,我国相继出台了一系列有关政策、标准、产业化推进计划.
2015年8月,国务院印发《促进大数据发展行动纲要》(国发(2015)50号),系统部署了我国大数据发展工作,并在政策机制部分中着重强调"建立标准规范体系.
推进大数据产业标准体系建设,加快建立政府部门、事业单位等公共机构的数据标准和统计标准体系,推进数据采集、政府数据开放、指标口径、分类目录、交换接口、访问接口、数据质量、数据交易、技术产品、安全保密等6关键共性标准的制定和实施,加快建立大数据市场交易标准体系;开展标准验正和应用试点示范,建立标准符合性评估体系,充分发挥标准在培育服务市场、提升服务能力、支撑行业管理等方面的作用;积极参与相关国际标准制定工作.
"2017年1月,国家工业和信息化部发布《大数据产业发展规划(2016-2020)年》(工信部规[2016]412号),作为未来五年大数据产业发展的行动纲领.
《规划》部署了强化大数据技术产品研发、深化工业大数据创新应用、促进行业大数据应用发展、加快大数据产业主体培育、推进大数据标准体系建设、完善大数据产业支撑体系、提升大数据安全保障能力等7项重点任务,明确了大数据关键技术及产品研发与产业化工程、大数据服务能力提升工程、工业大数据创新发展工程、跨行业大数据应用推进工程、大数据产业集聚区创建工程、大数据重点标准研制及应用示范工程、大数据公共服务体系建设工程、大数据安全保障工程等8大重点工程,制定了推进体制机制创新、健全相关政策法规制度、加大政策扶持力度、建设多层次人才队伍、推动国际化发展等5个方面保障措施,全面部署"十三五"时期大数据产业发展工作,为"十三五"时期我国大数据产业崛起,实现从数据大国向数据强国转变指明了方向.
当前,我国大数据产业仍处于快速发展期,随着互联网的不断普及与物联网技术的不断发展,未来市场规模将不断扩大,在垂直领域的应用程度将不断深化.
2.
3广电行业发展机遇广播电视行业拥有丰富的数据资源.
据麦肯锡全球研究所的调查数据显示,美国17个行业所拥有的数据总量排名中,传媒业占据第三位.
在信息产业内位居前列的传媒产业,在大数据时代具有先天的体量优势.
广电在业务生产过程中产生的视音频、文字、图片等媒体内容数据,利用大数据技术不仅能够提高数据的效率,而且能够实现数据的再利用;同时,应用大数据采集技术,收集用户终端数据、用户互动数据、用户行为数据等用户服务数据,真正意义上把观众发展为用户,不断提升广播电视的传播力和影响力,为广电行业带来创新发展的空间.
大数据是数据、技术及应用三者之间的统一,大数据的应用推进了媒体融合的进程.
大数据的应用减少了广电媒体获得数据、内容的时间成本和经济成本,提高了工作效率,使得同一平台上能够融合多种内容,不同媒体业态互联互通.
媒体运用大数据,分析受众需求,可实现精准传播和预测传播.
7总局《新闻出版广播影视十三五科技发展规划》(新广发〔2017〕150号)提出,要"大力推动广电融合媒体制播云平台建设",构建"基于用户互动的制播大数据系统","大力推动广电融合媒体服务云平台建设",并强调"针对云计算、大数据等技术在融合媒体网络与业务的广泛应用".
广播电视行业大数据应用主要核心价值在于:提升媒体内容生产的能力,创新媒体业务的产品,提升媒体运营服务水平,加强媒体传播的监测监管.
大数据的应用将推动广播电视行业产业升级,包括推动智慧媒体发展、全面提升广电媒体的传播能力和商业价值,为广播电视行业产业升级提供支撑;同时,大数据还将推动广电媒体融合发展,为媒体融合发展提供助力.
2.
4广电大数据的特征国家标准《GB/T35295-2017信息技术大数据术语》指出,大数据具有4V特性:体量(Volume)、多样性(Variety)、速度(Velocity)、多变性(Variability).
体量:体量表现为大数据的规模性特征,包括采集、存储和计算的数据量都非常大.
大数据的计量单位至少是PB(1000个TB)、EB(100万个TB),甚至达到ZB(10亿个TB).
多样性:大数据的多样性表现在来源的多样性、类型的多样性.
速度:速度表现在数据增长速度快,处理速度也快,时效性要求高.
多变性:大数据的体量、速度和多样性等特征都处于多变状态.
广播电视行业大数据同样具有4V特性.
广播电视行业媒体内容具有数量多、体积大的特点,一家省级电视台生产、媒资系统的存储容量就多达几十万小时,达到PB级规模.
全国有线数字电视覆盖用户中双向覆盖用户数达2.
08亿户,全年用户互动数据达到PB级规模.
广播电视行业大数据具有来源的多样性和类型的多样性等特征,数据不仅来源于内部业务系统,也广泛来源于终端用户信息获取、外系统数据交换、数据交易等.
数据类型包括业务运营、系统运行、用户行为等结构化数据,视音频、图片等非结构化数据,XML、EPG等半结构化数据.
广播电视行业数据增长迅速,并且对于数据获取和处理速度同样有很高要求,例如在新闻生产、直播中用户互动等业务数据的处理过程中,新闻检索业务往往要求几分钟前的新闻就能被用户查询到,个性化推荐算法则要求实时完成8推荐.
广播电视行业的大数据具有快速变化的特征,包括数据的规模、数据处理的时效性要求和数据产生的类型均在时刻变化.
93广电大数据应用需求分析大数据有多种分类方式,我们按照媒体内容生产过程和消费过程、数据产生的实时性和时效价值、数据的逻辑结构等三个维度进行分析,便于和媒体内容生产、用户消费服务业务密切结合,促进广播电视大数据在各个应用场景的应用.
3.
1广电大数据分类按照媒体内容生产过程和消费过程,可分为:媒体内容大数据和用户服务大数据.
媒体内容大数据,是在内容的采集、制作、播出、分发、传输、交换、管理过程中产生的数据的集合,既包括音视频、图片、文字等媒体内容数据及元数据,也包括媒体内容生产传播过程中相关设备、网络、系统的配置、管理数据,以及操作日志、质量监控、运行维护、安全管理等数据.
对媒体内容大数据进行深入的数据分析,可为内容生产提供支撑,优化生产流程、创新内容产品、传播优质内容.
用户服务大数据,是在媒体内容的收看、收听、消费、互动、分享过程中产生的数据的集合,既包括用户在各类终端应用中产生的注册登录、浏览访问、订阅订购、互动分享等数据,也包括为用户提供服务过程中产生的终端信息、运行维护、安全管理、运营服务等相关数据.
对用户服务大数据进行数据分析,能更好地把握用户的需求和爱好,优化产品与服务,提升运维和运营质量.
将媒体内容大数据和用户服务大数据结合在一起,从广播电视全业务流程进行大数据的整体规划和设计,有助于构建大数据分析应用的体系,更好地实现大数据应用目标.
按照数据产生的实时性和时效价值,可分为实时数据和非实时数据.
从数据的产生来看,实时数据处于不断变化之中,较难预测,如终端设备采集的用户收视行为数据;非实时数据则相对稳定,如节目播出时间、用户注册信息等.
从数据的时效价值来看,实时数据需要立即处理,如用于实时内容推荐的用户点播数据、生产业务系统的告警消息等;非实时数据则对处理的时效性要求相对宽松,如用于用户画像的用户相关数据.
区分实时和非实时数据类型,有助于选择合适的数据处理流程和框架技术,以满足不同的数据应用需求.
10按照数据的逻辑结构,可分为结构化数据、非结构化数据和半结构化数据.
结构化数据主要指是关系型数据库和电子表格中包含的数据.
非结构数据是指没有预先定义的数据模型或者没有按预先规定的方式组织的信息.
非结构化的信息包括照片和图像、视频、音频、传感器数据流等形式展现的数据.
半结构化数据处于结构化数据与非结构化数据之间,它们是一种结构化数据,但是缺乏由底层数据模型规定的严格结构,不经过进一步的处理是很难提取出完整的语义含意,例如交互接口XML、JSON文件和多结构化数据等就是半结构化数据.
不同的数据结构需要采用不同的技术架构进行采集、存储、计算、分析.
非结构化数据也可以通过处理,生成结构化的数据,如对视音频和文稿进行图像、声音、文本自动识别和提取并形成关系型数据.
媒体内容大数据与用户服务大数据的数据组成见表1.
表1媒体内容与用户服务大数据分析分类数据元数据数据特征应用场景媒体内容媒体文件(图片/音视频)文件信息编码参数传输方式标引信息播出信息访问信息版权信息非结构化、半结构化实时、非实时海量内容采集全媒体内容汇聚数据挖掘融媒体新闻协同指挥数据新闻节目制作新型媒资管理内容审核质量控制版权管理运维管理文字(文稿/字幕)文稿信息状态信息存储方式非结构化、半结构化实时、非实时运行管理资源管理信息日志信息监控信息生产信息操作信息非结构化、半结构化实时用户服务基础信息(APP/网站/机顶盒)终端信息用户信息结构化非实时收视综合评价用户服务舆情分析运营决策个性化服务详单查询网络优化设备故障预测网络安全评估安全服务浏览信息互动信息日志信息监控信息操作信息访问信息结构化、半结构化实时、非实时113.
2媒体内容大数据应用需求分析媒体内容数据是广播电视行业最常见的一类数据,包括:音频、视频、图片、文稿、字幕、元数据信息等数字化文件,是广电机构进行生产传播的主体对象.
这类数据具有非结构化或者半结构化数据的特征,数据体量巨大,蕴含信息丰富,具有很高的数据挖掘价值.
媒体内容大数据技术,在广播电视行业开展内容采集、制作、传播、管理和运营等方面有丰富的应用场景.
3.
2.
1媒体内容采集需求媒体内容的体量与数据,是大数据分析的重要基础.
传统的生产模式,对于媒体内容的采集、分析、处理手段比较单一,无法有效地采集、交换各种来源的海量数据,也不能及时进行分析、甄别.
充分利用大数据技术,可以满足媒体内容采集的以下需求:1、海量内容采集完成台内业务数据与互联网媒体内容资源的采集及关键信息的提取,并对数据充分甄别、整理,形成媒体融合的内容共享池,为大数据分析提供数据基础.
2、数据交换实现广播电视行业内大数据交换,以及广播电视行业与金融、政府、教育、医疗等其他行业进行大数据交换.
3、全媒体内容汇聚面向媒体融合,广播电视行业需要安全、高效地完成台内、外全媒体内容的汇聚,把互联网汇聚、通联、全媒体记者上传以及台内收录上传等内容加以过滤、分类,最终呈现在统一平台,供台内使用人员检索、查询和使用.
4、数据挖掘对于多来源汇聚来的海量数据,如何有效地处理,从而为使用者提供高效、准确的使用支撑,是大数据技术需要解决的问题.
对数据进行分类、标识、标引,对内容进行二次生产,充分发掘内容的应用价值,让内容资源满足全媒体内容生产和传播需求.
3.
2.
2媒体内容制作需求121、数据新闻数据新闻是在大数据技术的推动下出现的一种新型新闻生产方式,是把传统的新闻敏感性和具有说服力的叙事能力与海量的数字信息相结合的新闻.
数据新闻在大量数据采集、挖掘的基础上,进行统计、分析,并通过数据可视化技术呈现新闻故事.
该应用场景可进行细分,如用于新闻线索的追踪、体育赛事的报道、会议内容的解读等,并根据不同细分场景制定不同的算法机制,以满足对内容完整性、时效性、准确性的要求.
2、内容知识库对媒体内容进行整理、归类,建立专业的内容知识库,并对文稿标题、内容进行深度分析,包括文稿核心关键词分析、标签提取以及自动分类等,形成有效素材数据,推送到节目生产环节,从而丰富节目生产资源,提高节目生产效率.
3、节目制作媒体内容大数据可以帮助广电机构开展节目制作,在新闻报道、财经节目、体育赛事、综艺节目、专题栏目中应用大数据技术,根据互联网传播规律和受众分析,准确地了解用户对于节目内容的关注重点、内容发展的心理预期、节目特点的个性化看法以及对于媒体品牌的归属感,为节目制作、节目编排与未来的发展方向提供详细的数据支撑.
4、新型媒资管理融合媒体发展时代,媒体资源再利用时,对节目的编目、标引的实时性要求更高,且往往更关注画面本身信息.
为此,需要利用大数据和人工智能技术,对媒体内容进行多个维度的自动分类、标识、标引,实现媒体资源本身的内容的提取,例如:人脸识别、转场分析、字幕提取、语音识别、语义关联、知识图谱等.
并结合一定的人工干预,更准确地组织和管理媒体资源,提高管理效率,同时更好地为用户的检索与推荐发布服务.
5、融媒体新闻协同指挥通过对广播电视新闻生产中热线电话、新闻线索、网络热点话题、记者报题等各种数据进行统一获取和集中监控,方便快速地挖掘出当前最新最热的新闻资源;对新闻节目的汇聚、生产、发布全流程运行情况进行汇集,实现融媒体新闻资源统一调度、流程集中呈现,为融媒体新闻过程中统一的选题策划、决策指挥、调度协同提供技术支持.
133.
2.
3媒体内容传播需求1、内容审核应用大数据技术,实现对文本、图片、音视频等内容在播出分发前进行自动审核,提前发现不合规的信息,协助人工进行识别、判断、过滤.
2、质量控制运用技术手段分析对比媒体内容生产到播出发布、传输各个环节的质量数据,提升自动技审能力,实现内容播出发布质量安全可控.
3、质量监测实时采集各平台播出发布的用户终端内容质量数据,分析音视频质量,如视频可用性、加载时长、流畅度、观看质量等,提升内容传播安全与质量.
3.
2.
4媒体内容管理需求1、版权管理应用大数据技术,对传播内容的版权数据自动化、智能化获取,进行版权信息的匹配,确认侵权事实,以实现版权信息的全过程溯源、全流程监督.
2、运维管理采集业务系统日志数据,通过大数据技术开展运维服务,跟踪业务运行状况,智能规划资源调整,快速定位故障源,感知运维安全态势,提升运维的预判性、自动性和准确性.
3.
3用户服务大数据应用需求广播电视行业单一的广播方式传播格局正在被打破,双向、互动已成为受众的普遍需求,观众正在向"用户"转变.
积极把握用户需求与偏好,制作并传输符合用户心理预期和感观体验的节目内容,研究用户的行为数据与用户的互动数据,应用大数据技术在以"用户"为中心格局下研究广播电视业务新的需求特点,创新广播电视业务产品,才能更好地促进媒体融合和智慧广电的发展.
3.
3.
1生产运营支撑需求1、用户服务14通过对用户群的收视情况进行数据采集、数据建模,数据分析,从而有针对性地推送电视产品和服务,改善用户体验,提升用户服务质量.
2、收视综合评价传统电视节目的评价体系多为收视率、视频点击率、社交媒体热度等,而大数据背景下,建构综合性评价体系,按照中央的要求,应该同时反映社会效益和经济效益,因此收视综合评价体系中,除了要有反映经济效益密切相关的指标外,还要有能够反映社会效益相关指标.
综合评价体系是一种效果评估体系,也是一种激励机制,更是一种导向机制.
大数据分析是这种评价体系的基础,用户行为、互动评论、内容访问流量、收藏量、内容关联产品等大数据信息是这种评价体系的关键要素.
3、舆情监测应用大数据分析技术,包括关联分析、聚类分析、语义分析等,研究所获取用户数据中的意见倾向及相互之间的关联性,分析舆情发展趋势.
4、事件分析可实现自定义事件专题,实时监测专题流量状况,汇集事件的点击、搜索、转发、评论等互动数据,开展专题行为数据、用户特征数据的多维度分析,为内容生产与节目推广提供支持.
5、消费分析根据用户的消费行为,包括产品套餐的订购,收费互动业务和数据业务的消费情况,结合外部第三方的用户消费行为,分析获取用户的消费行为习惯,为用户提供更好的个性化服务.
6、运营决策实现对访问流量数据实时查看,访问量、浏览量来源类型、来源地理分布等维度的秒级实时更新;通过访问轨迹实时分析(视频播放基础指标实时统计,如播放次数、平均观看时长、访问者等),分析评估用户需求,了解媒体内容产品运营状况,为运营决策提供支持.
3.
3.
2用户产品服务需求1、个性化服务在用户画像和产品标签的基础上,根据标签信息,判断用户的喜好,预测用15户可能的行为,并根据相关算法进行内容推荐,为有线网络终端和网络视听应用客户端用户,提供个性化的视频点播、节目推荐等服务.
2、精准服务通过大数据深入分析服务需求的变化,优化内容产品服务,针对不同客户群体的特点与需求提供相应的产品,加强产品服务和用户的关联,提供精准化内容产品消费服务.
3、详单查询基于大数据的数据处理技术,对于用户在有线网络终端和网络视听应用客户端产生的行为数据进行统计,高效处理这些行为数据并为运营商开展用户详单查询业务,以及用户行为的历史技术溯源提供有力的支持.
3.
3.
3网络运行管理需求1、网络优化对网络运行数据进行归纳、整理、融合,运用数据分析挖掘技术进行网络流量监测、回归预测、聚类等分析,其结果不仅可以了解网络性能优劣,还可以更好地保障网络流量分配、带宽分配以及负载均衡的实现,从而节约网络运行时消耗的资源、提高传输速率,保持网络稳定,使得运行时的性能最佳.
2、设备故障预测通过对历史和当前的设备故障特征值进行分析,利用数据挖掘算法,挖掘出设备性能指标变化与故障之间的关联关系,分析出设备发生故障前的性能异常特征,预测出未来的故障特征值,从而预测出设备在未来一段时间内的运行状态,预测设备可能出现的故障,并且依据这些特征值,判断设备的故障级别,提前掌握设备故障的发展趋势,为提早预防和修复故障提供依据.
3、网络安全评估网络安全主要是指有线电视网络、IPTV网络及设备安全、节目内容传输过程的自身安全、网络数据内容安全、风险态势评估及安全预警等.
对网络安全运行数据进行预处理,运用数据分析挖掘技术进行网络安全流量监测、入侵检测、安全审计以及虚拟网技术等分析,不仅可以了解网络运行时的网络风险大小和安全预警,还可以更好地保障网络的设备安全、数据内容安全.
164大数据的关键技术大数据关键技术涵盖从数据存储、处理、应用等多方面的技术.
根据大数据的处理过程,可将其分为数据采集、数据预处理、数据存储、数据分析与挖掘、数据应用等环节.
大数据技术与传统的数据处理技术不同,在大数据处理的各个环节中,出现了许多服务大数据的新兴技术.
4.
1大数据采集技术4.
1.
1媒体数据采集按媒体数据来源或载体分类,媒体数据采集技术可分为:介质上载、信源收录和文件导入,其简要对比表格见表2.
表2媒体数据采集技术对比输入采集途径采集方式大数据场景匹配度介质上载磁带光盘专业存储卡SDI信号光驱专用光盘设备专用读卡器人工操作为主,半自动化辅可实现介质媒体内容的数字化和导入主要依靠人力完成,不适合大规模媒体数据采集信源收录SDI信号ASI信号IP流专业SDI/ASI采集卡IP网关可编制收录计划,实现全自动数据采集采集计划有利于大规模媒体数据采集文件导入音视频文件图片文件媒体描述性文件EPG信息字幕文件以UNC/FTP/HTTP作为文件导入通道推或拉模式支撑以"Hotfolder"作为入口自动化后台作业,有利于大规模媒体数据采集4.
1.
2网络数据采集网络数据采集是指通过网络爬虫或公开API等方式从网站上获取数据信息的过程.
支持文字、图片、音频、视频等文件的采集,素材与正文可自动关联.
常用采集工具包括:Larbin、Nutch、Heritrix、WebSPHINX、Meractor、PolyBot、Scrapy、Pyspider等.
174.
1.
3终端数据采集终端数据采集技术主要分为两种:探针采集和数据埋点.
对于用户标识(如Cookie/IMEI/IDFA等数据)的采集需要形成规范,便于各个应用场景下的数据关联.
1、探针采集可采集用户播放数据、网络环境数据、机顶盒数据、网络探测数据.
探针采集有两种形式:一是固定在光纤网段安装使用的固定探针;二是安装在机顶盒内的软探针插件.
2、数据埋点能够较全面的采集客户端行为记录、服务器日志、业务数据库、第三方服务、历史数据导入等信息数据.
埋点技术分为三类:代码埋点、可视化埋点、无埋点.
4.
1.
4系统日志采集系统日志数据采集过程包括:采集、解析和管道分发.
日志采集器要支持多种日志来源类型;日志解析器能按特定的语法逻辑对日志进行可编程的解析;解析的结果通过分发管道输送到对应的存储引擎中存储.
常用日志采集工具包括:Scribe、Flume、Logstash、Chukwa等.
4.
1.
5数据库采集数据库分为关系型数据库与非关系型数据库,常用的关系型数据库包括MySQL、Oracle等;非关系型数据库包括Redis、MongoDB等.
数据库采集可通过开源工具或开发采集程序、数据库脚本等方式实现.
开源数据库采集工具包括Sqoop、DataX等.
Sqoop是专门用来处理Hadoop与各类型数据库中的数据相互交换的工具.
DataX实现包括MySQL、Oracle、SQLServer、PostgreSQL、HDFS、Hive、HBase等各种异构数据源之间高效的数据同步功能.
当开源数据库采集工具无法满足大数据应用要求时,特别是要将多个异构数据库中的数据做融合整理,或者需要在数据库采集时增加特殊的业务逻辑时,往往需要通过自行编写数据库采集程序或脚本完成数据采集.
184.
2大数据预处理技术高质量的决策必须依赖高质量的数据,而从现实世界中采集到的数据大多是不完整、结构不一致、含噪声的脏数据,无法直接用于数据分析或挖掘.
数据预处理就是对采集到的原始数据进行清洗、填补、平滑、合并、规格化以及检查一致性等.
这个处理过程可以帮助我们将那些杂乱无章的数据转化为相对单一且便于处理的结构,达到快速分析处理的目的.
通常数据预处理包含四个部分:数据清理、数据整合、数据规约、数据变换.
4.
2.
1数据清理我们采集的所有的数据并不都是有价值的,有些数据并不是我们所关心的内容,有些甚至是完全错误的干扰项.
因此要对数据过滤、去噪,从而提取出有效的数据.
常见数据清理技术见表3.
表3数据清理技术类型说明处理方式遗漏值数据数据中可能存在部分属性值缺失全局常量、属性均值、可能值填充、直接忽略等噪声数据数据中存在着错误或偏离期望值的数据分箱、聚类、计算机人工检查、回归等不一致数据编码使用不一致或数据表示不一致人为约束、手动更正4.
2.
2数据整合数据整合是把多个数据源中的数据整理、合并后进行统一存储.
良好的数据整合有助于减少数据集的冗余和不一致.
数据整合主要解决以下问题:1、实体识别:在数据整合时,来自多个数据源的数据属性在命名上存在差异,因此需要识别出等价实体做数据匹配处理.
2、数据冗余和相关分析:如果一个属性能由另一个或另一组属性推导出,则该属性是冗余的.
在解决数据冗余的过程中,可以利用皮尔森积矩相关系数来衡量数值属性,绝对值越大表明两者之间相关性越强.
对于离散数据可以利用卡方检验来检测两个属性之间的关联.
3、元组重复:去掉重复的元组.
194、数据值冲突:同一属性,不同的数据来源可能导致数据值不同,需要检测和处理.
4.
2.
3数据规约数据规约主要包括:数据方聚集、维规约、数据压缩、数值规约和概念分层等.
在实际业务需求中,会从数据仓库中获取分析所需要的数据,这个数据集可能非常庞大,而在海量数据上进行数据分析和数据挖掘的成本又极高.
使用数据规约技术则可以实现数据集的规约表示,使得数据集变小的同时仍然近于保持原数据的完整性.
在规约后的数据集上进行挖掘,依然能够得到与使用原数据集近乎相同的分析结果.
4.
2.
4数据变换数据变换是对数据进行适当的转换,便于更好地进行数据分析与挖掘.
主要过程有平滑、聚集、数据泛化(使用高层的概念来替换低层或原始数据)、规范化以及属性构造等.
4.
3大数据存储管理技术4.
3.
1数据存储技术对于数据的存储,我们不仅要关注存储容量和存储带宽,还要关注存储架构是否适应海量数据的安全存储和快速访问,存储空间管理机制是否合理有效.
1、分布式存储架构分布式存储是一种横向扩展文件存储系统,适合面向海量非结构化数据存储应用,具备高性能的读写访问带宽,支持多接口协议.
其主要关键特性有:横向扩展架构:每个节点都能提供元数据服务、数据服务以及外部访问的接口服务.
系统性能随节点增加线性增长;单一文件系统,统一命名空间:海量媒体文件不用分布在多个命名空间,系统管理复杂度低,数据处理效率高;数据保护:通过条带化、文件切片和分片复制冗余技术,实现数据的故20障保护,提高磁盘利用率,加快数据重建速度;多协议支持:支持NFS、CIFS、FTP、HDFS、AmazonS3、OpenstackSwift等多种接口协议,便于数据的统一调度管理;负载均衡:提供对外访问的负载均衡能力.
2、存储空间管理存储空间管理的目的是实现资源共享,提高存储利用率,在存储的性能、容量和能耗之间找到平衡点.
空间管理技术主要包括:多用户和配额管理:为多个用户划分不同存储空间并配置使用配额,通过对目录、用户、用户组等多种级别的空间配额控制,实现存储资源的共享和管理;重复数据删除:通过哈希计算或特征识别技术,对存储中重复的数据进行删除,以节约存储空间;动态分配:利用存储及计算资源的弹性分配技术,可在多个用户间实现动态弹性资源抢占与释放;冷热度分层存储:根据数据的访问热度,对于频繁访问的数据,将其全部或部分保存在更高访问性能的存储介质(内存或SSD)上,提升其读写性能;对于几乎不会访问的数据,保存在归档存储介质上,降低其存储成本.
4.
3.
2数据库技术广播电视行业数据的特征是海量化和快速增长,同时要在不同的业务场景下按不同的方式处理多样化的数据,传统关系型数据库系统的容量和性能已经无法应对满足这样的应用需求.
传统关系数据库一统天下的局面逐渐变成了传统SQL(OldSQL)+NoSQL+NewSQL数据库共同支撑多类应用的格局.
1、OldSQL数据库即传统关系型数据库,如Oracle、MySQL等,是基于强事务一致性的数据库,支持SQL标准,擅长于在线交易等联机事务处理类型应用.
适合处理热数据,适用于小数据量、业务逻辑复杂、并发度高的事务型业务场景,如传统内容生产系统、BOSS系统数据库等.
2、NoSQL数据库21即非关系型的数据库,是对不同于传统的关系型数据库的数据库管理系统的统称,具有易扩展、数据模型灵活、海量数据下的高读写性能等特点.
主要用于存储超大规模的非结构化和半结构化数据,NoSQL数据库按类型可分为键值数据库、列存数据库、图存数据库以及文档数据库等类型.
3、NewSQL数据库NewSQL数据库本质上仍然属于关系型数据库,但是引入MPP(MassivelyParallelProcessor)分布式并行处理架构,在保持传统数据库支持ACID和SQL标准的特性上,还具有类似NoSQL对海量数据的存储管理能力.
广泛地用于各类数据仓库系统、BI系统和决策支持系统.
不同的数据库由于技术和架构不同,存储的数据量和计算特性也有差异,所对应的应用场景也具有针对性.
数据库类型对比见表4.
表4数据库类型对比数据库分类细分类举例典型应用场景OldSQL数据库OracleMySQL一般环境下的联机事务处理NoSQL数据库键值数据库Redis内容缓存、日志系统文档型数据库MongoDBCouchDBWEB应用列存储数据库HBaseRiak计数器、最新列表、排行榜图形数据库Neo4jInfoGrid社交网络、推荐系统NewSQL数据库MPP数据库GreenplumVertica大数据环境下联机分析处理4.
3.
3异构数据融合存储架构在广电大数据应用过程中,需要同时使用结构化、非结构化和半结构化的多种类型异构数据.
面对数据结构和处理方式的多样性,存储架构需要考虑:数据源的类型与数据的采集方式;采集后数据的格式与规模;分析数据的读写需求、计算特性.
存储管理一方面应当按上述因素对数据进行分解,将数据分配到各种数据库、索引库、存储系统、Cache中,以降低数据存储复杂性.
另一方面要构建统一完整的存储系统架构,实现异构数据的全面融合,满足不同的大数据应用需求.
22数据库媒体数据存储数据源MPP数据库数据仓库传统数据库在线业务数据结构化数据分布式存储共享存储数据库服务器数据节点服务器MPP数据库服务器名称节点服务器结构化数据低价值密度数据结构化数据半结构化数据非结构化数据分布式存储节点媒体文件数据非结构化数据视频数据文稿数据用户数据系统数据业务数据互联网数据大数据应用文件访问SQLSQLAPI为主SQL为辅高价值密度数据图1大数据存储架构示意图大数据平台数据存储中,相同的业务数据经常会以多种不同的表现形式,存储在不同类型的数据库中,形成多数据库数据冗余的情况.
这时应当处理好数据一致性问题.
如图1中所示,可以利用数据仓库对原有分散在不同数据库中的多种结构的数据进行数据抽取、清理,经过系统加工、汇总和整理,消除源数据中的不一致性,以保证数据仓库内的信息是可以供上层应用统一调用的全局信息.
4.
3.
4数据模型构建和管理数据模型是抽象描述实际业务的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射.
在这里,数据模型表现抽象的是实体和实体之间的关系,通过对实体和实体之间关系的定义和描述,来表达实际的业务中具体的业务关系.
广播电视行业中的数据模型,是对广电业务应用中的主数据、元数据和参考数据的梳理、定义和管理功能.
在数据模型的规范指引下,更有利于统一数据维度,统一各种分析口径和提升数据质量控制能力.
表5简要描述了数据模型的主要内容和技术要点.
表5数据模型分类数据模型分类基本定义举例技术要点23主数据主数据就是描述企业核心业务实体的数据;通常由元数据和参考数据共同组成稿件、素材、节目、用户、机顶盒信息等定义变动不频繁;适合用关系型或文档型数据引擎存储;生命周期长;元数据描述数据的数据,通常实体的属性数据可认为即是元数据素材的基本属性列表;编目节目层属性列表定义变更较频繁;适合用文档型数据引擎存储;生命周期长;参考数据元数据可以取值的范围,也称为引用数据音视频编码格式枚举列表;编目分类法定义变更不频繁;适合关系型或K-V型数据引擎存储;生命周期长;活动数据主数据之间活动产生的数据节目生产过程数据;用户点播节目过程数据数据更新频繁;适合用K-V型数据引擎存储;生命周期短目前主流的数据建模方法有两种:范式建模法、维度建模法.
范式建模法:在构建数据模型中最常用的一个方法,设计思路自上而下,主要用来解决关系型数据库中的数据存储.
一般情况下同一份数据只存储一份,数据冗余程度低,方便解耦.
缺点是建立在关系型数据库上,缺乏灵活性,性能也受到限制.
维度建模法:设计思路自下而上,通过表和关系来实现数据模型.
表分为维度表和事实表两种,事实表中以数字型为主,包含了度量信息,而维度表常以文本类型为主,常常被作为事实表的"上下文",为度量数值添加业务意义.
维度表与事实表常以星型模型、雪花模型、星座模型等形式进行组织.
维度建模法紧紧围绕业务模型,很直观的反映业务问题.
缺点是构建模型前需要大量的数据预处理,很难能够提供一个完整地描述真实业务实体之间的复杂关系的抽象方法.
4.
4媒体数据结构化处理技术媒体内容数据中,特别是音视频内容数据,是一种非结构化数据,这样的类数据如果仅仅是采集和存储,则很难发挥其丰富的数据价值,要深度挖掘媒体内容的数据价值,需要对媒体内容数据做结构化数据处理.
4.
4.
1媒体内容数据编目标注24节目资料再利用需要经过规范的编目数据加工,而编目信息的识别、加工和著录必须以编目标准的说明为准则,编目过程中必须保证以下3个方面与标准的严格一致:1、编目数据著录格式必须符合编目标准对不同著录项目的要求,数据格式的不一致将导致数据解释的歧义,影响到检索和交换时数据的正常使用;2、编目项目的信息提取必须依照编目项目的定义,需要参照编目元数据项的使用说明对相近的、不同编目层同名的编目项目进行区分;3、对节目进行编目著录时,编目层次的划分必须符合标准的要求,严格按照节目层、片段层、场景层、镜头层的层级关系,虽然可以跨过中间层进行下位层的切分,但不能将上下层的层级关系倒置.
媒体内容数据编目标注后,形成了媒体内容的结构化数据,便于数据检索,数据统计和挖掘预测.
编目标注工作数据质量高,数据结构化粒度精细,但要耗费大量的人力成本,效率低下.
要适应广电大数据应用,需要将编目标注与智能结构化处理技术相结合.
4.
4.
2媒体内容数据智能结构化处理计算机视觉、机器学习和自然语言处理等人工智能技术提高了媒体内容结构化处理的效率.
通过对媒体内容数据的智能分析,提取出特征信息,可以自动地完成媒体内容数据的结构化处理.
媒体内容数据结构化技术的应用场景内容主要包括但不限于表6.
表6媒体内容数据结构化场景示例智能技术类别关键技术要点结构化应用场景人脸识别深度学习神经网络:MTCNN、DeepID、FaceNet特征距离度量:欧式距离、马氏距离、余弦距离提取人物敏感人物识别人脸搜索场景识别深度学习神经网络:Fast-R-CNN、ResNet、VGG-Net特征距离度量:欧式距离、马氏距离、余弦距离提取特殊地点信息特定场景搜索场景自动拆分字幕识别字幕检测、字幕定位和抽取,字幕识别节目字幕自动抽取节目字幕自动替换语音识别深度学习神经网络、隐马尔可夫模同期声自动抽取25型、语言模型、声学模型自然语言处理分词技术、文本实体识别、词性分析、句法分析、文本分类、自动摘要自动提取:人物,地点,组织机构和时间文本情感分析场景描述自动生成融合推理技术基于规则的推理(RBR),基于案例的推理(CBR),模糊理论场景描述自动生成媒体内容结构化智能技术的核心是人工智能算法,这些算法需要在业务应用场景引导下进行封装和二次开发.
对媒体数据的结构化智能处理程序,通过并行运行可以提升性能.
4.
5大数据挖掘技术大数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程.
数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可以分为两大类:预测性(Predictive)模式和描述性(Descriptive)模式.
在应用中往往根据模式的实际作用细分为以下几种:分类、预测、关联挖掘、聚类等.
4.
5.
1分类从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对数据进行分类.
其算法包括但不限于:决策树、贝叶斯、人工神经网络、支持向量机、基于关联规则的分类.
4.
5.
2预测预测是通过分类或估值得出模型,该模型用于对未知变量的预测.
预测的准确性需要时间来验证.
其算法包括但不限于:简易平均法,移动平均法,指数平均法等.
4.
5.
3关联挖掘关联规则挖掘是从大量的数据中挖掘出价值描述数据项之间相互联系的有关知识.
关联规则挖掘包括但不限于:单维布尔关联规则、多层次关联规则、多维关联规则、定量关联规则等.
264.
5.
4聚类聚类是一个将数据集划分为若干组或类的过程,并使得同一个组内的数据对象具有较高的相似度;而不同组内的数据对象不相似.
相似或不相似的描述是基于数据描述属性的取值来确定的.
聚类算法包括但不限于:划分法、层次法、基于密度法、基于网格法、及基于模型法等.
4.
6大数据处理框架技术大数据处理框架技术负责对大数据系统中的数据进行计算.
大数据处理框架技术通常按照所处理的数据状态进行分类.
用批处理方式处理数据的技术被称为批处理框架技术;用流方式处理连续不断流入系统的数据的技术被称为流处理框架技术;还有一些系统中同时用两种以上的技术分别处理不同类型的数据,被称为混合式框架技术.
4.
6.
1批处理框架技术批处理是指先将所有数据汇集到数据存储中再进行统一调用处理,并在计算过程完成后保存结果.
批处理在应对海量持久数据方面的表现极为出色,因此经常被用于对历史数据进行分析.
批处理框架可以通过HDFS分布式文件系统和MapReduce批处理引擎等多个组件,通过配合使用来处理批数据.
4.
6.
2流处理框架技术流处理是指对进入系统的数据流进行连续地计算.
流处理架构与批处理架构的不同之处在于,流处理架构无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作.
流处理的实时性远远优于批处理,因此流处理框架技术非常适合应用于对实时性要求较高的场景,比如日志分析、设备监控、网站实时流量变化等.
4.
6.
3混合处理框架技术混合处理框架技术是指可同时进行批处理和流处理的框架技术,提供一种数据处理的通用解决方案.
这种框架技术根据不同的数据处理需求提供了不同的处27理方式,而且提供了自己的集成项、库、工具,可胜任图形分析、机器学习、交互式查询等多种任务.
Lambda框架是一种混合处理框架技术,它在设计上主要面向批处理工作负载,通过内存计算模型和执行优化来提升对数据的处理能力,同时也具备流处理能力模块,但与流处理系统相比,延时会相对高.
Kappa架构在Lambda的基础上进行了优化,只有在有必要的时候才会对历史数据进行重复计算,并且实时计算和批处理过程使用的是同一份代码.
4.
7大数据展现与应用技术4.
7.
1数据检索技术1、全文检索全文检索技术是目前广泛应用的搜索方式.
它是通过计算机索引程序扫描文本中的每一个词,对每一个词建立一个索引,指明该词出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找结果反馈给用户.
目前主流的全文检索技术有Solr、Elasticsearch等.
中文检索时,需要有针对性地进行索引设计,从而提高中文模糊检索的效率.
2、数据查询数据查询分析技术主要有两种主流的编程模型,一种是基于框架接口或其衍生出来的语言,另一种是基于SQL语言.
SQL产业链完善,开发技术要求相对较低,是大数据查询分析的主流技术标准之一.
几种常见的大数据查询分析解决方案包括:Hive、Impala、SparkSQL等.
4.
7.
2数据可视化技术数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息.
为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集深入洞察.
常用的可视化工具有:FusionCharts、HighCharts、GoogleChartTools、SenchaExtJSCharts、Charts.
js、ECharts、D3等.
285广电大数据平台建设在媒体融合和大数据发展的背景下,广播电视行业要逐步转变传统理念和运营模式,借助大数据平台采集、存储、挖掘数据资产,通过大数据平台对媒体内容数据、用户服务数据进行全方位分析挖掘,从而提升媒体内容生产的能力,创新网络视听业务产品,升级媒体运营服务、加强媒体传播的监测监管.
广电大数据应用不是一个孤立的应用服务,与广播电视、有线网络、网络视听等各类业务紧密相关.
广电大数据平台的技术架构和业务应用服务应进行统筹规划设计.
从实际出发,广电大数据平台目前由各地分散建设,但在建设过程中,要以实现全国性广播电视行业大数据共享共用为目标,建立标准的数据接口规范,具备安全交互数据互联机制,推动形成全国性的大数据采集、汇集和应用机制.
5.
1广电大数据架构随着分析类技术、事务处理技术和流通类技术为代表的大数据技术得到快速的发展,以开源为主导、多种技术和架构并存的大数据技术架构体系已经初步形成.
大数据技术的计算性能进一步提升,处理时延不断降低,硬件能力得到充分挖掘,与各种数据库的融合能力继续增强.
5.
1.
1通用大数据参考架构国标《GB/T35295-2017信息技术大数据技术参考模型》提出了通用的大数据参考架构,规定了通用的逻辑功能构件及之间互操作接口,描述了通用的大数据应用系统框架,有助于理解大数据系统与传统的数据应用系统的差异.
大数据参考架构见图229批处理交互流处理索引存储文件系统处理框架:提供计算和分析平台:提供数据组织与分布基础设施:提供网络、计算、存储虚拟资源物理资源信息交互通信框架资源管理大数据框架提供者收集预处理分析可视化访问大数据应用提供者系统协调者数据提供者数据消费者安全和隐私管理信息价值链角色活动组件信息技术价值链图2大数据的参考架构图2中的垂直轴表示信息技术价值链,大数据价值通过为大数据应用提供存放和运行大数据的基础设施、平台、应用等服务来实现.
参考架构图的水平轴表示信息价值链,大数据的价值通过数据的收集、处理、分析、可视化和访问等活动来实现.
在广播电视行业应用大数据技术平台,同样需要提供数据采集、数据过滤、数据挖掘和数据分析等相关支撑性服务,并且要通过对采集数据的统一清洗、异构数据的标准转化、数据处理流程的合理规划、数据处理架构的自主定制等方式来支持广播电视、有线电视和网络视听行业的内容生产、业务部署、运营分析及整体平台的维护.
广播电视行业大数据平台在满足传统业务流程的同时,更加贴近互联网和移动互联网的发展,以支撑媒体融合的多业务流程需求,为新业务提供统一的内容支撑、技术服务、数据分析、运营计费等服务,有效支撑"媒体融30合"、"智慧广电"的背景下广播电视行业创新业务的快速发展.
5.
1.
2基于融合媒体云平台部署的广电大数据架构国家广播电视总局《电视台媒体融合平台建设技术白皮书》、《广播电台媒体融合平台建设技术白皮书》发布以来,全国广播电视台广泛开展以云计算为基础的媒体融合技术平台的建设,有线网络公司也开始基于云平台建设技术服务系统.
《县级融媒体中心建设规范》的发布进一步明确了县级融媒体中心建设的总体架构、功能要求、基础设施配套要求、关键技术指标及验收要求等内容,配套的系列标准规范还对省级支撑平台的服务、县级融媒体中心的安全、运维、监测监管等提出了要求.
媒体融合发展需要内容生产以数据做为基础支撑、对数据给予足够的重视,使内容生产与用户数据紧密联动.
广电大数据平台的建设要与媒体融合云平台相结合,充分利用软硬件资源,应用大数据技术,为内容生产、用户服务提供支撑.
基于融合媒体云平台部署的大数据架构如图3所示:31设施服务层大数据计算资源大数据存储资源大数据网络资源平台服务层应用服务层数据治理数据安全公有IaaS服务专属IaaS服务私有IaaS服务公共能力服务资源适配服务运营支撑服务业务集成服务平台开发接口大数据能力服务媒体处理能力服务通用IT能力服务融合媒体业务门户大数据应用业务门户运营门户系统日志采集终端数据采集网络数据采集媒体数据采集大数据采集能力数据清理数据整合数据规约数据变换大数据预处理能力存储管理数据库管理融合数据存储管理大数据存储管理能力………数据检索数据挖掘数据可视化媒体数据结构化大数据挖掘与应用能力…资讯汇聚内容采集协同指挥赛事分析媒资标引内容审核数据新闻内容交易版权管理运维管理收视分析节目推荐消费分析精准营销舆情监测内容评价网络优化媒体内容大数据应用用户服务大数据应用数据租售数据咨询详单查询广告投放维系挽留对外应用………图3基于融合媒体云平台部署的广电大数据架构321、设施服务层设施服务层为平台服务、应用服务提供统一的基础环境.
在此基础上,可提供大数据批处理、流式处理、混合处理所需计算资源、网络资源和满足大数据存储需求的存储资源.
在设施服务层,可基于云化环境部署集群管理、服务器管理等平台组件.
大数据平台的管理节点,如:NameNode节点、Zookeeper节点、负载均衡等可部署在虚机环境.
数据节点,如:DataNode、MPP数据库的计算节点因为对计算性能的要求尽量在物理机部署.
数据治理和数据安全组件工具可以在虚机环境部署.
大数据的海量化、快速增长、数据格式多样化等特征,给存储技术带了挑战,分布式存储和分布式文件系统,能提供较高的并发访问能力;大数据的分析挖掘是数据密集型计算,需要很高的计算能力,应提供多样的计算框架以适应不同计算场景的需求.
2、平台服务层平台服务层构建在设施服务层之上,为上层媒体应用提供转码等媒体处理能力,中间件、数据库、AI等IT通用服务能力,以及统一资源管理、接口管理等公共服务.
平台服务层为应用服务提供统一支撑能力,为设施服务层的使用提供相应的接口,包括资源适配服务、公共能力服务、运营支持服务、业务集成服务、平台开发接口等.
在平台服务层部署大数据采集、预处理、存储管理、分析挖掘等能力,实现内容数据、用户数据的统一汇聚、分析与处理,可为不同大数据应用服务提供能力的支撑服务,打造具有广电媒体特色的大数据分析及处理能力.
同时,平台服务提供接口服务,提供大数据能力的输出、数据交互.
大数据能力服务系统日志采集终端数据采集网络数据采集媒体数据采集大数据采集能力数据清理数据整合数据规约数据变换大数据预处理能力存储管理数据库管理融合数据存储管理大数据存储管理能力………数据检索数据挖掘数据可视化媒体数据结构化大数据挖掘与应用能力…图4大数据能力服务示意图大数据能力服务包括:大数据采集能力、大数据预处理能力、大数据存储管理能力、大数据挖掘与应用能力等.
大数据能力服务示意图见图4.
大数据采集能力:部署包括媒体数据采集、网络数据采集、终端数据采集、33系统日志采集以及数据库采集等大数据采集能力模块,实现广电媒体内容数据、用户服务数据的统一采集获取.
大数据预处理能力:部署包括数据清洗、数据整合、数据规约和数据变换等大数据预处理能力模块,确保数据的完整性和准确性,提升大数据的数据质量.
大数据存储管理能力:部署包括媒体存储管理、数据库管理、融合数据存储管理等大数据存储管理能力模块,实现广电大数据的海量存储管理.
大数据挖掘与应用能力:包括数据检索、数据挖掘、数据可视化以及媒体数据结构化等大数据能力模块,为不同大数据应用服务提供能力输出.
3、应用服务层应用服务层实现统一用户角色及权限管理,为广播电视台、有线网络公司、网络视听机构等提供内容生产、用户服务、监控监管的各类工具类软件和系统类软件.
大数据应用服务示意图见图5.
应用服务层的构建主要包括两个方面内容:一是应用服务产品体系,应用服务需要实现可配置、可扩展、网络化、多用户;二是构建安全可靠的服务运营管理体系,实现产品管理、终端管理、用户管理、运行管理、智能推荐等功能.
广电大数据应用服务包括媒体内容大数据应用和用户服务大数据应用,同时应用服务层还应具备数据租售、数据咨询等应用服务能力,提供面向平台外的应用服务.
资讯汇聚内容采集协同指挥赛事分析媒资标引内容审核数据新闻内容交易版权管理运维管理用户服务节目推荐消费分析精准服务舆情监测收视评价网络优化媒体内容大数据应用用户服务大数据应用数据租售数据咨询详单查询广告投放维系挽留大数据应用服务对外应用图5大数据应用服务示意图4、数据治理建立完善的数据治理体系,对大数据管理和利用进行评估、指导和监督,实现大数据风险可控、安全合规、绩效提升和价值创造.
5、数据安全对于数据本身构建起完善的数据安全防护体系.
通过设备及应用接入控制、身份及访问控制、数据权限、溯源等方面提供数据防护.
5.
2广电大数据平台建设规划5.
2.
1平台建设策略34广电大数据平台要在明确技术发展总体战略和大数据业务应用目标的前提下,开展平台建设.
1、明确需求目标,做好整体规划广电大数据采集的规模、处理的能力,影响大数据平台的应用能力,越全面的数据采集带来越可靠的应用结果.
广电大数据平台的建设规划,要以支撑大数据应用服务为目标,加强顶层设计,做好整体规划,建立互联互通机制,推动各广电机构的数据共享,推进形成全国行业性的广电大数据采集、汇聚和应用机制.
广电大数据平台要按照统一大数据规划、统一大数据采集存储、统一大数据计算、统一大数据处理、统一大数据服务、统一数据治理的原则建设,按照规范接口与广播电视行业内其他大数据平台互联互通.
现阶段,各广电机构的媒体融合发展战略路径不同,组织架构、业务方向不同,技术平台建设发展的阶段不同,因此,应当立足各自实际情况,推进大数据平台的建设;根据大数据业务应用需求,结合自身技术发展规划,制订大数据平台建设规划.
大数据平台的建设,要立足于为业务应用服务.
媒体内容大数据的应用,要充分挖掘内容数据的价值,侧重于内容产品质量提升和业务产品创新,推动传统媒体与新兴媒体深度融合.
用户服务大数据的应用,要以用户需求为核心,建立用户服务数据库,有针对性的优化产品质量,提升产品服务和产品运营的能力,促进广电机构产业升级.
2、立足业务现实,分步推进大数据平台的建设与完善广电大数据平台的建设,还要制定分步实施的计划.
在自身业务分析的基础上,可以选择性地建设大数据基础计算资源、大数据平台处理流程和大数据业务应用服务,进行技术和人才储备,再逐步扩大平台的规模,增加平台上的业务,并对基础架构、软件架构、应用架构、业务流程进行优化,逐步推进大数据平台的完善,实现既面向战略,又兼顾现有业务发展要求;既面向未来,又兼顾与现有媒体业务的衔接.
广电大数据平台要建立完善的数据管理体系和数据安全防护体系,数据的采集和应用要遵循国家相关法律与政策规定.
广电大数据平台按照国家与行业相关标准建设,要具备通过规范的数据接口与其他行业大数据协作,实现整合应用的能力.
35广电机构建设大数据平台,应根据业务需要建设大数据平台、部署大数据能力与应用.
已经建设整体融合媒体云平台的广电机构,可以在平台上建设部署大数据能力,不断丰富大数据应用.
不具备整体云平台基础条件的广电机构,也可通过租用公有云或自建小规模技术平台的方式,在此基础上建立大数据应用技术系统,开展大数据服务,条件成熟后,再逐步迁移并优化、丰富大数据相关能力.
对于原有投资建设的大数据系统,要按照投资保护的原则来使用,有条件情况下,可进行适度改造,能够与新大数据平台互联互通、资源共享.
在原有大数据系统升级时,也可以进行必要的改进、改造,以迁移纳入新的大数据平台.
原有大数据系统生命周期到期后,如有业务需要,应选择在大数据平台上新建相关大数据应用.
5.
2.
2业务模式规划大数据平台架构最终是服务于具体的大数据业务运用场景,需根据不同的业务运用场景按需选用平台架构中的合适资源、技术、能力,构建出真正科学、高效、节约、落地的大数据业务平台.
广电大数据业务运用场景可以总结为典型的三种模式:1、决策辅助模式通过广电大数据平台的建设,利用平台提供的各类大数据采集能力模块对各生产业务系统的媒体内容数据和用户服务数据进行采集,然后依据已明确的大数据整合、分析模型,采用流式大数据处理技术,通过大数据软件分析能力,对外提供数据检索应用以及可视化的大数据BI应用,辅助决策.
决策辅助模式支持的大数据应用包括媒体大数据类的指挥报道、质量监测、海量大数据采集、数据新闻应用;用户服务大数据类的用户数据采集和用户评价应用.
2、挖掘及预测模式通过广电大数据平台的建设,利用平台提供的各类大数据采集能力模块对各生产业务系统的媒体内容数据和用户服务数据进行采集,汇聚数据经过数据预处理后进行数据融合,融合后的数据存储到大数据平台的存储体系中.
采用批处理大数据处理技术,通过大数据挖掘分析能力模块对融合在数据仓库或数据湖中的数据进行分析和挖掘,发现新的数据应用和大数据产品.
36挖掘及预测模式支持的大数据应用包括媒体大数据类的运维管理、数据挖掘、内容审核、节目制作、质量控制应用;用户服务大数据类的舆情监测、内容发布、用户行为分析应用.
3、业务辅助模式通过广电大数据平台的建设,利用平台提供的各类大数据采集能力模块对各生产业务系统的媒体内容数据和用户服务数据进行采集,混合运用流式和批处理大数据处理技术,依据已明确的大数据整合、分析、挖掘模型,通过大数据分析挖掘能力模块对外提供大数据服务API,生产业务系统集成大数据平台提供的大数据服务API到生产业务环节中,以辅助生产.
业务辅助模式支持的大数据应用包括媒体大数据类的新型媒资管理、事件分析应用;用户服务大数据类的个性化推荐、广告营销、运营决策、节目策划、客户端推广应用.
5.
3广电大数据处理流程5.
3.
1设计原则广电大数据平台架构统一支撑各类广电大数据业务应用,对于大数据的处理流程设计应遵循以下原则:1、统一大数据采集:实现每个数据获取一次,并在整个平台进行共享.
2、统一大数据管理:数据存储考虑数据的分布应基于完整性和应用的需求.
存储容量、共享需求、网络能力和数据安全性也应进行统一的设计.
3、统一大数据计算:提供多种主流架构数据套件,满足多种数据类型和多种计算场景的不同需求.
4、统一大数据处理:建立统一数据处理能力,支持数据应用层多样化应用.
5、统一大数据服务:基于大数据建设形成的数据内容,具备提供数据开放服务的能力,从而实现统一的数据共享服务.
5.
3.
2处理流程设计37数据应用APP/网站终端设备BOSS系统生产制作媒资管理融合新闻用户服务数据…媒体内容数据…媒体文件存储批处理混合处理数据采集数据检索自然语言处理计算机视觉算法建模机器学习可视化处理数据处理框架数据存储数据分析挖掘资讯汇聚智能生产媒资标引版权管理用户推荐精准营销运维预警…流处理数据预处理数据清理数据整合数据规约数据变换数据库存储内存数据/流数据存储统一数据服务图6数据处理流程示意图广电大数据围绕媒体内容大数据和用户服务大数据,从数据采集、数据预处理、数据存储、数据处理、数据分析挖掘、统一数据服务到数据应用等环节的处理,数据应用产生的数据又可作为新数据源采集进入大数据处理平台,形成大数据闭环.
数据处理流程示意图见图6.
1、数据采集数据采集技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行分类标引,形成大数据分析处理的数据基础.
广播电视行业大数据主要包括媒体内容数据与用户服务大数据,采集的工具和方法各不相同.
利用互联网采集工具可以采集网站、微博微信、APP客户端、论坛贴吧等网络数据;利用数据接口的方式可以获取业务系统数据;利用数据埋点、探针的方式可以采集用户终端播放数据、网络环境数据、机顶盒系统数据、网络探测数据;利用开源数据库采集工具或采集脚本的方式可以对数据库进行采集.
2、数据预处理通过各种采集工具汇聚的广电媒体内容数据、用户服务数据,根据数据字典的数据定义,通过数据清洗、数据整合、数据规约、数据变换等数据预处理手段,对数据进行格式规范化.
针对不同采集工具获得的数据通过数据合并产生关联;针对采集结果结构混乱、不完整,内容包含乱码的部分做数据清理,保证数据质量,便于后续存储管理.
3、数据存储与管理广电大数据量大且更新快,存储系统不仅需要以极低的成本存储海量数据,38还要适应多样化的结构化、半结构化、非结构化数据管理需求,具备数据格式上的可扩展性.
应在数据的生命周期中,实现数据的分类存储,非结构化的内容数据存储在分布式文件系统中,业务数据存储在传统的数据库中.
除此之外还应对数据进行迁移管理和存储空间管理,并保障数据安全.
4、数据处理框架数据处理框架是对大数据平台中数据进行计算的组件.
广播电视行业中包含多种数据来源,按照不同的应用需求,可以选择批处理、流处理或者混合处理框架.
5、数据分析与挖掘数据分析与挖掘是根据处理的数据类型和分析目标,调度所需要的计算、存储和网络资源,采用适当的处理框架和算法模型,快速处理数据的过程.
通过数据分析与挖掘,发掘新的业务价值,发现业务发展方向,提供业务决策依据.
6、统一数据服务通过统一数据服务,实现应用所需数据的服务化调用,保证应用与数据分离.
7、数据展现与交互应用数据展现是以数据为核心,进行的多种类、层次性、数字信息直观化的概括.
是利用计算机图形学和图像处理技术,将数据转换成图形或图像呈现出来.
同时在数据展现交换环节新产生的媒体内容数据和用户服务数据又再次通过数据采集进入大数据处理平台,形成数据处理闭环.
5.
4数据治理数据治理是指对数据资产管理行使权力和控制的活动集合.
数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到机构全业务范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程.
在数据治理方面制订标准的数据生产制度与管理体系,以智能化的平台与工具作为管理实现手段,规范严格的操作流程机制,确保数据生产使用的全生命周期可闭环.
数据治理的核心思想和技术就是要从制度、标准、监控、流程几个方面提升开行的数据信息管理能力,解决目前所面临的数据标准问题、数据质量问题、元39数据管理问题和数据安全问题.
广电大数据治理包含以下三个维度:原则,即大数据治理工作所需要循序的基本指导性法则;范围,即数据治理包含的关键领域和主要活动;实施,即大数据治理的实施过程.
示意图见图7.
原则战略一致运营合规绩效提升风险可控大数据架构规划范围大数据质量管理大数据生命周期管理大数据安全与隐私管理图7数据治理的原则、范围和实施原则维度给出了大数据治理工作所遵循的、首要的、基本的指导性法则.
范围维度描述了大数据治理的关键域,即大数据治理决策层应该在哪些关键领域内做出决策.
实施与评估维度描述了大数据治理实施和评估过程中需要重点关注的关键内容.
5.
4.
1数据治理的原则大数据治理的原则是数据治理工作所需要循序的基本指导性法则,对实践活动起指导性作用.
只有将原则融入实践过程中,才能实现大数据应用的战略目标.
1、战略一致大数据治理过程中,大数据战略应与广播电视行业的整体战略保持一致,满足行业发展需要.
行业领导者应当制定大数据治理的目标、策略和方针,并评估大数据治理的过程,使大数据应用能满足组织的战略目标.
2、风险可控40大数据是行业的价值来源,也是风险来源.
有效的大数据治理有助于避免决策失败和经济损失.
应该有计划的开展风险评估工作,重点关注安全和隐私问题,防止未授权或不恰当的使用数据.
3、运营合规大数据治理过程应符合国内外法律法规和行业相关规范.
通过评估、审计等方式,对大数据生命周期进行环境、隐私等内容的合规性监控,以保证符合法律法规的要求.
4、绩效提升需要考虑合理运用有限的资源,满足当前和未来组织对大数据应用的要求.
应按照业务优先级分配资源,并实时了解大数据对业务的支持程度,根据发展要求及时调整资源分配,以保证大数据应用实现绩效目标.
5.
4.
2数据治理的准则大数据治理的准则即大数据治理的重要内容包括组织职责,元数据、大数据隐私、数据质量管理、业务流程整合、数据汇聚整合、数据生命周期管理等.
1、组织职责需要针对行业大数据应用场景绘制关键流程图建立职责分配模型,以明确大数据治理中的利益相关者.
将原有各个系统的数据采集、数据存储和数据管理的人员角色与大数据整体架构相关的角色匹配,由统一的大数据主管管理整个大数据平面下的组织架构.
同时结合广播电视系统安全播出和数据特性,对大数据进行责任划分,建立承担包括大数据在内的责任数据治理组织.
2、元数据管理文件系统中的数据分为数据和元数据.
数据是指普通文件中的实际数据,而元数据指用来描述一个文件的特征的系统数据,诸如访问权限、文件拥有者以及文件数据块的分布信息等.
元数据决定了信息架构如何满足业务的需求,有助于保证数据被正确地使用、重用并满足系统设定的要求.
在构建元数据模型时,需要深入、完整、细致的描述数据对象,包括数据的格式、质量、处理方法、获取方法、质量要求、安全性要求等各方面细节.
元数据管理有两种方式.
集中式管理和分布式管理.
集中式管理是指在系统中有一个节点专门司职元数据管理,所有元数据都存储在该节点的存储设备上.
41所有客户端对文件的请求前,都要先对该元数据管理器请求元数据.
分布式管理是指将元数据存放在系统的任意节点并且能动态的迁移.
对元数据管理的职责也分布到各个不同的节点上.
大多数集群文件系统都采用集中式的元数据管理.
因为集中式管理实现简单,一致性维护容易,在一定的操作频繁度内可以提供较满意的性能.
缺点是单一失效点问题,若该服务器失效,整个系统将无法正常工作.
而且,当对元数据的操作过于频繁时,集中的元数据管理成为整个系统的性能瓶颈.
分布式元数据管理的好处是解决了集中式管理的单一失效点问题,而且性能不会随着操作频繁而出现瓶颈.
其缺点是,实现复杂,一致性维护复杂,对性能有一定影响.
3、大数据隐私隐私保护是指利用去标识化、匿名化、密文计算等技术保障个人信息数据在平台上处理、流转过程中,不泄露个人隐私或个人不愿被外界知道的信息.
有线电视双向化可以便捷地获取用户操作行为,与传统的业务支撑系统结合可以更好地辅助运营商对业务的规划,提高用户服务能力.
在强化整个播出通道和业务服务系统的可管可控的同时,对于个人信息保护也不仅仅是停留在国家法律要求层面,而是要建立在整体数据安全防护基础之上,并保障用户个人隐私权的安全要求.
合法合规的采集、处理和应用用户服务大数据,提供可靠的安全机制,确保个人信息数据不会丢失、泄露,是广电大数据安全要求中的重要内容.
为进一步强对个人信息的保护,国家先后出台了《中华人民共和国网络安全法》、《全国人民代表大会常务委员会关于加强网络信息保护的决定》、《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》、《中华人民共和国刑法修正案(九)》等一系列法律法规.
这些法律法规解释了个人信息的定义,提出了个人信息收集、使用、传输、存储的相关要求,并明确了个人信息泄露后的罚则.
4、数据质量管理数据质量管理包括测量、提升和论证质量及整合组织数据的方法.
在数据全生命周期过程中,对每个环节的数据进行识别、度量、分析、改进等一系列管理活动,保障数据的可用性.
并且全方位管理数据平台的数据质量,实现可定义的数据质量检核和维度分析,以及问题跟踪.
42数据质量管理的规范包含对数据的标准化格式的要求、数据的完整性要求、以及对数据故障应急相应机制要求.
针对数据标准化的管理要求,规范各系统间的数据分类、定义、模型和取值,保证系统间数据的一致性、准确性和可靠性,从而打破不同系统间数据壁垒,为实现集中通过标准化的大数据管理创造条件.
主要包括:数据模型:统一模型,统一架构,保证系统架构的一体性;数据编码:统一编码,统一业务内涵,解决语义层差异;数据分类与分布:规范数据分布,解决业务数据源出多头,保证源头数据唯一性;指标体系:统一指标业务定义(例如对于用户收看电视节目有效时间的界定等),规范数据加工口径,形成统一的数据语言,避免理解歧义,保证数据统计的一致性和准确性.
5、业务流程整合按照数据生产,采集监控,加工调度,质量管控,数据推送和应用发布等数据应用模式梳理目前系统中对数据的关键活动,建立关键活动的流程图,针对关键活动,整合业务流程,制定大数据治理的政策.
在流程的识别过程中,对于广播电视行业包括用户的业务需求预测流程、用户服务反馈业务流程等,针对这些流程梳理数据的传输走向,可以提高对数据挖掘分析的效率.
6、数据汇聚整合数据汇聚整合的目的是通过数据的统一处理,提供标准统一的应用数据,为上层业务应用(如:经营分析系统、精准营销系统)提供融合的统一的数据能力.
采集客服、播控和信息服务等相关部门的数据及各业务系统的相关数据,并将采集到的数据进行存储和分发.
并以网络视听需求作为重点(收视记录、收视率、机顶盒操作点击日志等数据)对广电业务支撑系统、媒资系统,用户行为数据等全面采集并进行统一汇聚.
数据整合主要分为对基础数据整合、实时数据整合和机器深度学习三个数据处理模式,整合后的数据可以提供各类不同业务应用需求使用,以及提供个性化加工处理支撑多租户的数据服务.
7、数据生命周期管理在各个系统中数据持续增长的背景下,数据体量急剧扩大,对于无效数据过43度的管理会严重消耗系统资源,因此研究数据生命周期,可以降低系统成本.
根据数据所处的不同时期、访问频度、数据内容、归属系统等所体现出的不同价值,制定相应的数据存储和服务响应策略标准,从数据分类、数据有效性、数据成本等方面,开展数据存储、数据服务的有效管理,决定何种数据应该保留在大数据分析系统中,何种数据要给予存档,何种数据要给予删除,以提供最优的数据服务效率、降低数据管理成本、从而获得最大数据价值.
5.
4.
3数据治理的实施大数据治理实施是指围绕大数据治理的阶段、关键要素等,建立大数据治理体系.
体系包括支撑大数据治理的战略蓝图和阶段目标,岗位职责和组织制度、关键领域与流程,以及软硬件资源.
大数据治理实施流程可分为现状评估、树立目标、制定方案、执行方案、运行与测量、评估与改进等形成闭环的六个阶段.
现状评估大数据治理的现状评估包括三个方面:一是对外调研,即了解大数据的最新技术和发展,行业大数据应用水平等;二是内部调研,包括管理层、业务部门、技术部门对大数据治理的业务期望;三是自我评估,了解内部技术、人员、资源等情况,做出需求和差距分析.
树立目标大数据治理的目标树立,指引实施的发展方向,其基本要求是:简洁全面,既能简明扼要地阐述问题,又能涵盖数据相关者的需求;明确,清晰地描述数据所有相关者的愿景和目标;可实现,目标经过努力是可达成的.
制定方案大数据治理实施方案是一个从上层设计到底层实现的指导性说明,阐明大数据治理所需开展的工作和执行过程,包括涉及的流程和范围、阶段性成果、成果衡量标准、治理时间节点等内容.
执行方案执行方案就是按照大数据治理实施方案,按部就班地执行,具体地建立大数据治理体系,包括建立软硬件系统、规范流程,设立相关岗位,明确职责并落实到人.
44运行与监督大数据治理的运行与监督是指根据一系列策略、流程、制度和考核指标体系,来监督、检查、协调多个相关部门,从而优化、保护和利用大数据,确保大数据应用发挥价值.
评估与改进大数据治理运行体系建立后,需要对照治理目标,依据治理规范和标准,监控和评估大数据治理的成效,发现问题,优化策略和流程,提升人员技能,确保大数据治理工作成功.
456广电大数据安全在中共中央政治局2019年1月25日就全媒体时代和媒体融合发展举行第十二次集体学习时,习近平强调:要从维护国家政治安全、文化安全、意识形态安全的高度,加强网络内容建设,使全媒体传播在法治轨道上运行.
要全面提升技术治网能力和水平,规范数据资源利用,防范大数据等新技术带来的风险.
广电大数据安全应该基于数据业务链路包括采集、传播、处理、存储、交换、应用,构建全面的数据安全管控体系,覆盖数据加工前、数据加工中、数据加工后、数据合规等方面的数据安全管控.
在数据合规层,需参考《GB/T35273-2017个人信息安全规范》、《GB/T35274-2017信息安全技术大数据服务安全能力要求》、《GB/T31168-2014信息安全技术云计算服务安全能力要求》,以及ISO27001系列标准进行实施.
通过遵循这些标准,实现对个人隐私信息的保护、保障云服务的安全控制,保障大数据服务的安全性,同时也符合国家的监管要求.
通过建立一套标准的大数据采集、计算存储、服务和应用的架构,形成以数据为中心的大数据安全管理理念.
广电大数据安全需要符合安全播出的要求,包括基础安全、平台与应用安全和数据生命周期安全.
6.
1基础安全大数据的基础安全,结合广电数据特性制定相关的制度约束规程,增强数据资产的安全,明确大数据使用者的角色和权限,对元数据安全和数据合规进行管理,从而确保对个人信息进行保护和重要数据的分级管理.
6.
1.
1策略与规程大数据技术在应用之处,需要制定符合大数据战略规划的安全策略,明确安全方针,建立安全目标和原则.
6.
1.
2使用者的角色和权限管理根据大数据服务的能力提供程度,明确不同岗位人员在大数据服务提供的各46个阶段的权限和安全管理措施.
依据大数据服务安全角色的不同,构建多租户的管理措施并设立相关的安全审查措施.
6.
1.
3数据安全和数据合规建立大数据服务的数据管理规范,明确元数据访问控制策略以及加强对元数据操作的审计.
对于数据进行分级操作,针对重要数据要建立符合网络安全法等法律法规的安全策略,具备对数据进行匿名、泛化、随机、加密等脱敏的方法,确保隐私和个人信息数据的安全.
6.
2数据生命周期安全数据生命周期各个阶段的安全技术包括数据采集、数据传输、数据存储、数据处理、数据交换和数据销毁的安全.
6.
2.
1数据采集安全1、数据分类分级依据法律法规和政策监管的要求以及广电组织业务需求定义组织机构内部的数据分类分级原则,对生成/采集的数据进行数据分类分级的标识,为数据安全管理建立有效的安全基础,以达到分级管控的目的.
2、数据收集和获取通过有效遵循法律法规和监管政策的要求,对数据的采集和获取过程执行了有效的安全控制,以保证对各类数据的合规收集,并对提供数据接口的业务系统不带来风险.
3、数据清洗、转换与加载通过在数据执行清洗、转换与加载的过程中执行对数据的保护,以保证对数据的完整性、一致性和可用性,确保数据过程中的安全可控.
6.
2.
2数据传输安全保障数据传输安全的手段主要包括数据加密、签名、鉴别和认证等机制,对传输过程中的数据信息进行安全管理,并监控数据传输过程中的策略实施,从而有效防止传输过程中可能引发的数据泄露.
476.
2.
3数据存储安全通过基于组织机构的数据量增长、数据存储安全需求和合规性要求制定适当的对存储架构,以实现对存储数据的有效保护.
通过基于组织机构内部数据存储安全要求和大数据的业务特性建立针对数据逻辑存储环境的有效安全控制,以防止由于逻辑存储环境的安全风险而导致的存储数据的安全风险.
通过基于组织机构数据存储安全需求和合规性要求建立数据访问控制机制,防止对存储数据的未授权访问风险.
通过执行定期的开展数据的复制、备份和恢复,实现对存储数据的冗余性管理,保护数据的有效性.
通过建立数据归档存储的规范化流程和安全保护措施,实现对归档数据的有效保护.
通过执行对数据存储执行时效性管理对相关数据的及时清除和权限授予,实现对相关法律法规和合同协议中数据时效性要求的有效遵循.
6.
2.
4数据处理安全通过针对组织机构内部使用相关计算、开发平台/系统建立分布式处理的安全保护机制,防止分布式处理过程中数据泄漏、未授权访问等安全风险.
通过在数据分析过程中对国家安全、业务价值、个人数据保护的安全需求分析,采取适当的安全控制措施以防止由于数据分析而可能带来的数据价值泄漏风险.
基于国家相关法律法规对数据使用和分析处理的相关要求,通过对数据使用过程中的相关责任、机制的建立保证数据的正当使用.
通过建立适合组织机构内数据服务特点的数据加密和解密处理策略和密钥管理规范,以防止重要或敏感数据在加工处理过程的泄漏风险.
遵守法律法规及相关标准的要求,根据数据使用过程中的安全和业务需求,明确敏感数据的脱敏需求,制定相应脱敏规则,对敏感数据进行脱敏处理以保证数据的可用性和安全性的平衡.
通过针对数据处理过程中产生的数据的溯源机制的建立,以实现对数据处理48过程中涉及数据源的可追溯性.
6.
2.
5数据交换安全通过对数据导入、导出过程中对数据的安全性的管理,防止相关过程中可能对数据自身的可用性和完整性构成的危害、以及可能会存在的数据泄漏风险.
通过在业务系统、产品对外部客户提供数据时,以及通过合作的方式与第三方合作伙伴交换数据时,执行对数据交换过程的安全风险控制,以实现对数据价值保护的有效性、对法律法规的符合性.
通过在数据发布的过程中对发布数据的格式、适应范围、发布者与使用者权利和义务执行的必要控制,以实现数据发布过程中数据的安全可控与合规.
通过建立组织机构和外部组织机构/个人之间数据交换监控机制,以实现对数据交换过程中可能存在的数据滥用、数据泄漏等安全风险的防控.
6.
2.
6数据销毁安全针对组织机构内需要对大数据存储介质进行访问和使用的场景,提供有效的制度流程和技术工具保证,防止对介质的不当使用而可能引发的数据泄露风险.
通过建立针对数据内容的清除、净化机制,实现对数据的有效销毁,防止因对存储介质上的数据内容的恶意恢复而导致的数据泄漏风险.
通过建立对介质的安全销毁的规程和技术手段,防止因介质丢失、被窃或未授权的物理访问而导致的介质中的数据面临泄漏的安全风险.
6.
3大数据平台安全大数据平台安全是对大数据整体安全形成的安全策略,从数据采集到数据资产的管理,再到平台的访问安全管控和各类数据存储安全,以及数据在分发中的加密和脱敏形成的安全技术,包括传输交换安全、存储安全、计算安全、平台管理安全以及基础设施安全.
传输交换安全是指与外部系统交换数据过程的安全可控.
需要采用接口鉴权机制,对外部系统的合法性进行验证;采用通道加密等手段,保障传输过程的机密性和完整性.
存储安全是指对平台中的数据设置备份与恢复机制,并采用数据访问控制机49制来防止数据的越权访问.
计算安全是指计算组件应提供相应的身份认证和访问控制机制,确保只有合法的用户或应用程序才能发起数据处理请求.
平台管理安全是指大数据平台组件的安全配置、资源安全调度、补丁管理、安全审计等内容集合.
此外,平台软硬件基础设施的物理安全、网络安全、虚拟化安全等是大数据平台安全运营的基础.
6.
3.
1平台安全威胁与应对措施大数据平台面临的安全威胁包括以下种类:病毒攻击类安全威胁、虚拟层资源共享引起的安全威胁、数据和隐私信息类安全威胁、平台内部及对外接口安全威胁、集中管理引起的安全威胁等.
大数据平台安全防护,应该以数据为核心,从数据的访问、使用、破坏、修改、丢失、泄漏等多方面维度展开.
1、网络安全:指网络系统的硬件、软件及其系统中的数据受到保护,不因偶然的或者恶意的原因而遭受到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断.
通常采取的技术手段包括:防火墙、IPS、安全审计等.
大数据平台应建立全方位的网络安全体系,应包含:访问控制:通过对特定网段、服务建立的访问控制体系,将绝大多数攻击阻止在到达攻击目标之前.
漏洞检查:通过对安全漏洞的周期检查,即使攻击可到达攻击目标,也可使绝大多数攻击无效.
攻击监控:通过对特定网段、服务建立的攻击监控体系,可实时检测出绝大多数攻击,并采取相应的行动(如断开网络连接、记录攻击过程、跟踪攻击源等).
通讯加密:主动的加密通讯,可使攻击者不能了解、修改敏感信息.
用户认证:良好的认证体系可防止攻击者假冒合法用户.
冗余备份:良好的备份和恢复机制,可在攻击造成损失时,尽快地恢复数据和系统服务.
纵深防御:攻击者在突破第一道防线后,延缓或阻断其到达攻击目标.
集中管理:设立安全监控中心,为信息系统提供安全体系管理、监控,50维护及紧急情况服务.
2、服务器安全:包括服务器病毒防护、服务器安全配置与加固等.
操作系统应遵循最小安装的原则,仅安装需要的组件和应用程序.
并配置操作系统和数据库系统访问控制措施,对登录的用户进行身份标识和鉴别,并设置密码策略、账户策略、审核策略、用户权限等安全策略.
针对计算节点、存储节点、管理节点中的各类服务器和数据库等设备进行安全评估优化,必要时实施安全加固.
部署统一的策略对服务器操作系统软件、应用软件等进行升级.
需对重要服务器进行监视,包括监视服务器的CPU、硬盘、内存、网络等资源的使用情况.
并为服务器部署安全防护措施,如主机防火墙、主机IDS等,实现服务器安全防护.
通过部署统一管理的防病毒与防恶意代码产品,实现病毒与恶意代码的防护集中管理,确保服务器免遭病毒威胁,还需确保防病毒产品能够及时升级.
3、存储安全:数据的保存、备份,防止数据被非法盗用、篡改.
应通过部署虚拟磁盘加密系统,结合安全管理系统,保证数据存储的安全.
权限控制:云存储作为一个多业务和多用户的存储和资源统一访问的载体,任何对资源的访问都应经过严格的权限控制,只有用户确认共享的资源才能被其他用户或业务进行访问.
即使是被授权的访问也应根据不同的权限控制方式进行访问权限控制.
信息加密:提供信息加密功能,防止用户的关键信息被盗取,如登录密码和系统访问等信息.
传输加密:提供数据传输加密功能,保障数据在传输过程中的安全性.
存储安全:提供有效的硬盘保护形式,保证即使硬盘被窃取,非法用户也无法从硬盘中获取有效的用户数据.
4、虚拟化平台安全:包括虚拟机的隔离、配置与加固、恶意虚拟机防护以及监控等.
虚拟化平台安全主要解决在主机虚拟化、网络虚拟化、存储虚拟化等环境下,数据资源滥用、数据泄漏、虚拟机之间相互攻击等方面的问题.
可通过部署虚拟机交换机与虚拟机防火墙功能,实现不同虚拟机的安全隔离和访问控制.
通过内存虚拟化技术实现不同虚拟机之间的内存隔离.
采用分离设备驱动模型实现I/O的虚拟化,虚拟机管理系统保证虚拟机只能访问分配给它的物理磁盘空间,从而51实现不同虚拟机硬盘空间的安全隔离.
通过对虚拟机进行配置与加固,及时更新虚拟化软件补丁,提升虚拟化主机的安全.
通过对云平台的资源监控管理,控制虚拟机所消耗的服务器资源,保障受到攻击的虚拟机不会对在同一台物理主机运行上的其他虚拟机造成影响.
控制虚拟机到物理主机的通信,防止拒绝服务攻击.
通过将虚拟机的IP地址和MAC地址绑定,限制虚拟机只能发送本机地址的报文,防止虚拟机IP地址欺骗和ARP地址欺骗,实现恶意虚拟机防护.
限制不同虚拟机的数据包被转发到指定的虚拟端口,使同一台物理宿主机上的虚拟机接收不到其他虚拟机的数据包,防止虚拟机的恶意嗅探.
通过对虚拟机统一部署防病毒系统、主机IPS、建操作系统映像等,为虚拟机提供安全防护,降低运行在虚拟机中的操作系统的安全风险.
5、平台软件安全:包括操作系统、数据库、数据处理软件、平台组件等软件的系统安全以及为提高这些系统的安全性而使用安全评估管理工具所进行的系统安全分析和加固.
首先需要对系统进行加固.
主要对操作系统、数据库等本身进行加固,修补软件自身的漏洞等.
其次是数据脱敏.
需要针对不同用户和不同敏感数据根据需求设置不同的脱敏算法.
支持动态添加或删除脱敏算法,同时确保系统平滑升级,应用无需中断.
支持管理员可以配置用户查询特定数据库的特定表的特定列的脱敏算法.
脱敏算法具有一定的安全性、健壮性,不能被轻易破解或还原.
最后是部署数据库审计系统,通过旁路侦听的方式对访问数据库的数据流进行采集、分析和识别,并实时监视数据库的运行状态,记录多种访问行为,监控异常访问操作等.
6、应用安全:包括应用访问安全和应用数据安全.
应用访问安全:应用系统应提供专用的登录控制模块对登录用户进行身份标识和鉴别,提供身份鉴别、用户身份标识唯一性检查、用户身份鉴别信息复杂度检查以及登录失败处理功能,并根据安全策略配置相关参数;提供覆盖到每个用户的安全审计功能,对应用系统重要安全事件进行审计,审计记录的内容至少应包括事件的日期、时间、发起者信息、类型、描述和结果等.
应用数据安全:部署Web应用防攻击系统,尽可能发现并阻止各种篡52改静态网页文件、动态网页脚本文件或动态网页数据的企图,同时对其他未知类型攻击导致的网页篡改事件能够及时恢复.
对Web展示数据中涉及到的敏感数据进行模糊化处理.
7、接口安全包括内部、外部接口的健全、传输安全以及接口调用控制等.
数据查询接口、敏感操作接口等业务往往是黑客攻击的重点目标.
通过规则引擎、接口监控、风险识别等不同的底层安全技术,监控对敏感接口的每一次调用,识别批量调用、机器异常调用的风险.
通过对接口调用中出现的每个字段深度探测,对不同的接口实现不同的防护策略等级,灵活配置每一个字段的权重,实现接口业务数据风险的识别.
8、处理框架安全大数据平台经常采用开源的处理框架,往往缺乏有效地对组件的漏洞管理和恶意后门防范.
大数据平台需引入对各类组件的控制,漏洞发现和管理功能,做好用户访问控制和资源隔离管理.
9、运维安全:需建立完整的用户身份认证与安全日志.
通过部署统一认证和审计系统,实现用户对服务资源操作的集中认证、集中控制、集中审计.
统一运维入口:提供统一运维操作入口,并实现单点登录.
集中账号管理:通过主从账号建立自然人与设备账号对应关系,并定期修改密码.
资源权限控制:对业务资源进行精细化分配和管理,杜绝非法访问和越权访问.
操作行为审计:对运维操作全程跟踪和记录,提供事后快速故障定位和责任追踪.
537广电大数据的典型应用充分挖掘媒体内容数据、分析用户数据,可广泛应用在广播电视内容的采集与生产、节目的推荐与经营、用户的跟踪与服务、舆情的监控与管理、节目的传输与分发以及节目监控监管等领域.
本章节主要针对广播电视台、有线网络和网络视听领域,进行广电大数据的典型应用分析.
7.
1广播电视台7.
1.
1典型应用场景通过对广电大数据技术分析以及广播电视台大数据应用案例分析,广电大数据可在内容采集与生产、节目播出分发、舆情监控监管、平台运行维护等环节发挥其作用.
1、内容采集与生产新闻融合生产通过大数据采集技术,汇聚大量来自台内、台外的多种新闻信息来源,定位热点新闻线索,并根据采访报道的需求进行素材资源的收集、整理,可以增加新闻采编的广度,提升新闻生产的效率.
通过大数据比对,可协助对新闻稿件、报道内容的校验、审核,提升新闻报道的准确性.
内容的智能化生产与管理大数据分析技术支持对媒体内容数据的处理,如:事件、时间、地点、人物、分类属性等,然后形成关键词库,同时对汇聚而来的数据以关键词库进行筛选,清理和归类,形成有效素材数据,推送到节目生产环节,提高节目生产效率,丰富节目生产资源.
结合大数据分析、机器学习和智能识别技术,对电视节目的字幕和音频进行文字自动转换,可快速形成文稿与唱词等,减轻人力成本,提升内容生产、发布和管理的效率.
版权管理54大数据技术可应用到媒资管理和版权管理,协助有效控制节目版权.
从媒体资源生产开始,采集初始版权信息数据:包括合同、协议等信息,在生产过程中梳理版权信息,例如:版权属性、播出平台、播出分发地域、播出分发次数、播出分发时间范围、其中涉及的场景、人物的版权信息等,当节目生产完成后可以直接根据版权信息进行分发与播出管控.
节目在互联网传播过程中,可对互联网平台及资源方发方进行监控,确认是否有侵权行为.
一旦有侵权行为,也可以和维权服务相结合,快速提供维权证据.
2、节目播出分发播出内容监管借助大数据技术可以实现对直播类节目的实时内容审核.
视频画面监测:实时抓取直播视频帧,与海量的基础数据进行比对,来判断该视频画面是否存在不良倾向,并通过决策系统来决定是否进行处理.
语音监测:利用音频智能转换工具,将语音转译成文字来实现实时监测.
由于语音识别文字会存在转译误差,因此不能仅通过关键字来对文字内容进行监测,还要建立语义知识图谱来实现对语义层面的监测,增进语义矫正能力.
收视分析在当前电视生态系统范畴内,能与收视率产生联系形成大数据集的数据多种多样,包括电视机顶盒和基于移动终端视频消费的回路数据、社交媒体上视频分享和讨论的数据以及与在线视频服务有关的ISP服务器后台数据等.
利用大数据开展收视率调查,为电视传播提供与时俱进的价值量化工具,推动电视增量价值的变现,已成为业界关注的热点和未来的可能趋势.
从方法和技术路径上,可以通过对互动电视(包括数字有线电视、IPTV等)传播形成的回路数据进行深度数据挖掘,展开对基于电视屏幕的长尾和碎片化收视行为的归总与精细化测量;对户外电视收视行为的监测,测量电视节目延伸到互联网个人终端包括电脑、PAD和智能手机等屏幕上的收视行为,运用图文转换和地理信息等技术将这些信息做关联性分析;利用从互联网媒体平台上采集到的大数据,围绕电视节目传播与社交媒体讨论之间的互动关系,定量研究社会化电视及其营销价值.
3、节目评价2016年,国家广电总局发布《关于进一步加快广播电视媒体与新兴媒体融55合发展的意见》(以下简称《意见》),其中明确指出,要统筹收视收听率调查、专家评价、网络视听平台传播指数等评价指标,探索建立适应广播电视媒体融合发展需要的节目综合评价体系.
而多屏时代的到来,电脑PC端、个人移动终端、IPTV端等纷纷涌现,传统以结构性数据为基础的收视评价体系,显然已经不能反映节目的用户收听收看行为的客观全貌,需要建立并完善与时俱进的综合科学评价体系.
大数据囊括了各式各样的信息,既有文字的,又有音频和视频的,并能实现信息的深度挖掘和分析.
可从节目收听收看情况、播出覆盖范围、市场营销状况及网络视听用户反馈等方面建立综合评价指标体系,按评价指标对节目成本、播出效果、营销收入、经济效益、社会效益进行统计分析,为战略决策和绩效考评提供依据.
4、舆情监控监管通过数据采集技术,对海量站点、两微一端等信息来源进行采集汇聚,形成大数据新闻池、节目资料池,通过对新闻和节目在网媒、微博、微信等渠道的传播进行分析,能够分析新闻事件的演变和发展,以及节目在不同媒体渠道的传播效果及节目相关的热议话题.
通过分析微信公众号、微博账号的媒体影响力以及对相关机构、节目进行舆情监控,能够及时对相关负面舆情做预警和处置.
5、平台运行维护技术平台运行过程中,通过对平台的安全设备、网络设备、主机设备、数据库及应用系统的日志、事件信息进行集中收集和管理,结合信息安全痛点问题,利用强大的关联分析引擎制定关联规则,可实时对客户现网环境进行监控和分析,对网络异常情况、系统脆弱性、黑客入侵、违规操作等安全事件实时报警.
同时,通过对平台上海量的系统日志数据、流程运行数据、用户使用数据等进行统一的存储、管理和大数据分析,为监控自动化、运行流程优化、运维操作预判预警,提供决策支持.
当高峰期时,可自动地调整系统资源分配,优化网络运行模型;当发生故障时,系统可以自动切换,减少人工操作失误及时间损耗.
7.
1.
2典型应用模型广播电视台大数据应用可为广电融合媒体内容采集、生产、发布提供支撑服务,大数据应用体系架构在融合媒体云平台上,采用"公有云+私有云"的混合56架构,按照"多来源内容汇聚、多媒体制作生产、多渠道内容发布"的生产模式,为融合媒体业务全流程提供大数据服务支撑.
广播电视台大数据应用体系如图8所示:媒体内容数据采集视频抓取服务音频抓取服务图片抓取服务文字抓取服务微博接口服务微信接口服务互联网数据采集自主订阅IP收录素材制作上载素材媒资存储素材台内数据采集主题展现热点发现聚类分类关联推荐检索应用资源预览下载调用情感分析事件脉络融合应用及发布人像识别文字识别语音识别音频识别视频识别关键帧抓取大数据语言词库智能拆条内容去重智能语义分析内容价值分析大数据处理能力……融合生产图8一种典型的广播电视台大数据应用体系广播电视台大数据应用,实现对海量数据的采集,通过数据分析,提供节目制作的线索服务;对数据进行深度挖掘、智能化处理,形成自动标识和内容聚类,提升内容的使用和节目的制作效率;对所关注的内容进行跟踪,对舆情进行监控管理.
基于融合媒体云平台的广电大数据应用具备:1、海量的内容资源汇聚采用大数据采集技术,对地方通联、网站、两微一端等渠道的内容进行汇聚与整合,并规范全媒体生产系统的业务数据,打通各类平台的媒体内容数据.
应用平台具备海量数据的汇聚能力,对主流互联网站、官方微博微信账号、地方论坛和视频网站进行数据采集,并对融媒体生产、媒资管理的数据进行统一抓取,每天汇聚各类有效数据,为节目编辑人员提供更加丰富的报道线索和资料.
2、智能化的内容处理57通过内容数据分析引擎,完成海量数据的整理分析工作,建立了广播电视台应用的分析模型,主要实现包括:新闻热点、智能专题、事件脉络、关联性分析、情感分析、智能推荐、智能分类等功能,这些能力在新闻制作过程中为节目编辑人员提供了强有力的数据支撑,同时更好的辅助相关人员从多维度深入了解事件背后的故事.
大数据应用平台将音频提取、视频抽帧、图片预处理、字幕识别、语音识别等抽象成能力服务,部署在PaaS层,通过智能工作流引擎的调用,一方面实现媒体内容的智能化处理,形成媒体内容管理的自动编目、自动标引数据,提升媒体内容的利用率;一方面为节目制作过程提供音频、字幕的自动提取,提升节目的制作效率.
3、舆情监控大数据应用平台整合互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为用户全面掌握发展动态,做出正确舆论引导,提供分析依据.
广播电视台常见舆情分析的应用包括:全网舆情、地域舆情、专题舆情等方面.
舆情提取需要覆盖互联网海量源站,如各类网站、论坛、贴吧、微信公众号、微博及自媒体等,采用去重、去噪、数据规则引擎、自动分类/聚类、情感分析等技术进行自动化智能化分析,呈现的内容通常包括舆情分布、舆情情感变化趋势、数量变化趋势、热度变化趋势、热词、媒体覆盖情况、极端舆情等.
4、内容审查内容审查应用包含媒体内容数据里的相关内容,包括:视音频文件、文稿、串联单数据、节目信息等.
通过调用智能化能力服务,对媒体内容的关键信息进行提取,并于大数据特征库进行比对,对敏感、不合规等信息进行标注,为节目发布、归档前的审核提供依据.
5、流程监控与优化广播电视台大数据平台对生产过程中产生的操作日志、流程日志、系统日志等进行采集,通过可视化工具进行了呈现;通过大数据分析、预测,对故障进行判断、报警;并为存储优化、流程优化、安全防范提供决策.
587.
2有线网络公司7.
2.
1典型应用场景通过对广电大数据技术分析以及有线网络公司大数据应用案例分析,广电大数据可在生产运营、用户服务、运营管理等领域发挥其作用.
1、生产运营广电大数据共享服务各有线电视网络公司可充分利用其地缘优势、数据优势,积极推动数据后台的对接.
实现有线网络大数据共享,解决数据采集、传输和储存所面对的标准不一致问题,还可以实现跨地域、跨网络、跨平台、跨终端的综合全媒体数据运营.
用户分类有线网络的用户分类主要是针对以家庭为单位的广播电视用户受众,以家庭为单位对用户的使用习惯进行分析,分析其可能存在什么样的个体,通过对不同个体在不同时段的行为进行记录分析、归类个总.
利用大数据技术的交叉比较和归类,关联外部数据和应用数据,对业务运营尤其是个性化推荐进行辅助支撑.
个性化推荐一是在做好用户画像分类和产品分类标签的基础上,根据分类信息,判断喜好预测用户可能的行为根据相关算法进行内容推荐.
二是借鉴互联网应用、网页产品的优化方案,在有线电视机顶盒中对各个页面和按钮进行埋点,并进行统计分析和路径分析,进而判断各个功能点的布局、取舍、配色及操作方式等,进行不断修正,进而测试效果验证.
界面和流程优化,提高内容推荐的合理性.
经营分析通过汇集用户行为数据、BOSS数据、媒资数据、网络系统运行数据等,构建基于统计分析、联机分析、数据挖掘、决策支持的经营决策分析系统,分析有线网络公司运营的优势和劣势,预测未来趋势;帮助细分市场和客户,指导营销、客服部门进行有针对性的营销和高效的客户关系管理;对决策的执行情况和结果进行客观准确的评估,全面支撑经营分析的信息化与经营管理的信息化.
2、用户服务收视行为分析59实时收视数据分析可以为电视播出机构提供直播及播出期间监控的数据服务,能够支持节目进行有针对性的、高效、即时的编播决策和方案调整,同时也能够对整体节目的收视状况进行及时把握.
离线收视概况分析关注用户情况的变化,以分时段、区域的用户数、使用时长为基础指标,进行计算分析.
需要从机顶盒日志中,获取各个时段的用户使用时长,按照地域、时段、用户类型等维度汇总计算用户数量和总的使用时长.
同时根据历史用户使用业务情况,判断用户的行为类型(流入、流出、缴费、休眠、注销、新增等).
用户活跃度分析对用户行为特点进行分析,需要对用户活跃度进行分级定义,检测各个状态间的用户行为变化(如开机率、收视时长,甚至通过一些互联网数据进行交叉分析),通过数据分析建立用户活跃度模型,根据用户活跃度模型一方面可以给忠实用户提供更好的服务,另一方面可以进行流失预测,从而支撑用户挽留工作.
客户服务对用户行为特点进行分析,需要对客户服务进行分级定义,如缴费、欠费、开停服务、催缴、开停机、装拆机等,检测各个状态间的用户行为变化(如开机率、收视时长,甚至通过一些互联网数据进行交叉分析),通过数据分析建立客户服务分析模型,根据模型一方面可以给用户提供更好的服务,另一方面可以进行客户流失预测,从而支撑用户挽留工作.
3、运行管理设备故障预测设备故障预测是故障诊断技术的重要组成部分,是指通过对历史和当前的设备故障特征值进行分析,利用数据挖掘算法,挖掘出设备性能指标变化与故障之间的关联关系,分析出设备发生故障前的性能异常特征,预测出未来的故障特征值,从而预测出设备在未来一段时间内的运行状态,预测设备可能出现的故障,并且依据这些特征值,判断设备的故障级别,提前掌握设备故障的发展趋势,为提早预防和修复故障提供依据,具有重要的理论研究价值和工程实践意义.
网络优化有线电视网络优化主要是指通过有线电视的网络设备以及优化技术,使得有线电视网络在运行时的网络性能最佳.
对有线电视网络运行数据进行归纳、整理、60融合,运用数据分析挖掘技术进行有线电视网络流量监测、回归预测、聚类等分析,分析结果不仅可以使我们清楚了解有线电视网络运行时的网络性能优劣,还可以更好地保障网络流量分配、带宽分配以及负载均衡的实现,从而节约有线电视网络运行时消耗的资源、提高传输速率,保持网络稳定.
所以对有线电视网络运行数据进行数据分析挖掘处理可以为网络优化提供决策参考,包括有线电视网络的流量分配、带宽分配优化、负载均衡等.
网络安全态势感知有线电视网络安全主要是指有线电视的网络设备安全、有线电视传输过程的自身安全、网络数据内容安全、风险态势评估及安全预警.
对有线电视网络安全运行数据进行预处理,运用数据分析挖掘技术进行有线电视网络安全流量监测、入侵检测、安全审计以及虚拟网技术等分析,其结果不仅可以使我们了解有线电视网络运行时的网络风险大小和安全预警,还可以更好地保障有线电视网络的设备安全、数据内容安全,比如用户的个人信息数据、身份认证数据等.
通过搭建数据采集、大数据分析、展示平台等,构建网络安全态势感知体系,形成基于有线电视网络的整体安全态势感知,以及基于此的快速处理流程与信息共享机制.
7.
2.
2典型应用模型有线网络公司的大数据应用架构基于大数据技术的数据开放、能力开放、资源开放的思想,构建提供统一服务支撑能力的大数据应用平台,为有线网络公司以及公司内部的业务部门提供大数据处理、业务支撑及各项服务能力.
整体技术架构分六部分,包括数据域、采集域、整合存储域、服务域、应用域和数据治理与数据安全,具体如图9所示:61数据域采集域服务域应用域BOSS系统终端管理系统呼叫中心系统互联网数据媒资管理系统网络管理系统互动业务系统网络流量数据网页爬虫系统日志数据文件数据库采集数据整合数据存储服务封装流程管理权限管理监控管理数据计算数据服务营销服务应用服务点播推荐网络优化收视分析消费分析报表分析数据能力业务数据租售业务数据咨询业务用户画像精准营销维系挽留数据治理和数据安全服务管理服务能力节目推荐对内应用对外应用整合存储域实时数据处理图9一种典型的有线网络公司大数据应用体系主要功能及服务应用表现在:1、数据域主要体现了有线网络公司大数据的数据来源,包括:BOSS系统、媒资管理系统、网络管理系统、终端管理系统、呼叫中心、互动业务系统、网络流量采集系统中的用户属性、业务信息和用户订购数据,节目内容相关数据,机顶盒和移动客户端的行为日志数据,网络设备状态和配置数据,用户呼叫记录,用户收视行为数据,互联网内容数据和用户数据,网络流量数据和设备故障信息数据等.
这些数据构成了有线网络公司大数据分析平台的数据域,也是基础的数据资源池信息.
2、采集域通过与数据域的对接,采集有线网络公司内部和外部的结构化和非结构化数据,并送到数据整合存储域进行存储和处理.
其中,BOSS系统、呼叫中心系统和网络管理系统主要通过数据库采集工具进行采集;媒资管理系统数据通过文件方式传输与解析;互联网数据通过网页爬虫或者应用提供的标准接口采集;终端管理系统、互动业务系统和网络流量数据通过日志采集与解析进入大数据平台.
623、数据整合存储域数据整合用于构建数据的标签体系,指标库汇总,数据维度体系建立和通用的数据宽表.
对于实时数据或者准实时数据直接进行数据汇聚处理,用于事件营销和实时数据的分析.
对于非实时数据,经过处理后按照业务用途不同采用相应的数据格式,如图片或者非业务数据直接以分布式文件存储、业务数据使用结构化数据存储等,在此基础上也可以搭配NoSQL、内存数据库的存储方式,以便对数据进行二次的梳理划分,对应用前端起到数据支撑作用.
4、服务域提供数据的计算、分析、挖掘、加工等服务能力,同时提供对整个大数据服务能力的管理功能.
其中服务能力是大数据平台所能提供的对内对外服务能力,包括数据的计算分析(各种数据分析挖掘的计算模型),数据的服务(报表生成、数据的探索),营销服务(客户标签、网络流量分析),应用服务支撑(客户的动态呈现、经营分析可视化等).
服务管理包括大数据服务的封装,大数据流程的管理,用户权限管理,数据监控管理.
5、应用域分为对内应用和对外应用.
典型的应用包括:电视节目的个性化推荐、点播节目的个性化推荐、用户收视行为分析、用户消费行为分析、用户画像、精准营销、精准广告定投、网络设施优化、财务报表分析、客户关系管理和用户的维系挽留等.
对外应用则包括大数据平台本身的数据能力业务,有线网络公司网内数据租售业务,和针对网内数据的咨询业务.
6、数据治理和数据安全数据治理和数据安全作为独立的模块贯穿有线网络大数据平台.
数据治理应具备对大数据运营服务平台强有力的管理支撑,实现数据的统一管控和精细化管理,保障数据资产质量,为数据平台提供面向业务用户服务的沟通桥梁,让大数据变得业务化、可视化、易使用、易获得、高质量,促进数据资产的价值创造.
主要功能要求实现大数据的数据治理功能,支持元数据管理、数据建模管理、数据集成和数据质量管控.
数据安全主要实现数据安全传输、安全隔离、存储安全、应用系统和用户数据备份及恢复等.
63综上,有线网络公司在大数据时代的转型和发展,需要结合业务特点,积极整合数据资源及系统平台,努力探索适合自身的数据运营模式,结合云平台的建设,搭建大数据运营框架,从而走出一条符合传播规律、符合自身实际、符合受众需求的发展之路.
7.
3网络视听7.
3.
1典型应用场景通过对广电大数据技术分析以及移动客户端等网络视听应用领域的大数据应用案例分析,广电大数据可在节目价值导向指引与传播效果评估况分析、产品优化与用户体验提升和运行监管等方面发挥其作用.
1、节目价值导向指引与传播效果评估分析网络视听产品与传统电视广播节目相比,具有传播受众更广泛,传播范围更大,传播周期更长,内容形式更复杂多变等特点.
因此,需要利用大数据应用建立节目价值导向指引的辅助推荐系统,在节目选播的源头进行智能分析,从主题立意、代价导向、思想内涵、关键设置等方面进行严格评估,确保节目导向正确、内容健康向上方可上架播出,坚强遏止节目太过娱乐化和鼓吹拜金享乐、急功近利等错误倾向.
基于大数据技术来实现数据的汇聚、整合、分析,面向不同的受众需求,为用户筛选、推荐最适合的内容,满足个性化和专业化的需求.
推送方式从海量业务广播式推送,过渡到个性化用户的精准推荐.
热点内容传播效果评估:网络试听节目的传播效果评估是一个综合因素,不能简单的以收视率或点播率作为节目影响力唯一评判标准,对收视率或点播率的过度关注,直接影响市场的资本运作,导致了收视率造假等问题.
因此需要利用大数据技术应用,结合网络试听的自身特点,建立健康的节目内容传播效果评估,结合思想性、创新性、专业性等节目品质元素,引入舆情监测、专家评价等因素,对节目传播力、引导力、影响力、公信力等多维度建模分析,构建全方位的节目综合评价模型,推动网络试听节目综合评价体系的健全.
结合大数据技术的新的评估体系不再像传统统计方法那样只按地域分层,也不再仅进行收视率和市场份额统计,而是采用全量样本,集合了绝对用户数量、绝对收视时长、跨不同网络收视等的综合数据,通过对收视与点播数据深度挖掘、及时反馈,指导内容选题、素材集成、需求组64合、分析预测、创作生产,转变传统节目生产方式,有效引导行业健康发展.
2、产品优化与提升用户体验网络视听产品通过数据埋点的方式,监控产品指标、收集用户使用习惯,进行大数据分析,为提升用户体验提供支撑,具体应用方向包括:通过对用户的终端基础数据、用户收视与消费习惯等进行采集,构建出用户画像,经过推荐规则、引擎和数据分析处理之后,发掘出用户的偏好,从而向其推荐相应的资讯内容和节目,并对推荐结果进行后续的监测和完善;根据用户喜好,运营关键推荐位,在流量集中的推荐位都会配置观众喜闻乐见的健康内容,满足用户的定制化需求;分时段精细化收视内容,提高更新频率并推荐更多优质内容,以高质量内容提升用户的使用体验;观看入口分析,多种运营策略,优化终端界面的UI设计,增多用户观看入口,简化用户在终端上操作,方便用户快速选择符合自身洗好的节目内容.
3、运行监管全链路版权保护网络版权保护应包含两方面的内容:避免侵权:即在网络视听内容制作的过程中,通过大数据技术和智能化技术,对引用的文字、图片、视音频等进行检索,找到发布源,判断是否可以进行版权引用,以避免版权纠纷.
版权追溯:具体体现在:1)通过搜索引擎和网络爬虫技术,可以实现全网文化版权数据的自动化、智能化获取;2)捕获到文化版权信息后,构建相关的数据技术、管理标准,通过智能分析对比,可以完成对版权信息的初步匹配和深度匹配,自动化发现疑似侵权目标,将疑似侵权目标交由人工进行确认;3)互联网版权侵权内容涵盖文字、图片、音频、视频等,大多数为非结构化数据,通过高性能的分布式存储计算能力,满足海量数据的存储与实时计算性能要求的同时,实现信息的快速检索;4)借助大数据可视化技术,使版权监管做到全过程溯源,全流程实时监督.
网络安全动态感知网络视听业务的运行环境较为复杂,即有内容生产环境,又有运营支持环境,还面向用户、面向互联网提供服务,在复杂网络系统中往往存在大量的无法进行分析和解析的非结构化和半结构化的日志数据,利用大数据技术,对各类原始日65志转换为结构化的数据,提供链式可插拔的ETL模块,能够以插件的形式支持各个原始日志的格式化的工作.
采用大数据技术针对复杂网络环境中的高级持续性攻击行为进行挖掘分析,通过模拟真实桌面环境,及时发现恶意文件的注册表行为、敏感路径操作行为、进程行为、导入表信息、资源信息、字段信息、字符串信息及运行截图等行为,再结合加权值分析技术,实现准确报警.
针对复杂隐蔽的持续性流量攻击行为,通过基于资产维度的流量行为分析算法,判断是否存在隐蔽的持续性流量攻击行为,然后通过大数据安全威胁分析获取高级持续性攻击的源头,并将发现到的异常行为累计到异常行为库中,通过异常行为库进一步持续性的跟踪和分析攻击行为,最终实现对这些安全事件的溯源取证分析和复杂攻击行为路径还原.
7.
3.
2典型应用模型广电网络视听包括移动客户端、PC端和IPTV客户端等产品.
建立统一的网络视听大数据平台,整合"大小屏数据",整合业务逻辑,监控用户全生命周期的关键指标,有助力于掌握整个网络视听运营平台的全局情况,助力内容、产品的运营决策.
网络视听大数据应用平台为运营方提供业务运营、产品优化、内容推荐提供决策支持.
包括:管理者:掌握业务方面,监控异常情况;市场部:了解市场动态,制定推广策略;运营部:提高用户转化,优化运营策略,提升产品留存;产品部:监控产品指标,优化产品体验.
网络视听大数据应用体系如图10所示:66数据源移动客户端OTT/IPTV客户端用户平台运营平台系统研发平台PC端Kafka/SparkStreamingAPI/JavaApp用户数据集增值数据用户平台专辑数据专题数据运营数据节目单频道数据其他元数据运营平台Pingback客户端系统研发平台爬虫数据系统数据基础仓库SparkSQLHive/MR增值数据集专题数据集入口数据集播放数据集行为数据集维度元数据一级仓库用户标签群体标签家庭标签用户画像Hive+Hbase+ApacheKylin用户Cube增值Cube专题Cube广告Cube入口Cube…多维业务仓库数据仓库用户数据应用数据报表(DV、Tableau)联机实时分析(Tableau)AD-HOC(Hue、Superset)标准接口(RestfulAPI)…图10一种典型的网络视听大数据应用体系网络视听大数据应用平台主要提供如下应用方向:1、新闻资讯的智能推荐建立新闻资讯数据仓库,对标题、内容进行标签化处理;客户端采集用户的阅读习惯、操作习惯及基础信息,建立用户标签库.
根据大数据算法,给用户进行个性化的内容推荐,达到千人千面的目的.
常用的推荐算法包括:协同过滤、关联挖掘、热榜算法、逻辑回归、相似度算法等.
2、数据算法提升用户体验数据本身也可以用来促成客户体验提升,利用数据算法提升用户体验的做法通常可以通过以下方式完成:基于标签的推荐:通过标签匹配找到用户喜爱对影片,如地区、类型、年代、演员、评分等;基于内容的协同过滤:将用户的行为(观看、收藏、搜索等)赋予相应的权重,通过概率值来衡量用户对影片的喜爱程度;基于用户的协同过滤:通过大数据算法,对客户端的智能推荐、内容检索进行了优化;点播:猜你喜欢、为你推荐、影片排行榜;67栏目点播:栏目点播中的千人千面,降低用户因为选择节目过程而产生的流失,用户第一次使用栏目点播时,为其推荐各时段热度最高的节目;搜索:搜索热度排行、搜索联想词.
基于全量用户的播放数据为专辑标记热度,以热度为主,关键词为辅的思路重新为结果排序,让用户真正立刻看到想找的内容;热门榜单:汇集点击量最高、用户评分最高优秀影片,各类榜单解决用户片荒问题.
3、数据闭环实现精细化运营根据用户喜好,排列关键推荐位:通过对用户喜好的推测,在流量集中的推荐位配置相关的影视节目;分时段精细化推荐好片:分析影片分类的播放情况,采用差异化运营的策略,提高更新频率并推荐更多优质影片,以高质量内容提升用户的使用体验.
7.
4广播电视节目收视综合评价大数据系统随着信息网络技术迅猛发展、媒体竞争日益激烈和行业改革创新不断深化,收视调查越来越受到各方面的重视与关注,同时也对利用新技术进一步改进收视调查方法手段,切实增强收视调查的科学性、时效性、安全性和权威性,提出了新的更高要求.
国家广电总局适应行业发展需要,研究部署建立了基于"全网络、全样本、大数据、云计算"的节目收视综合评价体系,强化对广播电视、网络视听节目的规范管理,培育广播电视创新发展新动能,促进广播电视高质量发展.
2018年12月26日,广播电视节目收视综合评价大数据系统开通试运行.
广播电视节目收视综合评价大数据系统通过建立与运营商之间的安全通道,汇聚海量用户收视行为数据,经清洗、转换、分析与挖掘,输出播出比重/收视比重、观看用户数、节目黏性、收视率等30项核心指标.
7.
4.
1系统特性1、样本全、覆盖广,超规模海量信息源系统已汇集8000万样本用户的收视数据,全面涵盖直播、回看、点播等多种收视方式,并将逐步扩展至数亿级样本规模,实现样本全覆盖.
超大规模海量68数据深度反映用户对广播电视节目收视内容和收视方式的多元化需求.
2、大数据、云计算,实时处理精准到户系统基于大数据、云计算技术,实时统计全量样本收视数据,分析颗粒度精准到户,既可以反映热门节目、黄金时段的收视情况,又可以精准捕捉小众节目、边缘时段的收视特征,全面还原多元化的收视需求.
3、防操纵、抗污染,根本解决收视造假系统数据采集、清洗、分析、呈现各环节无缝衔接,全流程自动化、封闭化处理,防范人为操纵.
系统基于海量大数据统计,个体样本数据污染对统计结果的影响可忽略.
4、多维度、全方位,综合评价引领发展系统既能提供客观真实的收视数据统计,还将以此为基础结合思想性、创新性、专业性等节目品质元素,对节目传播力、引导力、影响力、公信力等多维度建模分析,构建全方位的节目综合评价模型.
通过对收视数据深度挖掘、及时反馈,指导内容选题、素材集成、需求组合、分析预测、创作生产,转变传统节目生产方式,积极引导行业健康发展.
5、全媒体、开放性,预设未来全新定位系统将适应媒体融合发展和传播格局、传播环境的新变化,持续丰富电视收视数据来源,全面覆盖到有线电视、卫星直播、IPTV、互联网电视以及网络视听领域等不同传播渠道,并提前预设了全国有线电视网络整合和5G移动应用大趋势下的新定位、新模型.
7.
4.
2系统功能1、收视数据采集和汇聚数据采集与汇聚方面,按照国家广电总局发布的GD/J074-2018《电视收视数据元素集规范》、GD/J075-2018《电视收视数据交换接口规范》、GD/J076-2018《电视收视数据清洗规范》技术要求,以分布式架构实现与各地运营商千万级规模收视数据的并发传输、交换、实时清洗与入库存储.
数据采集由于收视数据产生于不同地区、不同渠道、不同业务,原始样本数量、数据类型、数据格式等都存在较大差异.
系统按照已有行业暂行技术文件定义的电视69收视数据元素集、数据交换接口,做到事前检验链路传输连通性、数据规范性和设备性能,使数据提供方和数据接收方在数据对接时能支持实时进行相应数据预处理,以减小双方传输带宽的压力.
数据清洗数据统计分析的基础是从数据提供方汇聚而来的收视数据,而收视数据在采集、汇聚过程中都可能出现部分无效数据,如不完整数据、错误数据、重复数据等.
因此,应按照GD/J076-2018《电视收视数据清洗规范》的要求对原始数据进行清洗,依次实施数据完整性校验、数据统一编码处理、无效数据校验与处理、噪声数据校验与处理、收视数据与节目内容对应、时间格式标准化处理、数据去重处理等操作,以保障数据的合理性、可靠性、准确性.
数据转换及入库由于多源收视大数据具有异构性,按照GD/J075-2018《电视收视数据交换接口规范》给出的规则对各个不同来源的数据进行变换并统一形式,以保证加载到数据仓库数据的统一性和准确性.
在ETL处理的过程中,可针对收视数据统计分析的需求,按规定的规则对所需的各项指标和维度进行数据预处理,计算规则可根据已有指标体系和自定义的模型算法进行设计.
2、收视数据分析数据分析方面,运用先进成熟的Hadoop/Spark大数据处理技术,高效实时处理海量收视数据,运用机器学习等先进技术对数据进行多维度统计、分析与深度挖掘,并持续不断地优化指标体系、分析维度、权重规则、模型算法等.
收视数据分析指标参考GB/T30350-2013《电视收视率调查准则》,在考虑大样本收视数据与抽样收视调查差异的基础上对GB/T30350中的计算方法进行了补充与调整.
收视数据分析维度主要包括:地域维度、数据源维度、运营商维度、观看方式维度、时间维度、频道维度、节目维度、用户维度等.
3、收视数据呈现收视数据呈现子系统负责将分析子系统的计算成果,以直观、友好、多样的形式进行呈现,以满足不同类型用户的获取收视信息需求.
呈现方式主要包括:收视数据WEB呈现、收视数据大屏呈现、收视数据小屏呈现、收视数据报告呈现等.
708大数据的政策法规与标准8.
1大数据相关政策法规为促进大数据发展,同时面对大数据发展带来的新问题和新需求,各国政府通过修改原有法律法规、制定新的法律政策等方式,从国家、企业和个人三个维度出发,完善政府数据开放、数据流通规则以及个人信息保护等方面的制度规定,为大数据的持续健康发展提供法律上的保障.
8.
1.
1国际1、美国2012年3月,美国白宫科技政策办公室发布《大数据研究和发展计划》.
2013年11月,美国信息技术与创新基金会发布《支持数据驱动型创新的技术与政策》.
2014年5月,美国总统行政办公室发布《大数据:把握机遇,保存价值》.
2016年5月,美国总统科技顾问委员会发布了NITRD编写的《联邦大数据研究和开发战略计划》.
2、欧盟2014年欧盟委员会发布了《数据驱动经济战略》.
2015年欧盟大数据价值联盟正式发布了《欧盟大数据价值战略研究和创新议程》.
2018年欧盟于2108年5月发布了《通用数据保护条例》.
3、英国2013年10月,由英国商务、创新和技能部牵头编制的《英国数据能力发展战略规划》发布.
4、法国2013年2月,法国政府发布《数字化路线图》.
2013年7月,法国中小企业、创新和数字经济部发布了《法国政府大数据五项支持计划》.
715、日本2012年7月,日本推出了《面向2020年的ICT综合战略》.
2015年6月,日本政府经内阁会议决定了2014年度版《制造业白皮书》.
2017年10月,日本公正交易委员会竞争政策研究中心发布了《数据与竞争政策研究报告书》.
6、澳大利亚2013年8月,澳大利亚政府信息管理办公室(AGIMO)大数据工作组发布了《公共服务大数据战略》.
2016年5月,澳大利亚信息专员办公室(OAIC)发布了《大数据指南和澳大利亚隐私原则》.
大数据环境下个人数据保护的法律制度,目前欧盟模式和美国模式是全球最有影响的两种模式.
欧盟一直是数据保护领域的立法先驱,早在1981年,欧盟理事会就通过了《有关个人信息自动化处理保护公约》;1995年欧盟通过了《关于个人数据处理保护与自由流动指令》(1995/46/EC),很快就成为世界各国个人信息隐私保护,以及数据保护领域法律文件和国际协议制定中的范例,后被2016年5月通过的《一般数据保护条例》替代;2002年通过了《电子通信领域个人数据处理和隐私保护的指令》("通过了指令",2002/58/EC),并于2017年1月10日进行了最新的修订.
美国则是行业自律模式的倡导者,成文立法散见于联邦、各州的各行业规定之中,辅之以行业内部的行为规则、规范、标准和行业协会的监督,充分保证个人数据自由流动的基础上保护个人数据,实现行业内个人数据保护自律和行业利益保护的平衡.
美国早期数据保护方面的立法主要是1974年通过的《隐私法》和1986年的《储存信息保护法》,《公平信用报告法》中也有信贷和消费者信用行业的特殊规定.
2015年10月,美国通过了《网络安全信息共享法》,明确规定了个人隐私、自由等私权利的保护.
8.
1.
2中国近年来,我国也相继出台了一系列相关政策推动大数据的技术、产业及其标准化的发展.
722015年7月,国务院办公厅发布《关于运用大数据加强对市场主体服务和监管的若干意见》(国办发〔2015〕51号),肯定了大数据在市场监管服务中的重大作用,并在重点任务分工安排中提出"建立大数据标准体系,研究制定有关大数据的基础标准、技术标准、应用标准和管理标准等;加快建立政府信息采集、存储、公开、共享、使用、质量保障和安全管理的技术标准;引导建立企业间信息共享交换的标准规范.
"2015年8月,国务院发布《促进大数据发展行动纲要》(国发〔2015〕50号),系统部署了我国大数据发展工作,并在政策机制部分中着重强调"建立标准规范体系.
推进大数据产业标准体系建设,加快建立政府部门、事业单位等公共机构的数据标准和统计标准体系,推进数据采集、政府数据开放、指标口径、分类目录、交换接口、访问接口、数据质量、数据交易、技术产品、安全保密等关键共性标准的制定和实施,加快建立大数据市场交易标准体系;开展标准验证和应用试点示范,建立标准符合性评估体系,充分发挥标准在培育服务市场、提升服务能力、支撑行业管理等方面的作用;积极参与相关国际标准制定工作.
2017年5月,国务院办公厅发布《政务信息系统整合共享实施方案》(国办发〔2017〕39号),根据《国务院关于印发政务信息资源共享管理暂行办法的通知》(国发〔2016〕51号)、《国务院关于印发"十三五"国家信息化规划的通知》(国发〔2016〕73号)等有关要求制定,明确了加快推进政务信息系统整合共享的"十件大事".
党的十九大报告中重点提到了互联网、大数据和人工智能在现代化经济体系中的作用:"加快建设制造强国,加快发展先进制造业,推动互联网、大数据、人工智能和实体经济深度融合,在中高端消费、创新引领、绿色低碳、共享经济、现代供应链、人力资本服务等领域培育新增长点、形成新动能".
在法规方面,我国大数据立法虽然起步较晚,但随着《民法总则》、《网络安全法》的实施以及后续的配套法律法规建设完善,我国个人信息保护相关制度越发健全.
2007年6月22日公安部、国家保密局、国家密码管理局和国务院信息化工作办公室联合颁布《信息安全等级保护管理办法》.
2012年12月28日全国人民代表大会常务委员会发布《关于加强网络信息保护的决定》,将"能够识别公民个人身份和涉及公民个人隐私的电子信息"纳入73保护范围.
2013年1月21日中华人民共和国国务院发布《征信业管理条例》,对征信业务相关的个人信息的收集、使用、存储、加工作出规定.
2013年7月16日工业和信息化部发布《电信和互联网用户个人信息保护规定》,对电信业务经营者、互联网信息服务提供者收集和使用个人信息作出规定.
2015年8月29日全国人大常委会颁布《中华人民共和国刑法修正案(九)》,将"违反规定,向他人出售或者提供公民个人信息"的行为定性为犯罪行为.
2016年11月7日全国人大常委会颁布《中华人民共和国网络安全法》.
2017年3月15日全国人民代表大会第五次会议通过《中华人民共和国民法总则》,其中第一百一十一条规定,自然人的个人信息受法律保护.
任何组织和个人需要获取他人个人信息的,应当依法取得并确保信息安全,不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息.
2017年5月8日最高人民法院、最高人民检察院发布了《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》.
2009年12月4日,国家广电总局发布了《广播电视安全播出管理规定》(62号令),对广播电视行业的安全播出提出具体要求.
8.
2大数据标准规范大数据领域的标准化工作是支撑大数据产业发展和应用的重要基础,为了推动和规范我国大数据产业快速发展,建立大数据产业链,与国际标准接轨,工业和信息化部成立了国家标准化管理数据专题组、服务大数据专题组,负责大数据领域不同方向的标准化工作.
目前,工作组已发布6项国家标准,即GB/T34945-2017《信息技术数据溯源描述模型》、GB/T34952-2017《多媒体数据语义描述要求》、GB/T35294-2017《信息技术科学数据引用》、GB/T35295-2017《信息技术大数据术语》、GB/T35589-2017《信息技术大数据技术参考模型》、GB/T36073-2018《数据管理能力成熟度评估模型》,此外,还有3项国家标准正在报批阶段,15项国家标准正在研制中.
8.
2.
1已发布的广电行业相关标准规范根据行业大数据业务需求,广电总局近年来制定并发布了相应的大数据标准74规范:GD/J074-2018《电视收视数据元素集规范》、GD/J075-2018《电视收视数据交换接口规范》、GD/J076-2018《电视收视数据清洗规范》等.
8.
2.
2完善广电行业大数据标准体系广播电视大数据标准体系应充分满足广播电视、有线网络、网络视听等领域对大数据应用的需求,明确安全管理机制,确保平台和数据的安全,规范接口标准与数据标准,实现各层、各平台的数据共享、互联互通、资源调配和安全可靠.
根据设计原则和建设思路,广播电视行业大数据平台标准体系包括数据、技术、管理、安全等方面.
1、数据类规范数据类规范是对广电媒体内容与用户服务等数据的相关要素进行明确规定的标准规范.
包括数据资源和数据交换共享两部分,其中数据资源包括元数据、数据元素、数据字典和数据目录等,数据交换共享包括数据交易和数据开放共享相关标准规范.
2、技术类规范规定广播电视行业大数据平台的系统架构、关键功能、技术、产品以及相关接口规范,满足业务需要,实现平台内部以及全国各级平台之间互联互通,例如:系统架构规范、平台功能和技术要求、工具服务接入规范等.
3、安全类规范数据安全和隐私保护作为数据标准体系的重要部分,贯穿于整个数据生命周期的各个阶段.
除了关注传统的数据安全和系统安全外,还应在基础软件安全、交易服务安全、数据分类分级、安全风险控制、电子货币安全、个人信息安全、安全能力成熟度等方向进行规范.
4、管理类规范规定广播电视行业大数据平台运维管理、保障管理等,实现管理的统一化、自动化、规范化,例如:平台运维管理规范、服务测试部署规范等.
8.
3大数据人才培养大数据人才是大数据领域发展的核心资源.
因此,必需加强大数据人才队伍建设,聚焦数字化前沿方向和关键领城,造就一批世界水平的科学家、科技领军75人才、工程师和高水平创新团队.
探索建立海内外结合、产学研融合、区城协同联动的培养模式.
创新海外人才引进政策和管理方式,加强广电大数据技术应用领域国际人才交流培养,激发和保护企业家精神.
要在全国范围内组织开展大数据标准宣贯培训活动,培养掌握大数据标准技术和标准实施方法论的专业人员;鼓励和支持行业协会、高等院校、科研院所设立标准化相关研究机构,大力培育标准化科研人才;编制数据管理能力标准宣贯培训教材,指导第三方机构,依据标准制定数据管理从业人员能力培养和评价方法,形成市场化的从业人员能力培养和评价机制.
769编后语新兴媒体已经深刻改变了媒体格局和舆论生态,直接挑战和冲击传统媒体.
包括广播电视台、广电网络在内,我国广播电视行业整体进入全面转型升级的关键期.
充分运用云计算、大数据、人工智能、移动互联网、物联网等新一代信息技术,加快广播电视媒体融合与服务模式创新关键技术的研发与应用,建立具有创新引领作用的融合媒体技术体系,推动内容生产、传播方式、业务形态、服务模式、产业格局等多方面的创新,是当前面临的重大课题和历史性根本任务.
在这种背景下,大数据技术的应用对于广播电视行业的重要性愈发明显.
本白皮书在充分考虑我国广播电视科技发展、传统媒体与网络视听等新兴媒体融合业务发展以及广播电视行业大数据技术发展的基础上,阐述了广电大数据的发展背景和机遇,研究了广电大数据的特征,分析了媒体内容大数据、用户服务大数据各自的应用场景和需求,重点剖析了大数据采集、预处理、存储管理、分析挖掘等关键技术,提出了广播电视行业大数据技术应用的平台和数据架构,形成了大数据技术平台的建设思路和总体技术框架业务背景和需求.
在此基础上,对大数据技术在广电行业的典型应用进行了总结,并对颇受关注的大数据安全问题提出了解决的思路和策略.
应该看到,我国广播电视行业虽然在大数据技术应用上已经做出了不少探索,并取得初步成效,但平台建设还处在各家分散建设的阶段,大数据平台系统多以孤岛的形式存在,而数据只有在充分流动、共享和交换下才能实现其最大价值.
就此问题,在中共中央政治局就实施国家大数据战略进行第二次集体学习时,中共中央总书记习近平提出,要以数据集中和共享为途径,推动技术融合、业务融合、数据融合,打通信息壁垒,形成覆盖全国、统筹利用、统一接入的数据共享大平台,构建全国信息资源共享体系,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务.
这为广播电视行业建设大数据平台指明了方向.
同时,现阶段我国广播电视行业的大数据技术应用,大多未采用云平台技术架构,也未实现与融合媒体技术平台的高效整合,这种状况既不利于技术资源的统筹共享,更不利于大数据在各个平台之间的共享流动,从而无法形成从数据采77集、整合、分析、执行到反馈的闭环过程.
此外,在大数据技术的应用过程中,对于数据安全、数据保密和用户隐私保护等方面的工作还要进一步加强.
为了更好地推进大数据技术在广播电视行业的应用,通过大数据助力"智慧广电"建设,进一步提高新闻舆论传播力、引导力、影响力和公信力,扩大媒体受众群,提供丰富多样的媒体内容服务,推动广电媒体从广播电视服务主体向现代传媒与综合信息服务主体的转变,广电机构在建设大数据平台时,应当关注以下方面:1、积极推进广电行业数据资源开发与利用,充分运用和拓展行业大数据资源,激活智慧广电生态,发挥好数据的基础资源作用和创新引擎作用,推进形成大数据采集、汇聚、共享和应用机制.
2、以白皮书为指导进行广电大数据平台建设,各级广播电视机构分散建设的大数据应用平台,要符合白皮书的规范要求.
其中,对于新建的大数据应用平台,须以白皮书为指导进行建设;对于已建的大数据应用平台,也须在平台的后期升级中完成自身改造,以符合白皮书提出的标准要求.
3、白皮书列举了多个广电大数据的应用场景和应用范式,随着业务发展和实践推进,还会不断涌现新的应用场景,形成新的典型应用.
各级广播电视机构在推进大数据技术应用时,要与自身业务紧密结合,明确战略目标,对未来业务有较为清晰的分析和判断,在此基础上,制定大数据平台建设的总体规划与实施步骤,实现建设和运营相适应,从而在媒体融合发展中发挥重要作用.
4、各级广播电视机构在建设大数据平台时,应充分考虑利用已建的融合媒体云平台,来建设部署大数据平台,实现资源的高效利用和调度、业务的灵活适配、运行效率的优化提升、运营管理的弹性和运营成本的降低.
5、广电大数据平台的建设中,要积极应对数据汇聚、数据分析等带来的安全问题,按照法律规范要求,建立大数据分类分级安全保护机制,结合数据的敏感程度、数据脱敏与否、数据可用性要求等对大数据资产进行分类分级,采取不同级别的安全防护策略,确保广电大数据管理的安全可控.
大数据的运用将成为未来竞争和增长的基础.
对于广电而言,本身拥有丰富的媒体内容和用户服务大数据资源,做好这些大数据的集中、挖掘、分析、应用,具有极其重要的价值.
希望在白皮书的引导下,各级广电机构、行业内外企业共同努力,积极推进大数据技术在行业的深入应用,推进广电大数据平台的建设,78为广电全面转型升级赋能,努力构建行业发展全新格局.

ftlcloud9元/月,美国云服务器,1G内存/1核/20g硬盘/10M带宽不限/10G防御

ftlcloud(超云)目前正在搞暑假促销,美国圣何塞数据中心的云服务器低至9元/月,系统盘与数据盘分离,支持Windows和Linux,免费防御CC攻击,自带10Gbps的DDoS防御。FTL-超云服务器的主要特色:稳定、安全、弹性、高性能的云端计算服务,快速部署,并且可根据业务需要扩展计算能力,按需付费,节约成本,提高资源的有效利用率。活动地址:https://www.ftlcloud.com...

HostKvm新上联通CUVIP线路VPS,八折优惠后1G内存套餐$5.2/月起

最近上洛杉矶机房联通CUVIP线路主机的商家越来越多了,HostKvm也发来了新节点上线的邮件,适用全场8折优惠码,基于KVM架构,优惠后最低月付5.2美元起。HostKvm是一家成立于2013年的国人主机商,提供基于KVM架构的VPS主机,可选数据中心包括日本、新加坡、韩国、美国、中国香港等多个地区机房,君选择国内直连或优化线路,延迟较低,适合建站或者远程办公等。以洛杉矶CUVIP线路主机为例,...

VoLLcloud(月付低至2.8刀)香港vps大带宽,三网直连

VoLLcloud LLC是一家成立于2020年12月互联网服务提供商企业,于2021年1月份投入云计算应用服务,为广大用户群体提供云服务平台,已经多个数据中心部署云计算中心,其中包括亚洲、美国、欧洲等地区,拥有自己的研发和技术服务团队。现七夕将至,VoLLcloud LLC 推出亚洲地区(香港)所有产品7折优惠,该产品为CMI线路,去程三网163,回程三网CMI线路,默认赠送 2G DDoS/C...

fusioncharts为你推荐
functionscss之路androidOPENCORE苹果引导配置说明第四版-基于支持ipad支持ipadcss下拉菜单css下拉菜单代码itunes备份如何用iTunes备份iPhone卡巴斯基好用吗卡巴斯基 好用吗搜狗浏览器2.2搜狗浏览器下载好之后,准备安装时总是运行不了,确定是搜狗浏览器,上面说不能打开此文件,试了好多回了ios7好用吗苹果ios7怎么样
域名备案 备案域名 踢楼 鲨鱼机 idc测评网 godaddy续费优惠码 建立邮箱 中国网通测速 双12 中国电信测速器 国外的代理服务器 石家庄服务器托管 iki 成都主机托管 免备案cdn加速 googlevoice winserver2008 easypanel 极域网 监控主机 更多