数据探讨重复数据删除技术在中央电台媒资备份存储系统中应用(新闻传媒学范文)

itunes备份在哪  时间:2021-02-27  阅读:()

封面

《探讨重复数据删除技术在中央电台媒资备份存储系统中应用》

Word格式可编辑含目录

精心整理放心阅读欢迎下载

文档信息

探讨重复数据删除技术在中央电台媒资备份存储系统中应用

目录

一、引言

二、数据冗余

三、重复数据删除概念

四、 S48音频文件格式

S48音频格式是指比特率为256k b i t s

1.帧头结构

五、重复数据删除设计思路

1.数据库

2.文件切分

3.方案实施

正文

探讨重复数据删除技术在中央电台媒资备份存储系统中应用探讨重复数据删除技术在中央电台媒资备份存储系统中应用

作者/刘华

一、引言

2012年初 中央电台媒资备份存储系统正式投入使用。经过一年的运行大量的节目内容丰富的历史资料迅速将中央电台媒资备份存储系统填满严重掣肘了节目归档、素材入库等媒资管理工作。近期中央电台完成了媒资备份存储系统在线扩容工作。备份存储的磁盘容量由之前的20T B增加30TB总计达到50T B。短短一年时间磁盘空间需求已经翻番可以预见 中央电台媒资备份存储系统还将面临磁盘空间短缺的问题。面对日益爆炸的数据增长和由此不断上升产生的存储压力难题如何控制和有效降低海量数据显得尤为重要。重复数据删除技术无疑是“瘦身”的一项不错选择。

二、数据冗余

目前 中央电台媒资备份存储系统中存在大量的重复和冗余数据造成数据冗余的原因可能是人为的

·为了确保文件的安全性无意中将同样的文件存储了多份

·不同文件的部分内容重复。

冗余数据占据了大量的存储空间降低了存储空间的利用效率。 图1展示了关于媒资备份存储系统中重复数据的比例、来源和分析。

更重要的是这些大量的冗余数据给媒资备份存储系带来了大量的问题

·占用大量存储空间降低存储利用效率

·增加建设成本

·增加额外数据管理代价。

三、重复数据删除概念

通过相关研究和对实际系统的分析发现在海量数字存储系统中存在大量的重复数据和相似数据。通过重复数据删除技术可以有效去除这些重复数据对相同数据只存储一份和只存储相似数据的不同部分可以有效利用存储空间从而有效降低存储系统成本。

重复数据删除是一种数据缩减技术 旨在最小化文件之间的冗余和重复的无损压缩并对存储容量进行有效优化。它通过删除数据集中重复的数据只保留其中一份从而达到消除冗余数据目的。

目前绝大多数的重复数据删除算法都工作在二进制数据层次上通常使用一些数据切分算法如以整个文件为切分粒度 固定大小的数据切分或者某些H A S H函数如R a b i nFingerprinting算法 将每一个带归档的文件切分成若干相互不重叠的数据片段并把这些数据片段作为逻辑单位进行后续处理和存储操作。在这些数据片段中只有不重复的数据片段才真正存储到存储设备中而其他的重复数据片段只需记录其ID和相应的依赖文件的对应关系即可。

四、 S48音频文件格式

与其他存储系统中元数据的文件类型、文件格式多样化不同 中央电台媒资备份存储系统中的元数据的文件类型、文件格式只有S48格式的音频文件。对于重复数据删除技术而言我们需要熟悉S48文件并针对S48文件特点进行重复数据删除工作。

S48音频格式是指比特率为256k b i t s采样率为48000H z的MPEG1-2格式。

帧是MPEG-1处理的最小单元。每个帧又由

1.帧头结构

帧头长4字节对于固定位率的MP文件所有帧的帧头格式一样其数据结构如下typedef FrameHeader{uigned int syn 11  同步信息uigned int veion 2  版本uigned int layer 2  层uigned int protection 1  CRC校验uigned int bitrate 4  位率

uigned int frequency 2  频率uagned int padding 1  帧长调节uigned int private 1  保留字uigned int mode 2  声道模式uagned int mode exteion 2  扩充模式uigned int copyright 1  版权uigned int original 1  原版标志uigned int emphasis 2  强调模式

}HEADER *LPHEAD ER

帧头4字节使用说明见表1

帧文件尾的最后128个字节用来存放ID3信息这128个字节使用说明见表2。

五、重复数据删除设计思路

重复数据删除的主要思路是通过利用不同层次上的元数据信息如文件类型、文件格式、应用类型和文件系统元数据等来指导数据切分算法将文件划分为更有意义的数据片段。元数据信息分为以下三类

·应用元数据如文件类型、文件格式、应用软件信息等

·应用或用户的标记如用于描述图片、音频、视频等多媒体文件特性的各种标记

·文件系统级元数据如目录条目、文件的INODE信息等。重复数据删除的主要目标是最大限度减小文件之间的重复和冗余数据。对于中央电台媒资备份存储系统而言我们就需要从以下三方面实现“瘦身”

1.数据库

在对数据库进行操作过程中重复的数据可能有这样两种情况第一种是两行记录完全一样第二种是表中只有某些字段一样。

·两行记录完全一样

对于表中两行记录完全一样的情况可以用下面语句获取到去掉重复数据后的记录select distinct * from表名

可以将查询的记录放到暂时表中然后再将原来的表记录删除最初将暂时表的数据导回原来的表中。如下createTABLE暂时表AS selectdistinct*from表名truncatetable正式表

iertinto正式表select*from暂时表droptable暂时表

·表中只有某些字段一样

假如想删除一个表的重复数据可以先建一个暂时表将去掉重复数据后的数据导入到暂时表然后在从暂时表将数据导入正式表中如下iertINTOt_table_bak

selectdistinct*fromt_table;

2.文件切分

重复数据删除对于S48音频文件切分算法的`实现基于以下的观察和思考许多不同的文件有着相同的音频内容和不同的TAG描述信息 即相同的歌曲由同一个歌手演唱但发布在不同专辑或者相同的内容由不同编辑制作这样就有了不同的TA G。因此一般把每个S 48文件划分成三个部分帧头、音频帧、 TAG其中帧头和音频帧被解析和存在元数据服务器数据库的某张表中音频帧作为一个逻辑数据片段存储 以便进一步被打包成物理对象实际存储在磁盘设备上。

具有相同音频的数据内容被切成一个数据片段只需保存其中一份即可。 由于某些HASH函数如Rabin Fingerprinting算法可以捕获到二进制层次上的重复所以若两个数据对象具有相同的内容则

可进一步进行重复数据删除只存不重复的数据对象。 图3展示了上述过程并说明在存储系统中数据组织的层次关系。

3.方案实施

重复数据删除主要是针对大规模存储系统设计其进程可以部署在不同的应用服务器上且可作为核心进程运行。因此其方案需要有较好的可扩展性易于进行数据容灾的部署。

因此在媒资备份存储系统内部署重复删除技术至少需要包括应用服务器文件归档服务器元数据服务器和智能存储节点等四部分组件实现重复数据删除和数据存储。 图4展示存储系统体系结构。

应用服务器为各种应用的宿主服务器如WEB服务器流媒体服务器等部署应用服务端软件。文件归档服务器主要是将文件归档到存储节点 同时部署重复数据删除软件的地方。元数据服务器主要对元数据管理、与应用服务器交互、安全机制的部署等服务。智能存储节点是完全由通用组件 即操作系统、阵列柜、磁带库、文件系统等组成。

对于每个存储文件首先根据其相应的元数据信息被文件归档服务器切分成若干不重叠的数据片段。每一个数据片段将对内容通过某些Hash函数计算得到的签名作为其标识符用以判断当前是否有重复的数据片段存在。不重复的数据片段将被封装成定长的数据对象 由元数据服务器决定将它们存储到对应的智能存储节点中。最后当数据的存储位置信息将会返回到文件归档服务器。文件归档服务器可以与智

香港ceranetworks(69元/月) 2核2G 50G硬盘 20M 50M 100M 不限流量

香港ceranetworks提速啦是成立于2012年的十分老牌的一个商家这次给大家评测的是 香港ceranetworks 8核16G 100M 这款产品 提速啦老板真的是豪气每次都给高配我测试 不像别的商家每次就给1核1G,废话不多说开始跑脚本。香港ceranetworks 2核2G 50G硬盘20M 69元/月30M 99元/月50M 219元/月100M 519元/月香港ceranetwork...

香港最便宜的vps要多少钱?最便宜的香港vps能用吗?

香港最便宜的vps要多少钱?最便宜的香港vps能用吗?香港vps无需备案,整体性能好,而且租用价格便宜,使用灵活,因为备受站长喜爱。无论是个人还是企业建站,都比较倾向于选择香港VPS。最便宜的香港vps能用吗?正因为有着诸多租用优势,香港VPS在业内颇受欢迎,租用需求量也在日益攀升。那么,对于新手用户来说,香港最便宜的vps租用有四大要点是务必要注意的,还有易探云香港vps租用最便宜的月付仅18元...

ZJI:520元/月香港服务器-2*E5-2630L/32GB/480G SSD/30M带宽/2IP

ZJI发布了一款7月份特别促销独立服务器:香港邦联四型,提供65折优惠码,限量30台(每用户限购1台),优惠后每月520元起。ZJI是原来Wordpress圈知名主机商家:维翔主机,成立于2011年,2018年9月启用新域名ZJI,提供中国香港、台湾、日本、美国独立服务器(自营/数据中心直营)租用及VDS、虚拟主机空间、域名注册等业务。下面列出这款服务器的配置信息。香港邦联四型CPU:2*E5-2...

itunes备份在哪为你推荐
fontfamily这是什么字体,求解.. font-family: PahuengaCassRegular;明星论坛www.51.com是一个关于什么的网站?如何免费开通黄钻怎样才能免费开通黄钻邮箱打不开怎么办126邮箱打不开怎么办在线代理网站求有效的代理服务器地址?qq怎么发邮件怎么发送QQ邮件数据库损坏数据库坏了怎么办xp系统停止服务XP系统停止服务后电脑怎么办?idc前线永恒之塔内侧 删档吗 ?怎么上传音乐怎么上传音乐到网上
国内最好的虚拟主机 如何查询ip地址 星星海 windows主机 好看qq空间 大容量存储器 服务器维护方案 hkg 亚马逊香港官网 傲盾官网 网站在线扫描 512mb godaddyssl forwarder 什么是dns 优惠服务器 e-mail 压力测试工具 神棍节 极域网 更多