数据探讨重复数据删除技术在中央电台媒资备份存储系统中应用(新闻传媒学范文)

itunes备份在哪  时间:2021-02-27  阅读:()

封面

《探讨重复数据删除技术在中央电台媒资备份存储系统中应用》

Word格式可编辑含目录

精心整理放心阅读欢迎下载

文档信息

探讨重复数据删除技术在中央电台媒资备份存储系统中应用

目录

一、引言

二、数据冗余

三、重复数据删除概念

四、 S48音频文件格式

S48音频格式是指比特率为256k b i t s

1.帧头结构

五、重复数据删除设计思路

1.数据库

2.文件切分

3.方案实施

正文

探讨重复数据删除技术在中央电台媒资备份存储系统中应用探讨重复数据删除技术在中央电台媒资备份存储系统中应用

作者/刘华

一、引言

2012年初 中央电台媒资备份存储系统正式投入使用。经过一年的运行大量的节目内容丰富的历史资料迅速将中央电台媒资备份存储系统填满严重掣肘了节目归档、素材入库等媒资管理工作。近期中央电台完成了媒资备份存储系统在线扩容工作。备份存储的磁盘容量由之前的20T B增加30TB总计达到50T B。短短一年时间磁盘空间需求已经翻番可以预见 中央电台媒资备份存储系统还将面临磁盘空间短缺的问题。面对日益爆炸的数据增长和由此不断上升产生的存储压力难题如何控制和有效降低海量数据显得尤为重要。重复数据删除技术无疑是“瘦身”的一项不错选择。

二、数据冗余

目前 中央电台媒资备份存储系统中存在大量的重复和冗余数据造成数据冗余的原因可能是人为的

·为了确保文件的安全性无意中将同样的文件存储了多份

·不同文件的部分内容重复。

冗余数据占据了大量的存储空间降低了存储空间的利用效率。 图1展示了关于媒资备份存储系统中重复数据的比例、来源和分析。

更重要的是这些大量的冗余数据给媒资备份存储系带来了大量的问题

·占用大量存储空间降低存储利用效率

·增加建设成本

·增加额外数据管理代价。

三、重复数据删除概念

通过相关研究和对实际系统的分析发现在海量数字存储系统中存在大量的重复数据和相似数据。通过重复数据删除技术可以有效去除这些重复数据对相同数据只存储一份和只存储相似数据的不同部分可以有效利用存储空间从而有效降低存储系统成本。

重复数据删除是一种数据缩减技术 旨在最小化文件之间的冗余和重复的无损压缩并对存储容量进行有效优化。它通过删除数据集中重复的数据只保留其中一份从而达到消除冗余数据目的。

目前绝大多数的重复数据删除算法都工作在二进制数据层次上通常使用一些数据切分算法如以整个文件为切分粒度 固定大小的数据切分或者某些H A S H函数如R a b i nFingerprinting算法 将每一个带归档的文件切分成若干相互不重叠的数据片段并把这些数据片段作为逻辑单位进行后续处理和存储操作。在这些数据片段中只有不重复的数据片段才真正存储到存储设备中而其他的重复数据片段只需记录其ID和相应的依赖文件的对应关系即可。

四、 S48音频文件格式

与其他存储系统中元数据的文件类型、文件格式多样化不同 中央电台媒资备份存储系统中的元数据的文件类型、文件格式只有S48格式的音频文件。对于重复数据删除技术而言我们需要熟悉S48文件并针对S48文件特点进行重复数据删除工作。

S48音频格式是指比特率为256k b i t s采样率为48000H z的MPEG1-2格式。

帧是MPEG-1处理的最小单元。每个帧又由

1.帧头结构

帧头长4字节对于固定位率的MP文件所有帧的帧头格式一样其数据结构如下typedef FrameHeader{uigned int syn 11  同步信息uigned int veion 2  版本uigned int layer 2  层uigned int protection 1  CRC校验uigned int bitrate 4  位率

uigned int frequency 2  频率uagned int padding 1  帧长调节uigned int private 1  保留字uigned int mode 2  声道模式uagned int mode exteion 2  扩充模式uigned int copyright 1  版权uigned int original 1  原版标志uigned int emphasis 2  强调模式

}HEADER *LPHEAD ER

帧头4字节使用说明见表1

帧文件尾的最后128个字节用来存放ID3信息这128个字节使用说明见表2。

五、重复数据删除设计思路

重复数据删除的主要思路是通过利用不同层次上的元数据信息如文件类型、文件格式、应用类型和文件系统元数据等来指导数据切分算法将文件划分为更有意义的数据片段。元数据信息分为以下三类

·应用元数据如文件类型、文件格式、应用软件信息等

·应用或用户的标记如用于描述图片、音频、视频等多媒体文件特性的各种标记

·文件系统级元数据如目录条目、文件的INODE信息等。重复数据删除的主要目标是最大限度减小文件之间的重复和冗余数据。对于中央电台媒资备份存储系统而言我们就需要从以下三方面实现“瘦身”

1.数据库

在对数据库进行操作过程中重复的数据可能有这样两种情况第一种是两行记录完全一样第二种是表中只有某些字段一样。

·两行记录完全一样

对于表中两行记录完全一样的情况可以用下面语句获取到去掉重复数据后的记录select distinct * from表名

可以将查询的记录放到暂时表中然后再将原来的表记录删除最初将暂时表的数据导回原来的表中。如下createTABLE暂时表AS selectdistinct*from表名truncatetable正式表

iertinto正式表select*from暂时表droptable暂时表

·表中只有某些字段一样

假如想删除一个表的重复数据可以先建一个暂时表将去掉重复数据后的数据导入到暂时表然后在从暂时表将数据导入正式表中如下iertINTOt_table_bak

selectdistinct*fromt_table;

2.文件切分

重复数据删除对于S48音频文件切分算法的`实现基于以下的观察和思考许多不同的文件有着相同的音频内容和不同的TAG描述信息 即相同的歌曲由同一个歌手演唱但发布在不同专辑或者相同的内容由不同编辑制作这样就有了不同的TA G。因此一般把每个S 48文件划分成三个部分帧头、音频帧、 TAG其中帧头和音频帧被解析和存在元数据服务器数据库的某张表中音频帧作为一个逻辑数据片段存储 以便进一步被打包成物理对象实际存储在磁盘设备上。

具有相同音频的数据内容被切成一个数据片段只需保存其中一份即可。 由于某些HASH函数如Rabin Fingerprinting算法可以捕获到二进制层次上的重复所以若两个数据对象具有相同的内容则

可进一步进行重复数据删除只存不重复的数据对象。 图3展示了上述过程并说明在存储系统中数据组织的层次关系。

3.方案实施

重复数据删除主要是针对大规模存储系统设计其进程可以部署在不同的应用服务器上且可作为核心进程运行。因此其方案需要有较好的可扩展性易于进行数据容灾的部署。

因此在媒资备份存储系统内部署重复删除技术至少需要包括应用服务器文件归档服务器元数据服务器和智能存储节点等四部分组件实现重复数据删除和数据存储。 图4展示存储系统体系结构。

应用服务器为各种应用的宿主服务器如WEB服务器流媒体服务器等部署应用服务端软件。文件归档服务器主要是将文件归档到存储节点 同时部署重复数据删除软件的地方。元数据服务器主要对元数据管理、与应用服务器交互、安全机制的部署等服务。智能存储节点是完全由通用组件 即操作系统、阵列柜、磁带库、文件系统等组成。

对于每个存储文件首先根据其相应的元数据信息被文件归档服务器切分成若干不重叠的数据片段。每一个数据片段将对内容通过某些Hash函数计算得到的签名作为其标识符用以判断当前是否有重复的数据片段存在。不重复的数据片段将被封装成定长的数据对象 由元数据服务器决定将它们存储到对应的智能存储节点中。最后当数据的存储位置信息将会返回到文件归档服务器。文件归档服务器可以与智

月神科技-美国CERA 5折半价倒计时,上新华中100G高防云59起!

官方网站:点击访问月神科技官网优惠码:美国优惠方案:CPU:E5-2696V2,机房:国人热衷的优质 CeraNetworks机房,优惠码:3wuZD43F 【过期时间:5.31,季付年付均可用】活动方案:1、美国机房:洛杉矶CN2-GIA,100%高性能核心:2核CPU内存:2GB硬盘:50GB流量:Unmilited端口:10Mbps架构:KVM折后价:15元/月、150元/年传送:购买链接洛...

pacificrack:VPS降价,SSD价格下降

之前几个月由于CHIA挖矿导致全球固态硬盘的价格疯涨,如今硬盘挖矿基本上已死,硬盘的价格基本上恢复到常规价位,所以,pacificrack决定对全系Cloud server进行价格调整,降幅较大,“如果您是老用户,请通过续费管理或升级套餐,获取同步到最新的定价”。官方网站:https://pacificrack.com支持PayPal、支付宝等方式付款VPS特征:基于KVM虚拟,纯SSD raid...

麻花云:3折优惠,香港CN2安徽麻花云香港安徽移动BGP云服务器(大带宽)

麻花云在7月特意为主机测评用户群定制了促销活动:香港宽频CN2云服务器、安徽移动云服务器(BGP网络,非单线,效果更好)、安徽移动独立服务器、安徽电信独立服务器,全部不限制流量,自带一个IPv4,默认5Gbps的DDoS防御。活动链接:https://www.mhyun.net/act/zjcp特价云服务器不限流量,自带一个IPv4,5Gbps防御香港宽频CN2全固态Ⅲ型 4核4G【KVM】内存:...

itunes备份在哪为你推荐
安装程序配置服务器失败sql安装程序配置服务器失败郭彩妮介紹點好聽的音樂給我、大家淘宝收费淘宝卖东西收多少手续费手游运营手册游戏策划新手应该看那些书籍?站长故事爱迪生的故事在线漏洞检测漏洞扫描工具有哪些中国电信互联星空中国电信宽带于互联星空的区别pw美团网电话是什么pw伪静态伪静态和真静态哪种静态方式好不兼容vivo手机和软件不兼容怎么办?
海外域名 linuxapache虚拟主机 域名交易网 仿牌空间 idc测评网 免备案空间 vmsnap3 evssl证书 标准机柜尺寸 河南服务器 cpanel空间 网络空间租赁 太原网通测速平台 免费网页空间 如何注册阿里云邮箱 yundun dnspod 深圳域名 聚惠网 hosting24 更多