数据探讨重复数据删除技术在中央电台媒资备份存储系统中应用(新闻传媒学范文)

itunes备份在哪  时间:2021-02-27  阅读:()

封面

《探讨重复数据删除技术在中央电台媒资备份存储系统中应用》

Word格式可编辑含目录

精心整理放心阅读欢迎下载

文档信息

探讨重复数据删除技术在中央电台媒资备份存储系统中应用

目录

一、引言

二、数据冗余

三、重复数据删除概念

四、 S48音频文件格式

S48音频格式是指比特率为256k b i t s

1.帧头结构

五、重复数据删除设计思路

1.数据库

2.文件切分

3.方案实施

正文

探讨重复数据删除技术在中央电台媒资备份存储系统中应用探讨重复数据删除技术在中央电台媒资备份存储系统中应用

作者/刘华

一、引言

2012年初 中央电台媒资备份存储系统正式投入使用。经过一年的运行大量的节目内容丰富的历史资料迅速将中央电台媒资备份存储系统填满严重掣肘了节目归档、素材入库等媒资管理工作。近期中央电台完成了媒资备份存储系统在线扩容工作。备份存储的磁盘容量由之前的20T B增加30TB总计达到50T B。短短一年时间磁盘空间需求已经翻番可以预见 中央电台媒资备份存储系统还将面临磁盘空间短缺的问题。面对日益爆炸的数据增长和由此不断上升产生的存储压力难题如何控制和有效降低海量数据显得尤为重要。重复数据删除技术无疑是“瘦身”的一项不错选择。

二、数据冗余

目前 中央电台媒资备份存储系统中存在大量的重复和冗余数据造成数据冗余的原因可能是人为的

·为了确保文件的安全性无意中将同样的文件存储了多份

·不同文件的部分内容重复。

冗余数据占据了大量的存储空间降低了存储空间的利用效率。 图1展示了关于媒资备份存储系统中重复数据的比例、来源和分析。

更重要的是这些大量的冗余数据给媒资备份存储系带来了大量的问题

·占用大量存储空间降低存储利用效率

·增加建设成本

·增加额外数据管理代价。

三、重复数据删除概念

通过相关研究和对实际系统的分析发现在海量数字存储系统中存在大量的重复数据和相似数据。通过重复数据删除技术可以有效去除这些重复数据对相同数据只存储一份和只存储相似数据的不同部分可以有效利用存储空间从而有效降低存储系统成本。

重复数据删除是一种数据缩减技术 旨在最小化文件之间的冗余和重复的无损压缩并对存储容量进行有效优化。它通过删除数据集中重复的数据只保留其中一份从而达到消除冗余数据目的。

目前绝大多数的重复数据删除算法都工作在二进制数据层次上通常使用一些数据切分算法如以整个文件为切分粒度 固定大小的数据切分或者某些H A S H函数如R a b i nFingerprinting算法 将每一个带归档的文件切分成若干相互不重叠的数据片段并把这些数据片段作为逻辑单位进行后续处理和存储操作。在这些数据片段中只有不重复的数据片段才真正存储到存储设备中而其他的重复数据片段只需记录其ID和相应的依赖文件的对应关系即可。

四、 S48音频文件格式

与其他存储系统中元数据的文件类型、文件格式多样化不同 中央电台媒资备份存储系统中的元数据的文件类型、文件格式只有S48格式的音频文件。对于重复数据删除技术而言我们需要熟悉S48文件并针对S48文件特点进行重复数据删除工作。

S48音频格式是指比特率为256k b i t s采样率为48000H z的MPEG1-2格式。

帧是MPEG-1处理的最小单元。每个帧又由

1.帧头结构

帧头长4字节对于固定位率的MP文件所有帧的帧头格式一样其数据结构如下typedef FrameHeader{uigned int syn 11  同步信息uigned int veion 2  版本uigned int layer 2  层uigned int protection 1  CRC校验uigned int bitrate 4  位率

uigned int frequency 2  频率uagned int padding 1  帧长调节uigned int private 1  保留字uigned int mode 2  声道模式uagned int mode exteion 2  扩充模式uigned int copyright 1  版权uigned int original 1  原版标志uigned int emphasis 2  强调模式

}HEADER *LPHEAD ER

帧头4字节使用说明见表1

帧文件尾的最后128个字节用来存放ID3信息这128个字节使用说明见表2。

五、重复数据删除设计思路

重复数据删除的主要思路是通过利用不同层次上的元数据信息如文件类型、文件格式、应用类型和文件系统元数据等来指导数据切分算法将文件划分为更有意义的数据片段。元数据信息分为以下三类

·应用元数据如文件类型、文件格式、应用软件信息等

·应用或用户的标记如用于描述图片、音频、视频等多媒体文件特性的各种标记

·文件系统级元数据如目录条目、文件的INODE信息等。重复数据删除的主要目标是最大限度减小文件之间的重复和冗余数据。对于中央电台媒资备份存储系统而言我们就需要从以下三方面实现“瘦身”

1.数据库

在对数据库进行操作过程中重复的数据可能有这样两种情况第一种是两行记录完全一样第二种是表中只有某些字段一样。

·两行记录完全一样

对于表中两行记录完全一样的情况可以用下面语句获取到去掉重复数据后的记录select distinct * from表名

可以将查询的记录放到暂时表中然后再将原来的表记录删除最初将暂时表的数据导回原来的表中。如下createTABLE暂时表AS selectdistinct*from表名truncatetable正式表

iertinto正式表select*from暂时表droptable暂时表

·表中只有某些字段一样

假如想删除一个表的重复数据可以先建一个暂时表将去掉重复数据后的数据导入到暂时表然后在从暂时表将数据导入正式表中如下iertINTOt_table_bak

selectdistinct*fromt_table;

2.文件切分

重复数据删除对于S48音频文件切分算法的`实现基于以下的观察和思考许多不同的文件有着相同的音频内容和不同的TAG描述信息 即相同的歌曲由同一个歌手演唱但发布在不同专辑或者相同的内容由不同编辑制作这样就有了不同的TA G。因此一般把每个S 48文件划分成三个部分帧头、音频帧、 TAG其中帧头和音频帧被解析和存在元数据服务器数据库的某张表中音频帧作为一个逻辑数据片段存储 以便进一步被打包成物理对象实际存储在磁盘设备上。

具有相同音频的数据内容被切成一个数据片段只需保存其中一份即可。 由于某些HASH函数如Rabin Fingerprinting算法可以捕获到二进制层次上的重复所以若两个数据对象具有相同的内容则

可进一步进行重复数据删除只存不重复的数据对象。 图3展示了上述过程并说明在存储系统中数据组织的层次关系。

3.方案实施

重复数据删除主要是针对大规模存储系统设计其进程可以部署在不同的应用服务器上且可作为核心进程运行。因此其方案需要有较好的可扩展性易于进行数据容灾的部署。

因此在媒资备份存储系统内部署重复删除技术至少需要包括应用服务器文件归档服务器元数据服务器和智能存储节点等四部分组件实现重复数据删除和数据存储。 图4展示存储系统体系结构。

应用服务器为各种应用的宿主服务器如WEB服务器流媒体服务器等部署应用服务端软件。文件归档服务器主要是将文件归档到存储节点 同时部署重复数据删除软件的地方。元数据服务器主要对元数据管理、与应用服务器交互、安全机制的部署等服务。智能存储节点是完全由通用组件 即操作系统、阵列柜、磁带库、文件系统等组成。

对于每个存储文件首先根据其相应的元数据信息被文件归档服务器切分成若干不重叠的数据片段。每一个数据片段将对内容通过某些Hash函数计算得到的签名作为其标识符用以判断当前是否有重复的数据片段存在。不重复的数据片段将被封装成定长的数据对象 由元数据服务器决定将它们存储到对应的智能存储节点中。最后当数据的存储位置信息将会返回到文件归档服务器。文件归档服务器可以与智

SoftShellWeb:台湾(台北)VPS年付49美元起,荷兰VPS年付24美元起

SoftShellWeb是一家2019年成立的国外主机商,商家在英格兰注册,提供的产品包括虚拟主机和VPS,其中VPS基于KVM架构,采用SSD硬盘,提供IPv4+IPv6,可选美国(圣何塞)、荷兰(阿姆斯特丹)和台湾(台北)等机房。商家近期推出台湾和荷兰年付特价VPS主机,其中台湾VPS最低年付49美元,荷兰VPS年付24美元起。台湾VPSCPU:1core内存:2GB硬盘:20GB SSD流量...

ParkInHost - 俄罗斯VPS主机 抗投诉 55折,月付2.75欧元起

ParkInHost主机商是首次介绍到的主机商,这个商家是2013年的印度主机商,隶属于印度DiggDigital公司,主营业务有俄罗斯、荷兰、德国等机房的抗投诉虚拟主机、VPS主机和独立服务器。也看到商家的数据中心还有中国香港和美国、法国等,不过香港机房肯定不是直连的。根据曾经对于抗投诉外贸主机的了解,虽然ParkInHost以无视DMCA的抗投诉VPS和抗投诉服务器,但是,我们还是要做好数据备...

VirtVPS抗投诉瑞士VPS上线10美元/月

专心做抗投诉服务器的VirtVPS上线瑞士机房,看中的就是瑞士对隐私的保护,有需要欧洲抗投诉VPS的朋友不要错过了。VirtVPS这次上新的瑞士服务器采用E-2276G处理器,Windows/Linux操作系统可选。VirtVPS成立于2018年,主营荷兰、芬兰、德国、英国机房的离岸虚拟主机托管、VPS、独立服务器、游戏服务器和外汇服务器业务。VirtVPS 提供世界上最全面的安全、完全受保护和私...

itunes备份在哪为你推荐
查看端口在电脑上怎么查看端口天府热线劲舞团 四川 天府热线 在哪改密码?选择大区怎么没天府?博客外链博客和博客之间怎么建超级链接中国论坛大全中国十大网站是?百度抢票浏览器百度浏览器怎么抢票?公章制作如何用photoshop制作公章pw美团网电话是什么pw唱吧电脑版官方下载电脑怎么安装唱吧,要能用的,请教教程,谢谢vbscript教程vbs 学习方法以及 vbs 实例 有编程基础ios系统ios系统的手机有哪些?
网站空间商 lamp wavecom 美国仿牌空间 mobaxterm tightvnc 国外免费空间 河南移动梦网 阿里云手机官网 徐州电信 重庆服务器 好看的空间 SmartAXMT800 亿库 godaddy退款 月付空间 asp.net虚拟主机 瓦工招聘 国内免备案cdn 长沙服务器托管 更多