CarbonData:华为开发并支持Hadoop的列式文件格式

华为开发自有系统  时间:2021-04-16  阅读:()
CarbonData是由华为开发、开源并支持ApacheHadoop的列式存储文件格式,支持索引、压缩以及解编码等,其目的是为了实现同一份数据达到多种需求,而且能够实现更快的交互查询.
目前该项目正处于Apache孵化过程中.
为什么重新设计一种文件格式目前华为针对数据的需求分析主要有以下5点要求:1、支持海量数据扫描并取其中几列;2、支持根据主键进行查找,并在压秒级响应;3、支持在海量数据进行类似于OLAP的交互式查询,并且查询中涉及到许多过滤条件,这种类型的workload应该在几秒钟内响应;4、支持快速地抽取单独的记录,并且从该记录中获取到所有列信息;5、支持HDFS,这样客户可以利用现有的Hadoop集群.
目前现有的Hadoop生态系统中没有同时满足这五点要求文件格式.
比如Parquet/ORC的文件仅仅满足第一和第五条要求,而其他的要求无法满足,所以基于这些事实华为开始开发CarbonData.
CarbonData有啥优势CarbonData文件格式是基于列式存储的,并存储在HDFS之上;其包含了现有列式存储文件格式的许多有点,比如:可分割、可压缩、支持复杂数据类型等;并且CarbonData为了解决上面5点要求,加入了许多独特的特性,主要概括为以下四点:1、存储数据及其索引:在有过滤的查询中,它可以显著地加速查询性能,减少I/O和CPU资源.
CarbonData的索引由多级索引组成,处理框架可以利用这些索引信息来减少调度和一些处理的开销;在任务扫描数据的时候它可以仅仅扫描更细粒度的单元(称为blocklet),而不需要扫描整个文件.
2、可操作的编码数据:通过支持高效的压缩和全局编码模式,它可以直接在压缩或者编码的数据上查询,仅仅在需要返回结果的时候才进行转换,这种技术被称为latematerialized.
3、列组:支持多列组成一个列组,并且使用行格式进行存储,这减少了查询时行重建的开销.
4、支持多种使用场景:比如支持类OLAP风格的交互式查询、顺序存取、随机访问等.
CarbonData文件格式一个CarbonData文件是由一系列被称为blocklet组成的;除了blocklet,还有许多其他的元信1/4息,比如模式、偏移量以及索引信息等,这些元信息是存储在CarbonData文件中的footer里.
每当在内存中建立索引的时候都需要读取footer里面的信息,因为可以利用这些信息优化后续所有的查询.
每个blocklet又是由许多DataChunks组成.
DataChunks里面的数据既可以按列或者行的形式存储;数据既可以是单独的一列也可以是许多列.
文件中所有的blocklets都包含相同数量和类型的DataChunks.
CarbonData文件格式如下所示:每个DataChunk又是由许多被称为Pages的单元组成.
总共有三种类型的pages:1、DataPage:包含一列或者列组的编码数据;2/42、RowIDPage:包含行id的映射,在DataPage以反向索引的形式存储时会被使用;3、RLEPage:包含一些额外的元信息,只有在DataPage使用RLE编码的时候会被使用.
CarbonData文件的详细信息如下:编译CarbonData编译CarbonData的预备条件:1、类Unix环境(Linux,MacOSX)2、git3、ApacheMaven(推荐使用3.
0.
4)4、Java7or85、Scala2.
106、ApacheThrift0.
9.
3从github中克隆CarbonData$gitclonehttps://github.
com/HuaweiBigData/carbondata.
git根据自己需求依次选择下面命令编译CarbonData1、Buildwithouttesting$cdcarbondata$mvn-DskipTestscleaninstall3/42、Buildwithtesting:$cdcarbondata$mvncleaninstall3、Buildalongwithintegrationtestcases$cdcarbondata$mvn-Pintegration-testcleaninstall更多关于Carbondata的信息请参见https://github.
com/HuaweiBigData/carbondata本博客文章除特别声明,全部都是原创!
原创文章版权归过往记忆大数据(过往记忆)所有,未经许可不得转载.
本文链接:【】()PoweredbyTCPDF(www.
tcpdf.
org)4/4

Hostodo(年付12美元)斯波坎VPS六六折,美国西海岸机房

Hostodo是一家成立于2014年的国外VPS主机商,现在主要提供基于KVM架构的VPS主机,美国三个地区机房:拉斯维加斯、迈阿密和斯波坎,采用NVMe或者SSD磁盘,支持支付宝、PayPal、加密货币等付款方式。商家最近对于上架不久的斯波坎机房SSD硬盘VPS主机提供66折优惠码,适用于1GB或者以上内存套餐年付,最低每年12美元起。下面列出几款套餐配置信息。CPU:1core内存:256MB...

VPSMS:53元/月KVM-512MB/15G SSD/1TB/洛杉矶CN2 GIA

VPSMS最近在做两周年活动,加上双十一也不久了,商家针对美国洛杉矶CN2 GIA线路VPS主机提供月付6.8折,季付6.2折优惠码,同时活动期间充值800元送150元。这是一家由港人和国人合资开办的VPS主机商,提供基于KVM架构的VPS主机,美国洛杉矶安畅的机器,线路方面电信联通CN2 GIA,移动直连,国内访问速度不错。下面分享几款VPS主机配置信息。CPU:1core内存:512MB硬盘:...

Vultr VPS韩国首尔机房速度和综合性能参数测试

Vultr 商家有新增韩国首尔机房,这个是继日本、新加坡之后的第三个亚洲机房。不过可以大概率知道肯定不是直连中国机房的,因为早期的日本机房有过直连后来取消的。今天准备体验看看VULTR VPS主机商的韩国首尔机房的云服务器的速度和性能。1、全球节点PING速度测试这里先通过PING测试工具看看全球几十个节点的PING速度。看到好像移动速度还不错。2、路由去程测试测试看看VULTR韩国首尔机房的节点...

华为开发自有系统为你推荐
phpcms模板phpcms为什么PHPCMS就是不能出一套好看的默认模板企业ssl证书公司购买SSL证书需要提交什么资料?一般要多久才能拿到证书googleprGoogle PR的值是6.这个是什么意思?重庆杨家坪猪肉摊主杀人在毫无预兆的情况下,对方激情杀人(持械偷袭)——作为习武者,你该怎么办?滴滴估值500亿开滴滴怎么才能月入一万,平均一天400纯收入,求指点爱优网为什么优酷土豆等视频网站那么多人上传视频95188是什么电话95188是什么号码我刚收到短信是什么支付宝的验证码即时通民生银行即时通是什么?网站方案设计网站文案策划怎么写三五互联股票三五互联是干什么的?
深圳网站空间 本网站服务器在美国维护 12306抢票攻略 美国php主机 私有云存储 150邮箱 好看qq空间 建立邮箱 已备案删除域名 可外链网盘 gtt 台湾谷歌 国外视频网站有哪些 360云服务 谷歌台湾 lamp的音标 酸酸乳 后门 hostease 七十九刀 更多