数据私有云存储

私有云存储  时间:2021-01-06  阅读:()
2015年第60卷第5-6期:439~444www.
scichina.
comcsb.
scichina.
com引用格式:陈刚.
科学研究大数据挑战.
科学通报,2015,60:439–444ChenG.
Challengesofbigdatainscienceresearches(inChinese).
ChinSciBull,2015,60:439–444,doi:10.
1360/N972014-00855《中国科学》杂志社SCIENCECHINAPRESS专辑:大数据研究与应用观点科学研究大数据挑战陈刚中国科学院高能物理研究所,北京100049E-mail:Gang.
Chen@ihep.
ac.
cn2014-10-10收稿,2014-11-28接受,2015-01-21网络版发表摘要现代科学研究的一个重要模式就是大科学项目,其特点是大科学装置和合作,并产生海量的科研数据.
数据密集型的大科学项目对数据的采集、存储、分发和处理有着巨大的需求.
本文以大科学项目为案例讨论了科研大数据在数据采集、处理、存储以及网络等方面的挑战,以及相应的应对方法.
其中,国际上的高能物理实验每年产生数十拍字节(PB)的数据,这些数据需要妥善地记录和保存下来,并高效地分发到世界各地进行分析处理.
高能物理学家基于网格技术合作建立了大数据处理的WLCG网格平台,该平台成功地支持了大型强子对撞机实验数据的处理和分析,同时也支持了其他大科学项目,取得很好的效果.
另外,为了解决对数据的高效存储和访问,新的存储技术和网络技术,如软件定义网络和云存储等,被开发应用到科学大数据中.
最后还介绍了云计算技术在科研大数据中的应用.
关键词大科学装置大数据高能物理信息化数据存储网格计算云计算进入21世纪后,科学研究过程中获取的数据量出现急剧的增长,这些数据采集自科学实验装置、探测设备、传感器以及计算机的计算过程.
以欧洲核子中心的大型强子对撞机LHC(theLargeHadronCol-lider,http://cern.
ch/lhc)为例,LHC上的4个主要实验每秒钟采集到的数据达到PB(1PB=106GB)级.
2012年底LHC停机进行升级维护,随着LHC升级维护的完成,2015年初重新运行以后,产生的数据量将进一步大幅增长(particlephysicstamesbigdata,http://www.
symmetrymagazine.
org/article/august-2012/particle-physics-tames-big-data).
其他大规模国际合作科研项目,如基因测序、天文及空间科学都在产生数以十拍字节计的数据.
这些海量数据对信息化支撑技术,如数据获取、存储、共享和分析等提出巨大的挑战.
另一方面,大科学装置和大科学研究项目意味着跨国家跨地域的国际合作,这样的大科学项目需要将实验数据收集和存储起来,并通过高速网络分发给处于不同国家或机构的合作者.
这对高速网络提出了巨大挑战.
科学家依靠以网格技术、云技术为代表的分布式计算技术以及协同工作环境,实现数据、软件、计算等资源的共享,促进科学成果的快速产出.
信息化技术和大数据技术的发展正在对现代科学研究产生深远的影响.
1大科学项目案例LHC是欧洲核子中心(CERN)的一个大型强子对撞机.
包括来自中国科学院高能物理研究所等中国科研机构和大学在内的全世界近万名科学家参加LHC的4个主要实验.
这4个实验包括ALICE(http://aliceinfo.
cern.
ch),ATLAS(http://www.
atlas.
ch),CMS(http://cms.
web.
cern.
ch/news/what-cms),LHCb(http://lhcb.
web.
cern.
ch/lhcb/)(图1).
其中,大型离子对撞机实验ALICE(ALargeIonColliderExperiment)主要进行重离子(特别是铅核)对撞的研究.
超环面探测器ATLAS(AToroidalLHCApparatuS)最主要的实验目标之一是发现标准模型的一个尚未证实的粒子——希格斯粒子CMS(CompactMuonSystem),即紧凑型缪子螺旋磁场探测器.
CMS的主要目的也是寻找2015年2月第60卷第5-6期440希格斯粒子.
LHCb(theLargeHadronColliderbeautyexperiment)是LHC上的第4个重要实验,即大型强子对撞机底夸克实验,它的主要物理目标是测量在强子中的CP破坏和新物理.
LHC实验还将研究和寻找反物质、暗物质、暗能量以及超对称粒子等.
LHC对撞机的4个实验于2009年投入运行,每年产生并最终记录下来的原始数据达到数十拍字节.
截止到2012年底,LHC已经积累了超过200PB的数据.
2013年LHC实验数据分析结果证实发现了希格斯粒子,从而为高能物理的研究开辟了新的天地.
为了利用LHC探索更多新的物理基本规律,解答更多物理未解之谜,2013~2014年欧洲核子中心对LHC对撞机及实验装置进行升级改造,2015年初恢复运行.
2018年还将进行一次升级改造.
每次升级都会大大提高数据产生的速度.
LHC实验将运行20年以上,累积的实验数据需要进行分析处理,这对信息化系统是一个巨大的挑战.
物理学家需要寻找新的数据获取、数据存储、数据处理、数据传输技术应对这种挑战.
新一代北京正负电子对撞机(BEPCII)是运行在2.
0~4.
6GeV质心能量区间的大型高能物理实验装置.
BEPCII的实验探测器叫作北京谱仪BESIII(BESIIIwebsite,http://bes3.
ihep.
ac.
cn).
BESIII的物理目标包括轻强子谱测量、粲素研究、粲介子的电弱作用物理、量子色动力学和强子物理、粲物理研究以及新物理探索.
2008年运行以来,BESIII实验已经积累了超过5PB的数据.
因此未来几年中,BESIII的数据规模将达到10PB以上.
BESIII实验的数据分析并不会随着数据采集的结束而结束,实验数据的生命期至少达15年以上.
BESIII合作组共有近400名来自世界各国的科学家参与,因此需要建立一个国际化分布式的计算环境为数据处理提供支撑.
巡天观测(skysurvey)是天文科学的大科学工程,其科学目标是利用望远镜测量和采集天空的数据建立3D的宇宙影像,从而用来研究类星体、星系分布、银河系内恒星的性质、暗物质、暗能量等等.
巡天观测由一系列天文观测项目组成,目前正在运行的泛星计划Pan-STARRS(Pan-STARRS,http://pan-starrs.
ifa.
hawaii.
edu/public/)每个月可对全天空进行4次观测,每晚产生的数据达10TB.
泛星计划将积累40PB的数据.
下一代更大的巡天计划称为大型综合巡天望远镜LSST(LargeSynopticSurveyTelescope,http://www.
lsst.
org/lsst/),是一个广视野巡天反射望远镜.
LSST每晚产生数据的达30TB,未来10年中将产生100PB的数据.
基因研究是产生科研大数据的另一个重要领域.
随着基因测序的成本大幅降低,基因数据的增长速度比任何其他科研领域都要快.
深圳华大基因是世界上最大的基因测序机构,华大基因分别在中国大陆、亚太地区、日本、美国及欧洲都设立了基因研究机构,其每天进行的基因测序相当2000个人基因,产生的数据超过6TB.
2大数据挑战及应对从以上的例子可以看出,数据密集型科学研究产生越来越多的数据,科学大数据对数据采集、数据处理、数据保存、数据共享等提出了巨大的挑战.
图1(网络版彩色)LHC的4个主要实验:ALICE,ATLAS,CMS和LHCbFigure1(Coloronline)ThefourexperimentsonLHC,ALICE,ATLAS,CMSandLHCb441观点首先,大科学装置的数据采集存在巨大的挑战.
持续增长的数据产生速度和数据规模需要有效的工具对数据进行采集和过滤,通过高速网络把数据保存下来,同时不能丢失有价值的数据.
事实上实验产生的数据往往只有一小部分是有价值的,大部分数据所包含的科学信息可能已经被人们很好地了解了,这些数据没有保留的价值.
即使所有数据都有科学价值,受数据记录速度和存储资源规模局限性的限制,快速产生的数据来不及完整地记录和保存下来.
例如,大型强子对撞机LHC上的每个实验装置都有数亿个数据采集传感器,每秒钟产生的数据高达1PB.
目前最快的计算机系统也很难将这些数据记录下来.
北京谱仪BESIII也有同样的问题.
高能物理实验采用一种复杂的判选系统对采集到的数据进行筛选[1],将物理学家感兴趣的数据保留下来.
判选过程分成两步,第一步叫做"一级触发",采用专用电子学硬件设备对数据进行快速地判选,选择那些有可能有科学价值的数据并触发缓存机制将数据暂存起来.
第二步叫做"高级触发",对经过"一级触发"暂存下来的数据进一步判选,选出确实有科学价值的数据永久保存起来,用于后续的科学研究.
由于"一级触发"判选留下的数据量已经大大减少,"高级触发"系统就有更多的时间对数据的细节进行仔细地分析,判选出真正有针对性价值的数据,从而使数据量降低到能够接受的水平.
根据实验的规模不同,"高级触发"还可以再分成若干级,例如ATLAS实验通过三级触发使数据率从每秒1PB降低到每秒320MB左右.
去除对撞机和实验装置的维护时间,ATLAS这样的实验每年积累的数据达3~5PB.
而LHC的4个实验每年采集的数据达到15~25PB.
科学大数据对计算机技术的第2个挑战是数据分析处理系统.
从一定程度上来说,科学实验和科学研究能否成功依赖于计算技术.
实验采集到的数据需要强大的计算系统对其进行分析处理,以便获得科学结果.
用于数据分析处理的系统常叫作离线计算平台.
不同的数据结构和数据处理任务采用不同的计算模式.
生物技术、大气科学、地质科学等计算一般采用紧耦合计算机的高性能计算(highperformancecomputing,HPC)模式.
高能物理等领域的数据处理采用的是(分布式)松耦合计算机的高吞吐计算(highthroughputcomputing,HTC)模式.
过去十多年来,高能物理领域成功地采用网格技术部署了跨地域的分布式高吞吐率计算平台用于数据分析和处理,这个网格系统叫做LHC网格,即WLCG(worldwideLHCcomputinggrid,http://wlcg.
web.
cern.
ch).
WLCG的首要目标是为LHC实验建立一个强大的分布式计算平台,但同时也可以为其他高能物理和非高能物理领域的科学计算提供支撑.
WLCG采用了分级式平台结构(图2),由不同规模的零级(Tier-0)到三级网格站点(Tier-3)组成.
WLCG网格使LHC的每个实验能够利用该系统的存储和计算资源,将实验数据和计算任务智能化的分发到世界各地的网格站点,实现数据的分析处理.
所有的科研合作人员能够通过网格平台透明的访问数据和计算结果.
目前WLCG由世界上约200个网格站点组成,总共装备了25万余个CPU的计算资源,每年完成近30亿CPU小时的计算任务,为LHC实验的数据分析处理提供了不可或缺的支撑.
2006年中国科学院高能物理研究所与欧洲粒子物理中心签署了WLCG合作协议,承诺建立WLCG北京二级网格站点,搭建了由1000余个CPU核及640TB存储资源组成的计算和存储环境,部署了网格计算平台并加入WLCG.
该网格站点同时支持ATLAS和CMS两个实验.
多年来,WLCG北京站点的运行水平一直处于国际先进水平,每年提供1000多万CPU小时的计算服务,处理的数据达数拍字节,有力地支持了ATLAS和CMS实验的数据处理和计算.
中国科学院高能物理研究所因能为Higgs粒子的发现等重大物理成果作出贡献而感到自豪.
图2WLCG网格体系结构Figure2ThestructureofWLCG2015年2月第60卷第5-6期442科学大数据的第3个挑战是数据存储.
数据存储和管理是科学计算最关键的任务.
大量的数据不仅需要妥善地保存,同时还需要能提供高效的访问服务.
数据规模的增加使得数据的读取和移动变得越来越困难.
因此对于大科学装置的数据存储管理,除了需要解决容量问题外,还需要解决吞吐性能、响应速度的可扩展性以及运行成本等问题.
高能物理等大科学装置常根据应用需求自主搭建存储系统,这种系统能够很好地满足不断增长的容量和性能需求.
例如,北京谱仪BESIII实验根据数据规模的预期和数据处理计算任务的特点建立了一套由分级存储系统和并行文件系统两部分组成的存储系统.
BESIII分级存储系统由磁带库和磁盘池以及自主研发的GRASS(Grid-enabledAdvancedStorageSystem)[2]存储管理系统等3部分组成[3].
分级存储系统提供高性价比的大规模海量数据的在线和近线存储服务.
并行文件系统采用改良的Lustre文件系统(Lustre,http://zh.
wikipedia.
org/wiki/Lustre),提供高并发数据访问服务,并发访问性能达到40GB/s以上.
分级存储结合并行文件系统组成的存储系统较好地解决了建设成本与性能的平衡.
随着新的高能物理数据的规模进一步扩大,世界各国的高能物理实验室也在寻找新的存储技术和存储方案,应对新的数据挑战.
近几年出现的云存储是解决存储可扩展性的有希望的方案.
云存储采用分布式存储架构,数据被存储在各自独立的存储单元上,数据的读写相互之间不影响,从而提高了性能的可扩展性.
另一方面,云存储系统内部副本机制提供了更好的容错性和读取性能.
但是,如何将云存储应用到大科学项目仍存在许多需要研究的问题.
商业的云存储服务商提供的存储服务往往灵活性有局限,用户能购买到的通常仅仅是存储容量.
科学应用不仅关心存储容量,同时对服务质量(QoS)、读写带宽、可靠性、可用性以及针对应用的数据访问优化等有更高的要求.
因此服务提供商需要考虑提供更灵活的可定制的云存储服务.
另一方面,科学研究应用也在利用云存储技术建立自己的私有云存储系统,从而最大限度地满足应用的需求.
中国科学院高能物理研究所开发的云存储系统Mucura[4]不仅提供传统的云存储服务,同时提供高能物理数据处理应用的通用接口,使高能物理数据处理软件能够直接访问云存储系统.
该系统已经开始为BESIII等实验提供服务.
这种私有云存储系统很有可能成为未来科研大数据存储服务的重要解决方案之一.
科学大数据的第4个挑战是网络数据共享.
大科学项目产生的数据量巨大,这些数据不可能由一个计算中心或数据中心进行处理.
大科学项目的跨地域合作机制需要将数据分发到合作单位,实现数据的共享和分担数据处理的任务.
前面提到,LHC实验采用分级式的网格站点(即分布式的数据中心或计算中心)作为数据处理平台.
这些网格站点采用1~100Gbps的高速网络相连(LHCONE,http://lhcone.
web.
cern.
ch/).
位于CERN的零级站点(Tier-0)向全世界的12个一级站点(Tier-1)分发数据,近200个二级站点(Tier-2)再从一级站点接收数据,二级站点之间也可以互相传输数据.
这样一个大规模的网络每秒钟传输的数据保持在10GB的规模.
大数据传输不仅需要网络带宽的保障,同时还需要网络服务的可靠性和新功能的保障.
以高能物理网格平台WLCG为例,分布式网格站点之间需要连续不断的网络连接,当广域网链路出现故障或性能下降时应该能快速地找到更好的替代链路.
中国科学院高能物理研究所正在建设高能物理数据传输虚拟专用网(ChineseHighEnergyPhysicsDataTransferNetwork,CHEPDTN),该专用网采用软件定义网络(SDN,http://en.
wikipedia.
org/wiki/Software-defined_networking)技术,利用点到点之间多条可用的网络基础设施(设备)和资源(IPv4和IPv6带宽),选择最佳性能的链路,实现跨地域的高能物理实验合作单位之间的高速、稳定、安全的高能物理数据传输.
科研大数据处理需要计算平台提供持续的服务,当一个计算中心出现某种硬件或软件故障并需要一定的时间进行恢复时,理想的情况是将该计算中心已经在运行的数据处理任务迁移到另一个计算中心去.
这需要迁移整个计算环境的场景,其中的关键是迁移所有的网络环境和配置.
由于许多网络环境与公用IP地址(publicIPaddress)相关,理想的情况是将公用IP地址一起进行迁移.
目前公用IP地址的迁移可以在一个子网内实现,而在跨子网的环境还不能实现.
未来在IPv6网络希望能实现这一功能,从而实现科学计算任务的灵活迁移.
3云计算云计算是近几年出现的一种新型商业计算平台,443观点云计算系统由大型虚拟服务器资源池组成,为用户提供租赁服务.
云计算平台面向实时计算需求,适用于虚拟机的快速部署,可根据用户需求的改变做出快速相应.
云平台通过虚拟化手段提供易用的web接口,方便应用的部署.
但是云计算缺少面向应用特征的协同支撑,更适合于商业应用.
在计算作业的效率、网络瓶颈以及使用成本等方面专用计算平台仍然优于商业云计算平台.
到目前为止科学计算还不能大规模地部署在商业云平台上.
但是这并不意味着云计算不适合于科学计算.
高能物理领域正在通过私有云技术降低传统计算平台的运行和使用成本,通过网格技术与云技术的结合,最大限度地发挥计算资源的效能.
中国科学院高能物理研究所计算中心结合虚拟化技术、网格计算以及志愿计算等技术,建立了BESIII弹性云计算平台(图3),利用该平台,用户可以将BESIII计算任务分布到合作单位的计算系统,还将任务分发到互联网上的志愿者个人计算机上运行.
对于BESIII的用户来说,仍使用原有的作业提交方式,而不用关心作业被分发到本地集群、WLCG网格站点或者中国国家网格CNGrid站点(中国国家网格,http://www.
cngrid.
org/)上、还是个人计算机上执行.
BESIII弹性云已经部署在国内外七个计算中心,每天可以完成约2000个计算任务.
这种弹性云图3(网络版彩色)BESIII弹性云架构Figure3(Coloronline)BESIIIelasticcloudinfrastructure将成为BESIII的一种新的计算平台模式.
4结论本文简要介绍了大科学项目案例和相应的大数据挑战及应对方法.
随着新一代更大规模的科学装置和科学项目的出现,我们将面临更大的数据挑战.
科学数据是科学研究的根本,大数据将不断推动信息技术的发展,包括计算技术、存储技术、网络技术等等.
新的信息化技术将更好地支撑科学研究以及整个社会.
参考文献1SidotiA.
TheATLAStriggersystem:Performanceandevolution,nuclearinstrumentsandmethodsinphysicsresearchsectionA:Accel-erators,spectrometers,detectorsandassociatedequipment.
In:Proceedingsofthe12thPisaMeetingonAdvancedDetectors,LaBiodola,2012,718:251–2522HuangQL,ZhuSJ,ChengYD,etal.
ThedesignanddevelopmentofGRASSfilereservationsystem(inChinese).
NuclElectronDetectTechnol,2011,31:969–972[黄秋兰,朱随江,程耀东,等.
GRASS文件预留系统的设计与实现.
核电子学与探测技术,2011,31:969–972]3WangL,ShiJY,ChengYD.
ABESclusterstoragesystembasedonLustre(inChinese).
NuclElectron&DetectTechnol.
2010,30:1574–1578[汪璐,石京燕,程耀东.
基于Lustre的BES集群存储系统.
核电子学与探测技术,2010,30:1574–1578]4HernandezF,WuW,DuR,etal.
Mucura:Yourpersonalfilerepositoryinthecloud.
JPhysConfSer,2012,396:0320562015年2月第60卷第5-6期444ChallengesofbigdatainscienceresearchesCHENGangInstituteofHighEnergyPhysics,ChineseAcademyofSciences,Beijing100049,ChinaNewscientificstudiesaremovingintotheeraofbigsciencewithlargefacilitiesandglobalcollaborations.
Largeamountsofdataarebeingproducedfromlargeresearchfacilities,generatingchallengesregardingdatacollection,processing,storing,anddistributing.
Thisstudydiscussessomeofthedatachallengesfacinglargescientificresearchprojectsandthepracticestomeetsuchchallenges.
High-energyphysicsisonesuchresearchareageneratingtensofpetabytesofdataperyear.
Thedataofhigh-energyphysicsexperimentsshouldbeproperlycollected,securelystored,anddistributedtoandprocessedinlaboratoriesaroundtheworld.
Thehigh-energyphysicscommunityhasdevelopedtheWorldwideLHCComputingGrid(WLCG)system,whichsuccessfullysupportsdataprocessingandanalysisforLargeHadronColliderexperiments.
TheWLCGalsosuccessfullysupportsmanyotherscientificdisciplines.
Newtechnologiesbasedonsoftware-definednetworksandcloudstoragehavebeendevelopedtoprovidenewservicesindatamanagement.
Thefinalsectionofthepaperdiscussestheapplicationofcloudcomputinginsciencecomputing.
largefacility,bigdata,highenergyphysics,e-infrastructure,datastorage,gridcomputing,cloudcomputingdoi:10.
1360/N972014-00855

v5server:香港+美国机房,优质CN2网络云服务器,7折优惠,低至35元/月

v5net当前对香港和美国机房的走优质BGP+CN2网络的云服务器进行7折终身优惠促销,每个客户进线使用优惠码一次,额外有不限使用次数的终身9折优惠一枚!V5.NET Server提供的都是高端网络线路的机器,特别优化接驳全世界骨干网络,适合远程办公、跨境贸易、网站建设等用途。 官方网站:https://v5.net/cloud.html 7折优惠码:new,仅限新客户,每人仅限使用一次 9...

HostSlim,双E5-2620v2/4x 1TB SATA大硬盘,荷兰服务器60美元月

hostslim美国独立日活动正在进行中,针对一款大硬盘荷兰专用服务器:双E5-2620v2/4x 1TB SATA硬盘,活动价60美元月。HostSlim荷兰服务器允许大人内容,不过只支持电汇、信用卡和比特币付款,商家支持7天内退款保证,有需要欧洲服务器的可以入手试试,记得注册的时候选择中国,这样不用交20%的税。hostslim怎么样?HostSlim是一家成立于2008年的荷兰托管服务器商,...

青云互联:美国洛杉矶CN2弹性云限时八折,15元/月起,可选Windows/可自定义配置

青云互联怎么样?青云互联是一家成立于2020年6月的主机服务商,致力于为用户提供高性价比稳定快速的主机托管服务,目前提供有美国免费主机、香港主机、香港服务器、美国云服务器,让您的网站高速、稳定运行。美国cn2弹性云主机限时8折起,可选1-20个IP,仅15元/月起,附8折优惠码使用!点击进入:青云互联官方网站地址青云互联优惠码:八折优惠码:ltY8sHMh (续费同价)青云互联活动方案:美国洛杉矶...

私有云存储为你推荐
中文域名注册查询如何注册中文域名?请问个人怎样注册中文域名。cn的,个人注册别人公司的可以吗?违法吗?或者怎样才能注册免费国内空间谁知道国内哪个免费空间好,要1GB的美国vps租用如何选择国外vps服务器?空间域名服务器和空间域名什么意思海外域名什么叫海外域名?免费域名空间可绑域名的免费空间深圳网站空间深圳宝安网站设计,深圳网站空间,哪里做的最好???100m虚拟主机万网和新网虚拟主机有100M的吗1g虚拟主机我要做一个下载资料类网站,刚买了一个虚拟主机1G的,提供商说一次,只能上传一个小于10M的文件大连虚拟主机大连哪些地方的网通机房好?
域名注册查询 二级域名查询 域名主机管理系统 域名备案批量查询 申请免费域名 新秒杀 cpanel 大容量存储器 工作站服务器 tna官网 美国在线代理服务器 彩虹云 根服务器 四川电信商城 云营销系统 英雄联盟台服官网 国外网页代理 免备案cdn加速 asp空间 winserver2008r2 更多