—79—基于银行数据仓库的元数据管理系统谢福成,王备战,史亮,姜青山(厦门大学软件学院,厦门361005)摘要:元数据在银行数据仓库中具有重要意义.
讨论元数据的分类和作用,分析元数据的管理功能,给出一种基于银行数据仓库的元数据管理系统,对其结构进行分析和说明.
实践结果表明,该系统可以加強对数据的分析和管理能力,提高银行数据仓库等决策系统的灵活性和可扩展性.
关键词:元数据;元数据管理;数据仓库MetadataManagementSystemBasedonBankDataWarehouseXIEFu-cheng,WANGBei-zhan,SHILiang,JIANGQing-shan(SoftwareSchool,XiamenUniversity,Xiamen361005)【Abstract】Metadataplaysanimportantroleinbankdatawarehouse.
Thispaperdiscussesthecategoriesandfunctionsofmetadata,andanalyzesthemanagementfunctionofmetadata.
Itpresentsametadatamanagesystembasedonbankdatawarehouse,analyzesandillustratesitsstructure.
Applicationresultsshowthatthissystemcanincreasetheabilityofdataanalysisandmanagement,andimprovetheflexibilityandexpansibilityofthedecisionsystemsuchasbankdatawarehouse.
【Keywords】metadata;metadatamanagement;datawarehouse计算机工程ComputerEngineering第35卷第9期Vol.
35No.
92009年5月May2009·软件技术与数据库·文章编号:1000—3428(2009)09—0079—03文献标识码:A中图分类号:TP3911概述随着金融国际化速度的加快,各商业银行间的竞争日趋激烈.
各大银行建立了自己的数据仓库应用平台,用于加强经营管理和决策支持,并更好地了解客户需求,从而开发新产品或服务,以提高竞争力.
数据仓库平台能对大量业务信息进行快速的综合处理与分析,提升业务运作效率和客户服务水平,增加赢利能力,并在特定业务领域提供差异化服务.
银行数据仓库的元数据是银行数据仓库实现的基础,它规范了银行数据仓库中的数据来源、数据抽取和转换规则以及目标数据模式等,有利于数据仓库数据的管理、使用和共享.
通过对银行数据仓库元数据进行密集型集成和管理,可以建立真正支持数据挖掘分析处理的银行数据仓库.
可见,元数据管理对于银行数据仓库而言具有重要意义[1].
本文研究银行数据仓库元数据技术,从系统开发实践角度出发,结合具体项目开发经验,设计并实现一个基于银行数据仓库的元数据管理系统.
2银行数据仓库元数据2.
1银行数据仓库元数据的概念元数据是关于数据的数据,即描述流程、信息和对象的数据.
银行数据仓库元数据是关于银行业务数据和技术数据的数据,用来描述银行数据仓库中的主题信息、外部数据源和非结构化信息、物理和逻辑数据模型、数据的抽取和转换规则、数据的粒度和分割定义、数据和质量的管理方式以及其他相关业务数据信息.
它主要包括建立银行数据仓库过程中的数据需求、模型设计和ETL操作等环节产生的文件类数据(如Excel文件)、数据类数据(如数据模型)、业务主题类数据、IT操作类数据、数据接口类数据、业务过程指标类数据和其他类数据[2].
2.
2银行数据仓库元数据的分类由于不同领域、不同行业对元数据的研究角度不同,因此其分类相同,例如,按抽象层次分类可以分为概念元数据、逻辑元数据和物理元数据;按来源分类可以分为工具元数据、资源元数据和外来元数据.
在银行数据仓库环境下,根据元数据用途及其针对使用角色的不同,可以分为技术元数据和业务元数据.
技术元数据面向技术开发人员,是技术开发、系统维护和改进的基础,主要包括文件类元数据、数据类元数据(主要指物理模型)、IT操作类元数据和数据接口类元数据4个部分.
业务元数据面向业务分析人员,是对数据和处理规则的业务化描述,主要包括数据类元数据(主要指逻辑模型)、过程和指标类元数据、报表类元数据和业务主题管理类元数据4个部分.
2.
3银行数据仓库元数据的作用银行数据仓库元数据能有效帮助技术人员和业务人员理解、监督和管理数据来源、业务主题以及转换规则、数据变更和单元调度等信息,从而提高开发工作效率,保证银行数据仓库能高效准确地建立和运作,其作用可以归纳为以下4个方面[3]:(1)集中式的元数据管理模式能有效提高技术开发人员和数据分析人员对数据库开发和数据分析使用的效率.
(2)提供良好的元数据查询管理应用界面,可以使业务人基金项目:国家自然科学基金资助项目"高维数据聚类的数学模型及其在反垃圾邮件中的应用"(10771176)作者简介:谢福成(1983-),男,硕士,主研方向:数据仓库,元数据;王备战,教授、博士;史亮,副教授、博士;姜青山,教授、博士收稿日期:2008-11-18E-mail:mianbao1983@gmail.
com—80—员独立准确地定位和使用数据仓库中的有效信息.
(3)提出元数据管理组织、元数据管理的标准和流程,准确定义元数据范围,设置相关管理工作的人员,进而保证商业银行数据仓库系统中元数据的完整性和正确性.
(4)能有效支持商业银行IT系统的维护和需求改进,促进不同IT系统间的数据交换.
3银行数据仓库元数据系统的设计3.
1元数据管理系统的体系结构元数据系统管理平台的建立使技术人员、业务人员和其他相关人员可以统一对银行数据仓库系统中各类元数据进行管理和监督.
本文结合CWM(CommonWarehouseMetamodel)规范[4],采用3层J2EE体系架构设计该系统,全部程序可以无缝地在不同应用平台间进行移植,整体分为3个部分:桥接器,元数据存储和前端界面.
桥接器通过加载程序和MDS(MetaDataSystem)知识库进行会话.
界面通过HTTP方式与数据库进行连接.
元数据管理系统的体系结构如图1所示.
图1元数据管理系统的体系结构元数据管理系统体系结构描述如下:(1)桥接器(适配器).
又称元数据采集部分,其主要功能是使用不同桥接器对数据库类、映射类、模型类等元数据进行抽取、转换并加载到MDS知识库中.
数据库桥接器用来从不同数据库中读取指定数据库表的字典信息,并将其转换成相应的元数据信息,存放在元数据库中.
字典信息包括每个物理表的详细信息,如数据库名称、表名称、字段名称、字段类型、字段说明、是否主键、是否为空等特征.
它通过页面触发的形式,由系统自动访问数据仓库系统,读取数据库类元数据,并加载到元数据管理系统的数据库.
与之前版本的元数据进行自动比对,生成元数据差异统计报告,供元数据管理员检查核对并发布.
BTEQ桥接器用于解析各种用来处理数据转换规则的脚本,如Teradata数据转换脚本等.
解析器能从脚本中抽取各种数据转换关系,包括转换算法、转换路径等,并存入元数据库相关信息表中.
此桥接器使用JavaCC语法解析器作为核心解析框架,通过替换SQL语法定义,能支持解析多种数据库厂商ETL转换工具对应的脚本.
在解析过程中,脚本解析器会把不符合规范的脚本写入日志.
模型桥接器主要完成从模型工具生成的源文件,例如,从ERWin工具导出的XML文件中解析出模型实体和关联关系信息,并转换成元数据库中的元数据信息.
在解析模型文件前,解析器会对文件有效性进行统一检查,不符合检查规则的模型文件将在日志中给出报告.
数据映射桥接器主要负责把人工编写的数据映射文档导入到元数据存储库,或从数据仓库生产环境的ETL脚本抽取数据映射关系到元数据存储库.
该类元数据信息主要包括类元数据,如任务名、任务描述、目标表描述、目标字段赋值描述、源表描述等信息.
其他桥接器主要包括BI工具桥接器和XML工具桥接器.
BI工具桥接器用来从不同数据库中读取指定数据库表的字典信息,并转换成相应元数据信息,存放在元数据库中.
XML桥接器用来解析符合一定模版的XML文件.
(2)MDS知识库存储部分.
设计合理的元数据存储结构,整合并存储来自各种渠道的元数据信息,如数据库类元数据、模型类元数据等.
汇总到存储部分的元数据信息首先会被分成技术和业务2大类信息,然后依据不同使用主题进行组织和细分,以提高后期元数据查询和分析等应用的效率.
(3)数据应用部分.
实现信息地图、查询搜索、变更管理、综合分析、血缘分析和影响性分析等功能应用.
元数据变更是对有变化的元数据进行修订,对新的元数据进行采集或抽取,即完成各类元数据的增加、修改、禁用,具体可以分为个别变更和批量变更2类.
血缘分析是通过血缘分析图对异常数据进行分析,查出问题的具体所在.
影像性分析是提供由某个或某几个元模型变更影响的完整对象列表,它与血缘分析相反.
3.
2元数据管理系统的功能框架元数据管理系统的功能框架包括数据源层、元数据获取层、元数据存储层、元数据服务接口层、元数据管理层和元数据应用层6个主要部分[5],如图2所示.
图2元数据管理系统的功能框架元数据获取层将涉及的各子系统的元数据经过元数据桥接器导入到元模型中,元数据服务接口可以通过数据访问接口返回元数据中的数据内容,并生成其他数据系统需要的数据字典或提供其他应用的访问接口.
元数据应用层提供元数据浏览、查询、分析的用户界面,提供与ETL系统、数据质量管理系统的数据交换机制.
对各层的说明如下:(1)元数据源层.
元数据源层包括银行数据仓库涉及的数据仓库产品、数据挖掘工具、建立数据仓库过程中所需的数据信息(如ERWin文件、Excel文件)等.
(2)元数据获取层.
实现元数据源中各个系统的元数据抽取.
元数据桥接器通过符合双方约定规范的接口或各个产品—81—提供的特定接口实现元数据的抽取,并把抽取出的元数据存入元数据存储部分中的元数据库.
(3)元数据存储层.
实现元数据的存储,存储的元数据包括业务元数据和技术元数据,元数据按模型主题组织.
存储库的逻辑模型设计须兼顾效率和模型的可扩展性与灵活性.
(4)元数据管理层.
由元数据管理和系统管理2个部分构成.
元数据管理实现元数据的更新管理、同步管理、版本管理等功能.
系统管理实现用户管理、权限管理、日志管理、备份与恢复等功能.
一些元数据管理部分的功能需要人工或半人工操作.
(5)元数据服务接口层.
包括元数据对外的访问接口,包括ETL、DQM、OA系统或其他系统的服务接口,这些系统通过元数据服务接口部分访问元数据存储部分的元数据.
该部分为其他用户或系统使用元数据提供了扩展方式.
(6)元数据应用层.
提供元数据管理、技术、业务用户的访问.
该部分实现元数据查询、元数据浏览、元数据分析等基本功能模块.
3.
3元数据管理系统的物理结构本文中的元数据管理系统采用B/S架构,它运行在数据库服务器平台、应用服务器平台和用户终端平台上.
普通技术用户和业务用户通过浏览器访问Web服务器.
元数据管理系统的物理结构如图3所示.
图3元数据管理系统的物理结构对元数据管理系统各个平台说明如下:(1)数据库服务器平台.
实现元数据存储功能,数据库服务器上保存MDS引擎的数据库和其他相关数据库.
(2)应用服务器平台.
实现元数据应用和元数据服务接口功能,在Web服务器上安装Web应用服务器和其他相关软件.
(3)用户终端平台.
实现元数据获取和元数据管理功能,是元数据使用人员的工作终端.
4结束语元数据贯穿银行数据仓库系统中的各个环节,如数据抽取、转换和存储等.
实现系统的各个处理单元由元数据驱动.
因此,必须实施元数据的集中管理,提供一个集中的元数据全局视图,从而有效控制银行数据仓库系统重要信息数据的组成和转换,更好地管理数据仓库.
近年来,数据质量控制的要求越来越高,使元数据管理的重要性更突出.
本文提出的元数据管理系统在设计和实现过程中遵循J2EE的设计模式,具有良好的可扩展性和可维护性.
参考文献[1]ArunS.
MetadataManagement:Past,Present,Future[J].
ScienceDirectDecisionSupportSystems,2004,37(1):151-173.
[2]MissierP,AlperP,Corcho.
RequirementsandServicesforMetadataManagement[J].
IEEEInternetComputing,2007,11(5):17-25.
[3]王强,刘东波,王建新.
数据仓库元数据标准研究[J].
计算机工程,2002,28(12):123-125.
[4]OMG.
CommonWarehouseMetamodelSpecificationVersion1.
1[S/OL].
(2003-03-02).
http://www.
omg.
org/docs/formal/03-03-02.
pdf.
[5]杨鸿宾,宋明.
元数据管理平台总体架构设计研究[J].
计算机系统应用,2007,(11):17-20.
编辑陈晖(上接第78页)0.
00.
51.
01.
52.
02.
53.
03.
54.
048121620242830客户端装载的GIS数据块数量本文方法原有方法图5地图分块的平均处理时间6结束语为了提高移动GIS服务的响应速度,实现基于查询服务的渐近计算,本文提出一种逻辑数据结构,讨论相关数据模式和处理方法.
下一步工作主要包括数据的高效索引和缓冲管理,以支持快速分块操作并提高查询处理的效率,从而提高移动GIS服务组合的整体效率.
参考文献[1]SaalfeldA.
TopologicallyConsistentLineSimplificationwiththeDouglas-peuckerAlgorithm[J].
CartographyandGIS,1999,26(1):7-18.
[2]WongEYC.
EfficientManagementofXMLContentsoverWirelessEnvironmentbyXstream[C]//Proceedingsofthe19thACMSymposiumonAppliedComputing.
Nicosia,Cyprus:ACMPress,2004:1122-1127.
[3]蔡海尼,谢军,文俊浩,等.
基于XML的地理数据集成研究及应用[J].
计算机工程,2008,34(15):77-79.
[4]ButtenfieldBP.
TransmittingVectorGeospatialDataAcrosstheInternet[C]//ProceedingsofConf.
onGIScience.
Berlin,Germany:Springer-Verlag,2002:51-64.
[5]ZhouMin,BertolottoM.
ADataStructureforEfficientTransmissionofGeneralisedVectorMaps[C]//Proc.
ofInternationalConferenceonComputationalScience.
Kraków,Poland:[s.
n.
],2004:948-955.
编辑陈晖
ucloud香港服务器优惠降价活动开始了!此前,ucloud官方全球云大促活动的香港云服务器一度上涨至2核4G配置752元/年,2031元/3年。让很多想购买ucloud香港云服务器的新用户望而却步!不过,目前,ucloud官方下调了香港服务器价格,此前2核4G香港云服务器752元/年,现在降至358元/年,968元/3年,价格降了快一半了!UCloud活动路子和阿里云、腾讯云不同,活动一步到位,...
justhost怎么样?justhost服务器好不好?JustHost是一家成立于2006年的俄罗斯服务器提供商,支持支付宝付款,服务器价格便宜,200Mbps大带宽不限流量,支持免费更换5次IP,支持控制面板自由切换机房,目前JustHost有俄罗斯6个机房可以自由切换选择,最重要的还是价格真的特别便宜,最低只需要87卢布/月,约8.5元/月起!总体来说,性价比很高,性价比不错,有需要的朋友可以...
最近主机参考拿到了一台恒创科技的美国VPS云服务器测试机器,那具体恒创科技美国云服务器性能到底怎么样呢?主机参考进行了一番VPS测评,大家可以参考一下,总体来说还是非常不错的,是值得购买的。非常适用于稳定建站业务需求。恒创科技服务器怎么样?恒创科技服务器好不好?henghost怎么样?henghost值不值得购买?SonderCloud服务器好不好?恒创科技henghost值不值得购买?恒创科技是...
web应用服务器为你推荐
网络域名注册怎么才能申请一个网站?申请到域名以后需要怎么做?服务器空间租用租用空间租用服务器一样吗.net虚拟主机哪里有支持net4.0的虚拟主机linux主机linux主机有什么区别?求答案代理主机什么叫做代理服务器?有什么用途?免费vps服务器免费服务器有哪些免费vps服务器有没有便宜的vps,最好是免费的免费vps服务器请推荐一个免费的云服务器?网站空间商网站备案为什么是空间商备案?求解手机网站空间谁有上手机网站刷空间人气的网址
godaddy域名解析 ipage linode日本 oneasiahost inmotionhosting gitcafe 免费网络电视 云鼎网络 怎么测试下载速度 免费防火墙 最好的qq空间 vip域名 www789 广州虚拟主机 阿里云邮箱登陆地址 阿里云邮箱申请 香港ip 镇江高防服务器 windowssever2008 web是什么意思 更多