数据整合

更新时间:2023-08-13 01:28

数据整合是把在不同数据源的数据收集整理、清洗,转换后(有点像ETL)加载到一个新的数据源,为数据消费者提供统一数据视图数据集成方式。

基本概念

数据整合是共享或者合并来自于两个或者更多应用的数据,创建一个具有更多功能的企业应用的过程。传统的商业应用有很强的面向对象性——即他们依靠持续的数据结构为商业实体和过程建模。当这种情况发生时,逻辑方式是通过数据共享或合并进行整合,而其他情况下,来自于一个应用的数据可能是重新构造才能和另一个应用的数据结构匹配,然后被直接写进另一个数据库

数据整合工具

比较成熟稳定的产品有:KettleInformaticaDatastage、ODI ,OWB、微软DTS、HaoheDI、Teradata

如何选择数据整合工具?一般来说需要考虑以下几个方面:

(1)对平台的支持程度。

(2)对数据源的支持程度。

(3)抽取和装载的性能是不是较高,且对业务系统的性能影响大不大,倾入性高不高。

(4)数据转换和加工的功能强不强。

(5)是否具有管理和调度功能。

(6)是否具有良好的集成性和开放性

必要性

数据和信息系统分散

我国信息化经过多年的发展,已开发了众多计算机信息系统数据库系统,并积累了大量的基础数据。然而,丰富的数据资源由于建设时期不同,开发部门不同、使用设备不同、技术发展阶段不同和能力水平的不同等,数据存储管理极为分散,造成了过量的数据冗余和数据不一致性,使得数据资源难于查询访问,管理层无法获得有效的决策数据支持。往往管理者要了解所管辖不同部门的信息,需要进入众多不同的系统,而且数据不能直接比较分析。

信息资源利用程度较低

一些信息系统集成度低、互联性差、信息管理分散,数据的完整性、准确性、及时性等方面存在较大差距。有些单位已经建立了内部网和互联网,但多年来分散开发或引进的信息系统,对于大量的数据不能提供一个统一的数据接口,不能采用一种通用的标准和规范,无法获得共享通用的数据源,于是不同的应用系统之间必然会形成彼此隔离的信息孤岛。缺乏共享的、网络化的可用度高的信息资源体系。

支持管理决策能力较低

同时,随着计算机业务数量的增加,管理人员的操作也越来越多,越来越复杂,许多日趋复杂的中间业务处理环节依然或多或少地依靠手工处理进行流转;信息加工分析手段差,无法直接从各级各类业务信息系统采集数据并加以综合利用,无法对外部信息进行及时、准确的收集反馈,业务系统产生的大量数据无法提炼升华为有用的信息,并及时提供给管理决策部门;已有的业务信息系统平台及开发工具互不兼容,无法在大范围内应用等。

数据的共享度达不到单位对信息资源的整体开发利用的要求。简单的应用多,交叉重复也多,能支持管理和决策的应用少,能利用网络开展经营活动的应用更少。数据中蕴藏着巨大信息资源,但是没有通过有效工具充分挖掘利用,信息资源的增值作用还没有在管理决策过程中充分发挥。

数据整合的优点

1.底层数据结构的透明:为数据访问(消费应用)提供了统一的接口,消费应用无需知道:数据在哪里保存、源数据库支持那种方式的访问(XQuery,SQL)、数据的物理结构网络协议等。

2.性能和扩展性:数据整合把数据集成和数据访问分成了两个过程,因此访问时数据已经处于准备好的状态。

3.提供真正的单一数据视图,数据视图data view这个概念大家很容易理解, 数据整合的优势是经过了数据校验和数据清理,你看到的数据更加真实、准确、可靠。

4.可重用性好:由于有了实际的物理存储,数据可以为各种应用提供可重用的数据视图,而不用担心底层实际的数据源的可用性。

5.数据管控能力加强:管控是SOA里面重要的概念。数据整合的优势是数据规则可以在数据加载,转换中实施,保证了数据管控。

数据整合方案

多数据库整合方案

多数数据库整合方案通过对各个数据源的数据交换格式进行一一映射,从而实现数据的流通与共享。

对于有全局统一模式的多数据库系统,用户可以通过局部外模式访问本地库,通过建立局部概念模式、全局概念模式、全局外模式,用户可以访问集成系统中的其他数据库;对于联邦式数据库系统,各局部数据库通过定义输入、输出模式,进行各联邦式数据库系统之间的数据访问。

基于异构数据源系统的数据整合有多种方式,所采用的体系结构也各不相同,但其最终目的是相同的,即实现数据的流通共享。

数据仓库整合方案

数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。从数据仓库的建立过程来看,数据仓库是一种面向主题的整合方案,因此首先应该根据具体的主题进行建模,然后根据数据模型和需求从多个数据源加载数据。由于不同数据源的数据结构可能不同,因而在加载数据之前要进行数据转换和数据整合,使得加载的数据统一到需要的数据模型下,即根据匹配、留存等规则,实现多种数据类型的关联。这种方式的主要问题是当数据更新频繁时会导致数据的不同步,即使定时运行转换程序也只能达到短期同步,这种整合方案不适用于数据更新频繁并且实时性要求很高的场合。

中间件整合方案

中间件是位于Client与Server之间的中介接口软件,是异构系统集成所需的黏结剂。现有的数据库中间件允许Client在异构数据库上调用SQL服务,解决异构数据库的互操作性问题。功能完善的数据库中间件,可以对用户屏蔽数据的分布地点、DBMS平台、特殊的本地API等等差异。

Web Services整合方案

Web Services可理解为自包含的、模块化的应用程序,它可以在网络中被描述、发布、查找以及调用;也可以把Web Services理解为是基于网络的、分布式的模块化组件,它执行特定的任务,遵守具体的技术规范,这些规范使得Web Services能与其他兼容的组件进行互操作。当把应用扩展到广域网时,传统的DCOM模型就不能完全满足分布式应用的要求:一是DCOM在进行网间数据传递时一般采用Socket套接字,要求开放特定的端口,这会给带防火墙的网络带来安全隐患,二是DCOM进行远程对象调用使用的协议是远程过程调用(RPC),这使得基于DCOM的构件无法与其他组件模型的构件进行相互的调用。Web Services对DCOM和CORBA的缺陷进行了改进,使用基于TCP/IP的应用层协议(如HTTP、SMTP等),可以很好地解决穿越防火墙的问题;更重要的是各种组件模型都可以将数据包装成SOAP,通过SOAP进行相互调用。

主数据管理整合方案

主数据管理通过一组规则、流程、技术和解决方案,实现对企业数据一致性、完整性、相关性和精确性的有效管理,从而为所有企业相关用户提供准确一致的数据。

主数据管理不是新技术,它的核心其实就是对于数据的管理,只不过应用了先进的理论方法作为指导。主数据管理提供了一种方法,通过此方法可以从现有系统中获取最新信息,并结合各类先进的技术和流程,使得用户可以准确、及时地分发和分析整个企业中的数据,并对数据进行有效性验证。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}