Informatica 数据质量控制方法 · 三个基于角色的工具 — Informatica...

16
白皮书 Informatica 数据质量控制方法 一种可实现普遍深入的数据质量控制的框架 —— 通过业务部门与 IT 部门之间更为有效的协作

Transcript of Informatica 数据质量控制方法 · 三个基于角色的工具 — Informatica...

Page 1: Informatica 数据质量控制方法 · 三个基于角色的工具 — Informatica Analyst、Informatica Developer 和 Informatica Administrator,都是 Informatica Data Explorer

白皮书

Informatica 数据质量控制方法一种可实现普遍深入的数据质量控制的框架

—— 通过业务部门与 IT 部门之间更为有效的协作

Page 2: Informatica 数据质量控制方法 · 三个基于角色的工具 — Informatica Analyst、Informatica Developer 和 Informatica Administrator,都是 Informatica Data Explorer

本文档含有 Informatica Corporation 的保密、专有信息和商业秘密信息(“机密信息”),事先未经 Informatica 的书面同意,不得进行拷贝、散发、复印或以任何其它方式复制。

尽管我们尽最大努力确保本文档中信息的准确性和完整性,但仍可能存在一些印刷错误或技术误差。如因使用本文档所含信息而造成任何损失,Informatica 概不负责。本文档中包含的信息随时可能更改,恕不另行通知。

Informatica 自行决定将这些材料中讨论的产品属性纳入其任何软件产品的发布或升级中,并自行决定任何此类发布或升级的时间安排。

受下列一项或多项美国专利保护:6,032,158;5,794,246;6,014,670;6,339,775;6,044,374; 6,208,990;6,850,947;6,895,471;或受下列正在申请的美国专利保护:09/644,280;10/966,046; 10/727,700。

此版本发布于 2010 年 5 月

Page 3: Informatica 数据质量控制方法 · 三个基于角色的工具 — Informatica Analyst、Informatica Developer 和 Informatica Administrator,都是 Informatica Data Explorer

1Informatica 数据质量控制方法

白皮书

目录引言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

应对数据质量挑战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

业务部门与 IT 部门协作的重要性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

用于加强协作的基于角色的工具. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

步骤 1:探查数据内容、结构和异常 . . . . . . . . . . . . . . . . . . . . . . . . . 7

步骤 2:建立数据质量度量并明确目标 . . . . . . . . . . . . . . . . . . . . . . . 8

步骤 3:设计和实施数据质量业务规则 . . . . . . . . . . . . . . . . . . . . . . . 9

步骤 4:将数据质量规则构建到数据集成过程中. . . . . . . . . . . . . .10

步骤 5:检查异常并完善规则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11

步骤 6:对照目标,监测数据质量 . . . . . . . . . . . . . . . . . . . . . . . . . .12

总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13

了解更多 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13

关于 Informatica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13

Page 4: Informatica 数据质量控制方法 · 三个基于角色的工具 — Informatica Analyst、Informatica Developer 和 Informatica Administrator,都是 Informatica Data Explorer

2

引言任何数据质量方案都具有人员、流程和技术三个要素。为了能够从数据质量方案中获得最大的回报,必须有一个结构化的明确方法来协调这三个要素。

虽然数据质量管理方法的价值似乎不言自明,然而太多的组织采用不明确的数据质量方案,从而导致问题被混淆、细节被忽视、工作重复多余而且效果欠佳。

一个战略性和系统性的方法能帮助您正确研究您的数据质量项目,业务部门与 IT 部门的相关人员将各自具有明确角色和责任,配备正确的技术和工具,以应对数据质量控制的挑战。

本白皮书探讨了劣质数据质量所带来的影响,并介绍了 Informatica® 数据质量控制方法,这是一个分为六步实现的框架,范围从初始探查、持续监测,直到实现在整个企业范围内产生和交付优质数据的最终目标。

您的业务部门与 IT 部门的数据使用者 — 业务分析师、数据管理员、IT 开发人员和管理员,能够在六个步骤的每一步中协同使用 Informatica 数据质量解决方案;并在整个扩展型企业的所有数据领域和应用程序中嵌入数据质量控制。

Page 5: Informatica 数据质量控制方法 · 三个基于角色的工具 — Informatica Analyst、Informatica Developer 和 Informatica Administrator,都是 Informatica Data Explorer

白皮书

3Informatica 数据质量控制方法

应对数据质量挑战您的业务表现直接与其数据的质量和可信度相关联。拥有高质量数据,您的企业将平稳地以最高效率运作。高质量数据提高您的竞争优势,并增强您以下方面的能力:

获得并留住客户•

优化销售和财务•

运行高效的供应链和生产流程•

摒弃昂贵代价的操作失误•

作出明智、及时的业务决策•

迅速进入新市场•

虽然大多数企业意识到数据质量的理论重要性,然而很多企业还是采取观望态度,直到劣质数据影响到其运营效率和盈利能力时,他们才采取行动。结果可能导致客户服务退化、供应链错误、财务报告错误,甚至导致出现每年损失数百万美元的主要运营错误。

同样,企业通常采取临时性的办法实施数据质量管理,从部门或功能角度迅速修复错误;然而这样的方法通常未能全面解决整个企业的数据质量缺陷,因此不仅目光短浅且无法实现可持续应用。

其代价是昂贵的。Gartner 分析公司通过调查 140 多家公司后估计,由于数据质量管理不善,他们平均每年损失 820 万美元。22% 的受访机构称每年损失超过 2000 万美元,而有 4% 的公司每年损失超过 1 亿美元。1

“虽然数百万美元的损失已为数不少,我们相信这些估计值其实低估了大多数机构实际承受的财务影响 — 问题的实际影响范围通常比业务部门和 IT 部门领导预计的要大得多(以数量级计)。”Gartner 公司报告评论道。

1 Gartner Inc.,“主要研究成果报告: 数据质量问题对组织的成本带来较大影响”,2009 年 8 月。

Page 6: Informatica 数据质量控制方法 · 三个基于角色的工具 — Informatica Analyst、Informatica Developer 和 Informatica Administrator,都是 Informatica Data Explorer

4

要应对此问题,各机构需要在人员、流程和技术方面做必要的投资,以将有缺陷的数据转变成可信的、可操作的业务信息,无论何时何地都可以满足相关人员使用这些数据的需要。最好的数据质量方案有以下四个特征:

协作性。• 业务部门和 IT 部门为数据质量共同担责,业务分析师、数据管理员、 IT 开发人员和管理员各自将具有明确分工和适于其独特技能和视角的技术。

前瞻性。• 业务部门和 IT 部门认识到所有机构都会不同程度地受到劣质数据的影响,有必要在劣质数据严重影响到企业业绩之前,积极探查数据以发现和纠正问题。

可重复使用。• 有关数据探查与清洗的业务规则可被重复运用于任意数量的应用程序,以简化并加快流程,便于确保达到较高的质量水准。

普遍深入性。• 数据质量环境将扩展至所有相关人员、数据领域、项目和应用程序,而不论数据是内部预置、在合作伙伴处还是在云环境中。

如要获得最有效的数据质量控制,则需要有一个兼具以上各特征的方法。理想状况下,该方法可由一个专门的数据管理部门来监督和实施,或者也可以在卓越中心进行规范化。

Informatica 的六步法为帮助指导数据质量控制而设计,从初始的数据探查到持续监测以及持续进行的数据优化。在过去近 10 年间,Informatica 数据质量控制方法已经演变成一个成熟并行之有效的架构,帮助指导世界各地的机构执行数据质量控制。

该方法运用 Informatica 数据质量解决方案,提供您公司所需要的各种数据质量管理能力,并确保其所有数据均是完整的、一致的、准确的、通用的。该解决方案包括几个针对特定用途优化的组件:Informatica Data Quality™、Informatica Data Explorer™、和 Informatica Identity Resolution™。

Informatica Data Explorer• 运用基于角色的工具可促进业务部门与 IT 部门之间的协作,该数据探查软件发现和分析任何来源中任何类型数据的内容、结构和缺陷。

Informatica Data Quality• 软件执行清洗、解析、标准化和匹配流程并使得可视记分卡和仪表盘上的持续监测得以进行。与 Informatica Data Explorer 类似,它特有基于角色的工具,业务部门和 IT 部门可以借此得以协同工作。

Informatica Identity Resolution • 软件能使各机构从 60 多个国家/地区以及各企业和第三方应用程序中搜寻和匹配一致数据。

Page 7: Informatica 数据质量控制方法 · 三个基于角色的工具 — Informatica Analyst、Informatica Developer 和 Informatica Administrator,都是 Informatica Data Explorer

白皮书

5Informatica 数据质量控制方法

业务部门与 IT 部门协作的重要性业务部门与 IT 部门间缺乏协作是导致很多数据质量管理项目未能发挥其潜能的重要因素。这两个部门曾经依赖于传统的电子数据表、文档、电子邮件以及其它繁琐和不精确的机制来沟通数据质量要求。

毫无疑问,对于业务分析师和数据管理员而言,它们难以用 IT 部门可以理解的明确术语来概述数据质量业务要求。我们常常见到数据领域中发生的误解、延误、高成本以及不理想的结果,这是因为业务部门和 IT 部门使用的是两种不同的工作语言,没有共同的构架。很多关键性的明细在转化过程中丢失。

业务部门与 IT 部门间的协作对于数据质量管理和相关数据管理方案的重要性已经越来越获得重视。例如,在数据仓库学院 (TDWI) 的一项调查中,64% 的受访者表示在其组织中存在数据集成协作问题。2

“越来越多的业务人员从事数据集成,”TDWI 的高级研究经理 Philip Russom 在 TDWI 的《What Works》杂志中写道:“数据质量管理树立了一个成功先例。此形式的协作确保数据集成可真正满足业务部门的需求。”

用于加强协作的基于角色的工具

Informatica 数据质量解决方案为业务部门与 IT 部门间的协作提供基础。其基于角色的工具特色设计使得业务分析师、数据管理员、IT 开发人员和管理员能够充分利用他们独特的技能体系,并在流程中与所有相关人员沟通。

该基于角色的工具能同时针对业务部门和 IT 部门就相同数据提供不同视图。例如,IT 开发人员在开发环境中查看技术版本的数据和规则。业务分析师在基于浏览器的工具中查看对同一数据的非技术性表述。业务部门和 IT 部门可以使用一致的数据和规则工作,运用彼此理解的术语,在一个提倡共同负责的公用环境中工作。

使用可共享的书签和注释交流:发现、要求、成果和状态,使得团队成员能够在多项目组间、不同的地理位置和时区中加速并简化数据质量控制流程。规则可以通过这些沟通制定,并可视作探查结果的一部分,能够显著减少对规定认识不够所带来的风险。

2 数据仓库学院,“协作性数据集成”,TDWI《What Works》,2009 年 8 月。

Page 8: Informatica 数据质量控制方法 · 三个基于角色的工具 — Informatica Analyst、Informatica Developer 和 Informatica Administrator,都是 Informatica Data Explorer

6

三个基于角色的工具 — Informatica Analyst、Informatica Developer 和 Informatica Administrator,都是 Informatica Data Explorer 和 Informatica Data Quality 的通用工具。

Informatica Analyst:• 适用于业务分析师和数据管理员。通过用语义术语表述数据,该款基于浏览器的工具使分析师和数据管理员能够探查数据、创建和分析质量记分卡、管理异常记录、开发和使用规则,以及与 IT 部门展开协作。

Informatica Developer:• 适用于 IT 开发人员。这个基于 Eclipse 的开发环境允许开发人员发现、访问、分析、探查和清洗处于任何位置的数据。开发人员可以为逻辑数据对象建模、将数据质量规则与复杂转换逻辑合并,并在逻辑制定后,进行中游探查以验证和调试逻辑。

Informatica Administrator:• 适用于 IT 管理员。该工具为 IT 管理员带来集中配置和管理的能力。管理员可以监测和管理安全性、用户访问、数据服务、网格和高可用性配置。

在了解 Informatica 数据质量解决方案的组成部分之后,我们可以进一步研究 Informatica 数据质量管理方法的六个步骤,以及相关人员可以如何运用每个步骤中的技术。 图 1 展现了这六个步骤。

步骤 1探查数据

数据管理员步骤 2建立度量并定义目标

数据管理员

步骤 5复查异常和重新定义规则

数据管理员

步骤 6监控数据质量与目标

数据管理员

步骤 3定义和实施数据质量规则

IT 开发人员

步骤 4将数据质量规则构建到数据集成过程中

IT 开发人员

Informatica数据质量生命周期

图 1. Informatica 数据质量方法从最初的数据探查阶段拓展到持续的监测和优化。

Page 9: Informatica 数据质量控制方法 · 三个基于角色的工具 — Informatica Analyst、Informatica Developer 和 Informatica Administrator,都是 Informatica Data Explorer

白皮书

7Informatica 数据质量控制方法

步骤 1:探查数据内容、结构和异常第一步是探查数据以发现和评估数据的内容、结构和异常。通过探查,可以识别数据的优势和弱势,帮助您确定您的项目计划。一个关键目标是明确指出数据错误和问题,例如将会给业务流程带来威胁的不一致和冗余。

一个全面的数据探查操作将为数据质量控制的成功奠定基础。通过识别眼前的问题,您可以避免代价高昂耗时的后续纠正过程。一旦找出问题,IT 人员和业务人员将调查每个数据属性并生成描述数据属性的元数据。该元数据(或有关数据的数据)用于清洗下游数据或用于数据转换过程。

业务分析师、数据管理员和 IT 开发人员能够且应该在数据探查工作中进行协作。 Informatica Data Explorer 通过基于角色的数据探查技术有助于为协作所存在的沟壑搭桥。业务分析师和数据管理员通过 Informatica Analyst 来评估数据质量、识别异常、建立业务规则和创建记分卡。

开发人员使用 Informatica Developer 处理业务用户的输出,或生成他们自己的数据探查。该工具为开发人员带来更大的灵活性和更多功能,例如:

构建、部署和集中管理可重复使用的数据质量规则•

以物理或虚拟方式、按任何周期探查数据•

利用预建规则进行匹配和地址清洗•

在任何应用程序中,重复使用探查和规则规范•

快速访问所有数据,加快实施数据质量控制项目•

图 2 展现了用于数据探查的 Informatica Data Analyst 界面。

INFORMATICA DATA EXPLORER 为银行节省 150 万美元的支出费用。

在为 Banco Nacional de Costa Rica 公司建立客户数据仓库的项目中,Informatica Data Explorer 大幅加快了数据探查工作,这些数据取自 32 个遗留程序。银行官员估计该软件能节省约合 150 万美元手动编码所必需的人力成本。

在业务部门与 IT 部门的协作下,数据探查实践奠定了数据质量方案的基础,

可以从不同来源生成准确可靠的数据,

提高客户关系管理和盈利能力。

“Informatica Data Explorer 具有探查数据质量的非凡能力,这个工具所能提供的

能力超出您的想象,”银行数据库和战

略信息经理 Sergio Rodriguez 如是说。

图 2. Informatica Data Analyst 为业务部门使用者进行数据探查提供了一个基于浏览器的环境。

Page 10: Informatica 数据质量控制方法 · 三个基于角色的工具 — Informatica Analyst、Informatica Developer 和 Informatica Administrator,都是 Informatica Data Explorer

8

步骤 2:建立数据质量度量并明确目标接下来,您需要在关键应用数据字段中明确衡量数据质量的度量标准,并为每个数据字段明确各自的数据质量目标。该度量标准应基于数据质量的以下六个维度:

完整性:1. 哪些数据丢失或不可用?

符合性:2. 哪些数据以非标准格式存储?

一致性:3. 哪些数据值提供相互矛盾的信息?

重复性:4. 哪些数据记录或属性是多余的?

整体性:5. 哪些数据未被引用或遭受其它损害?

准确性:6. 哪些数据是不正确或过时的?

您也可以定义可满足自己业务要求的客户数据质量维度。例如,您可以建立度量标准以反映时间维度(数据何时可用与要求数据的可用时间进行对比),或者时效性维度(这些信息有多新)。

将您的度量标准与数据质量对业务的影响联系起来。例如,使诸如存货周转及发货等业务问题与会影响这些问题的数据质量维度进行关联(库存数据的一致性和准确性,或重复的客户数据)。

与探查类似,建立度量标准和明确数据质量目标应是一项要求协作和反复进行的工作。Informatica 的数据质量解决方案为业务人员和 IT 人员提供了一个共同的平台建立和完善度量标准,用户可以在数据质量记分卡中跟踪度量标准的达标情况,并通过电子邮件发送 URL 来与相关人员随时进行共享。

该度量标准还可在网络仪表板中查看,它能提供强大的溯源和分析报告。记分卡和仪表板均可使您持续监测数据质量;当您明确度量标准后,您会希望建立数据质量阈值,系统会在用户超出阈值时,触发一个电子邮件警报。

图 3 展现了一个客户数据质量记分卡,它拥有数据质量关键维度的性能指标。

图 3. Informatica Analyst 提供了一个度量标准记分卡,能够跟踪关键数据质量维度的绩效情况。

数据质量控制帮助医药供应商节省约合 140 万美元的投递费用。

对于总部设在伦敦的 Smith & Nephew 跨国医疗保健公司而言,使用 Informatica Data Quality 的指标和记分卡是成功开展数据质量控制的关键所在。度量能追踪

公司在整个公司计划中是否成功清洗和

集成取自多个 SAP 实例的数据。

总而言之,基于 Informatica 的数据质量解决方案通过清洗客户数据为 Smith & Nephew 公司节省了 140 万美元的邮寄费用;通过提供度量和记分卡提高数

据质量控制流程的可见性,将 SKU 削减 50%。

“我们希望投资于强大的数据质量管理

工具,它具备可扩展性,并可处理大量

数据。我们还希望能够与一个可以为具

有业务元数据管理和录入点的强大业

务解决方案提供持续支持的供应商合

作,”Smith & Nephew 公司的企业数据架构师 Barbara Latulippe 如是说:“在此不得不再一次提到 Informatica,只有这家公司才可以轻松提供所有这些领域的

解决方案。”

Page 11: Informatica 数据质量控制方法 · 三个基于角色的工具 — Informatica Analyst、Informatica Developer 和 Informatica Administrator,都是 Informatica Data Explorer

白皮书

9Informatica 数据质量控制方法

步骤 3:设计和实施数据质量业务规则下一步是明确您的数据质量规则 — 可重复使用的业务逻辑,管理如何清洗数据和解析用于支持目标应用字段的数据。业务部门和 IT 部门通过使用基于角色的功能,一同设计、测试、完善和实施数据质量业务规则,以达成最好的结果。

例如,业务分析师和数据管理员可以通过 Informatica Analyst 探查、分析和创建数据质量记分卡。可以对劣质数据的特定记录进行溯源,从而确定其对业务的影响以及如何解决问题。借助此工具,业务部门使用者只需通过电子邮件将 URL 发送给 IT 部门的同事,即可共享数据质量度量标准;业务部门使用者还可以通过此工具与开发人员一同指定、验证、配置、实施和测试数据质量规则。

IT 部门专家可以通过使用 Informatica Developer 中基于角色的功能来评估和完善数据质量规则;它同时包括开发人员可以运行或针对对象进行编辑的预建规则,以及适合从头开始构建规则的功能。

步骤 3 同样也包括开发用于匹配和验证名称与地址的规则。数据管理员在启动项目时可以借助 Informatica Data Quality 的 Identity Match Option、其预置的客户数据匹配规则以及适用于 240 多个国家/地区的地址清洗和验证。开发人员可以通过 Informatica Identity Resolution 以批处理或实时处理的形式搜索和匹配适用于 60 多个国家/地区的名称与地址数据。

您可以随时跨部门应用程序或在整个企业及其多个分离的数据源中,较好地重复使用所有已制定的业务规则。总之,业务规则的协作和重复使用可以大幅降低实施一个效果良好并可持续开展的数据质量控制项目所必需的时间和成本。

图 4 说明了 Informatica Developer 的拖放配置功能。

图 4. Informatica Developer 提供可以构建、测试和运行数据质量业务规则的拖放功能。

在国防部的数据迁移项目中,协作是数据质量控制获得成功的关键因素

在荷兰国防部,复杂的遗留数据被成功

地从 70 个应用程序迁移至单个新 SAP 系统,这一成功迁移的特征就是业务部

门与 IT 部门之间的协作以及一套数据探查及数据质量控制的方法。

团队运用了 Informatica Data Explorer 和 Data Quality 的协作功能来简化大规模迁移,并识别和纠正低劣的数据质量。在 Informatica Data Quality 中整合的业务规则有力地推动了数据清洗、扩充、协调

和集成进程。

“我们详细阐述了在方法中数据迁移的

过程,它分六步描述了如何执行一个注

重严格控制质量的数据迁移。”国防

部数据迁移项目经理 Jaap Timmers 如是说,“业务部门和 IT 部门共同肩负着确保项目成果的责任,因此他们总是存

在共同关心的问题。”

Page 12: Informatica 数据质量控制方法 · 三个基于角色的工具 — Informatica Analyst、Informatica Developer 和 Informatica Administrator,都是 Informatica Data Explorer

10

步骤 4:将数据质量规则构建到数据集成过程中在步骤 4 中,在 IT 开发人员将明确的业务规则整合进数据质量控制和集成过程中时,需要在工作中融入数据质量。您的企业如何、在何处、到哪些应用程序中运用数据质量规则将取决于您的项目范围和您的数据质量战略。

执行这些规则的 Informatica Data Quality 可以通过单机模式进行战略部署,以与单个业务应用程序一同运作。可将该解决方案配置为一个预防性过滤器,以在数据进入应用程序后,在“上游”运行数据质量规则。

独立调查公司 Forrester Research Inc. 主张在上游部署数据质量规则,以便在有缺陷的数据污染下游系统之前予以纠正。“您的目标应设定为使用您的‘下游’批处理来补充上游数据质量规则和流程的不足,而不是等到您的最后防线被攻破。”Forrester 公司在其一份报告中写道。3

用户也可将 Informatica Data Quality 定位为在其进入目标应用程序后以批处理模式执行数据清洗规则,例如夜间清洗流程。理想情况下,您的数据质量解决方案最好能在企业层进行部署。

Informatica Data Quality 支持普遍深入的数据质量控制,使用户可以从扩展型企业中的任何位置跨任何数量的应用程序、在一个基于服务的架构中作为一项服务来执行业务规则。数据质量服务由可集中管理、独立于应用程序并可重复使用的业务规则构成,可用来执行探查、清洗、标准化、名称与地址匹配以及监测。

图 5 展现了如何运用 Informatica Data Quality 创建数据质量规则,以及如何运用 Informatica PowerCenter® 将之前创建的数据质量规则作为更广泛的数据整合流程进行部署。

图 5. 在 Informatica Data Quality 的帮助下,数据质量规则可作为更为宽泛的数据集成过程的一部分进行部署。

借助 INFORMATICA DATA QUALITY, RACSA 削减了 642,000 美元的呼叫中心成本。

数据探查、数据清洗、名称和地址匹配

帮助哥斯达黎加电信服务提供商 RACSA 公司整合取自从独立的客户、交易、账

单系统的高品质数据,以支持一个新的

客户自助服务的交互式语音应答系统。

RACSA 公司使用了 Data Explorer 和 Data Quality 来探查、清洗和匹配数据,并为一个基于 Informatica 的集成项目奠定了基础,该项目每年能节省 642,000 美元的呼叫中心座席成本,并能将客户查询

响应时间缩短 50%。

“Informatica 帮助 RACSA 公司实现了 我们一度认为不可能实现的目标。” RACSA 的项目工程师 Manuel Pereira 谈到:“每年高达 642,000 美元的节省不仅非常出色,而且还有助于 RACSA 公司保持其在哥斯达黎加电信竞争市场中的

领导地位。”

3Forrester Research Inc 公司发表文章《是时候投资开展上游数据质量控制了》2008 年 10 月。

Page 13: Informatica 数据质量控制方法 · 三个基于角色的工具 — Informatica Analyst、Informatica Developer 和 Informatica Administrator,都是 Informatica Data Explorer

白皮书

11Informatica 数据质量控制方法

步骤 5:检查异常并完善规则在执行数据质量流程后,大多数记录将会被清洗和标准化,并达到您所设定的数据质量目标。然而,无可避免仍会存在一些没有被清洗的劣质数据,此时则需要完善控制数据质量的业务规则。

异常报告流程可便于解决和修正这些弱点。Informatica Data Quality 可捕获和突显数据质量异常和异常值,以便更进一步的探查和分析。数据管理员、业务分析师和 IT 开发人员能够通过基于角色的工具共同分析任何问题的根本原因。

除了完善规则,您可能还需要适当编辑或修正一些数据。通过 Informatica Data Quality 的异常管理功能,业务部门使用者不仅能够用其进行检查,而且还能够修正数据质量问题。

异常可能包括重复记录、或者其它存在于数据字段和属性之中的矛盾或不一致之处。一旦明白问题所在,就可以制定或修改业务规则,以从源头上解决问题。通过检查和处理缺陷,开发人员生成所谓的“黄金记录” — 可为大家接受的唯一真实版本。

在数据质量解决方案的初步部署阶段,异常报告显得尤为重要,用户可借机在缺陷数据损害下游应用程序之前将其纠正。而在将新的数据源纳入数据质量解决方案时,异常报告也颇有价值。

图 6 展现了 Informatica Analyst 中的客户异常和失败记录视图,数据管理员可以在这些记录被写进目标前,查看、编辑和过滤这些记录。

图 6. Informatica Analyst 为异常记录管理提供了一个基于浏览器的环境。

数据质量控制提高了市场研究数据提供商的准确性

数据质量控制是一个企业级数据集成工

作的核心,它曾帮助法国市场研究数据

提供商 Gfk Retail and Technology France 公司提高其提供给技术和娱乐客户的信息

的准确性与可靠性。

数据质量控制与集成工作帮助捕获来自 80 个国家/地区的成千上万商家的 POS 数据,并在每月生成 1700 多个数据文件。借助 Informatica Data Quality,错误数据量减少了 80%。

“数据质量对于 Gfk Retail and Technology France 公司而言至关重要,因为它决定着我们客户决策的质量,”Gfk信息系统与开发总监 Fabrice Benaut 如是说:“Informatica 不仅帮助我们控制、纠正、改进数据质量,而且还有助于确

保我们的客户可以充分相信我们向其提

交的市场调查分析。”

Page 14: Informatica 数据质量控制方法 · 三个基于角色的工具 — Informatica Analyst、Informatica Developer 和 Informatica Administrator,都是 Informatica Data Explorer

12

步骤 6:对照目标,监测数据质量数据质量控制不应为一次性的“边设边忘”活动。相对目标和在整个业务应用中持续监测和管理数据质量对于保持和改进高水平的数据质量性能而言是至关重要的。

使用记分卡或仪表板可显示与数据质量目标和第 2 步中所述的 6 个数据质量维相比的一致性。这些监测工具还可反映您的团队已实施的任何客户维,以及您所设定的与主要业务绩效问题相关的度量。

Informatica Data Quality 包括一个记分卡工具,而仪表板和报告选项则具备更为广泛的功能,可进行动态报告以及以更具可视化的方式呈现。可定制的仪表板和报告可以提供有关数据质量表现情况的高层视图以及可用来评估更细化问题的深度溯源。

使用者可以通过时间缩放来评估天、周、月或年的绩效,并以实时警报的形式立即获得问题通知。信息所有者可以通过仪表盘、记分卡和报告的形式来发布监测结果,并将其在整个企业共享。

由于数据是动态的,因此数据质量度量标准也应是动态的。注意随时调整度量标准,以更好地反映数据质量对关键业务指标的影响,并描述新增或移除的数据源。

图 7 显示了一个用于衡量关键数据质量维的数据质量仪表板。

图 7. 数据质量仪表板可通过六个关键的数据质量维直观地反映符合性。

AVAYA 公司使用 INFORMATICA DATA QUALITY 优化业务

对于全球企业网络、电话和呼叫中心技

术供应商 Avaya 公司,数据质量控制是其核心工作。该公司建立了一个卓越数

据质量中心,并将数据质量视作企业图

示中与人员、流程和技术一起的“第四

运营维度”。Informatica Data Explorer 和 Data Quality 是该解决方案的支柱。

成果极为丰硕。通过在整个企业(包括

约 400 个应用程序和数据库以及 150 TB 的客户、供应商、金融和其它数据)实

行数据质量控制和监测,Avaya 公司估计可获得 20 倍的投资回报,仅通过纠正帐单地址就可实现 200 万美元的净收益。

“我们相信数据质量是业务优化的下

一个前沿领域,”Avaya 公司全球数据质量总监 Rich Trapp 如是说:“通过在我们的卓越数据质量中心使用 Informatica,Avaya 公司获得了实现最佳运营所需的准确信息。”

Page 15: Informatica 数据质量控制方法 · 三个基于角色的工具 — Informatica Analyst、Informatica Developer 和 Informatica Administrator,都是 Informatica Data Explorer

白皮书

13Informatica 数据质量控制方法

总结劣质数据并不一定是无法改变的现实或开展业务所不可规避的成本。通过使用正确的人、流程和技术,几乎在任何行业,对于组织而言,普遍深入的数据质量管理都是一个可实现的目标。对于组织优化数据质量要求的每项资源而言,具备一个战略和系统的方法是至关重要的因素。

Informatica 的数据质量解决方案提供了一个行之有效的方法和技术基础,可以帮助您的业务部门和 IT 部门的相关人士开展协作,从而普遍深入地开展数据质量控制 — 确保所有数据的完整、一致、准确和最新,而不论数据位于何处。

借助 Informatica,数据探查、清洗、地址验证、匹配和监测功能将成为一个全面、开放、统一和经济的数据集成平台的一部分。Informatica 平台可以让您随时随地在扩展的企业范围内访问、发现、清洗、整合和传递及时可信的数据。

将您的业务建立于相关、及时、可信的数据之上。借助 Informatica 的数据质量解决方案,让数据质量控制和优质的数据普遍地深入到企业的各个层面。

了解更多了解有关 Informatica 数据质量解决方案和整个 Informatica 平台的更多信息。请访问我们的网站 www.informatica.com/cn 或致电 +86 010-5879-3366(在美国可拨打 1-800-653-3871)。

关于 InformaticaInformatica 公司(纳斯达克代码:INFA)是全球首屈一指的数据集成软件独立提供商。通过将及时、相关和可靠的数据视为首要业务依据,组织可在当今全球信息经济中获得竞争优势。全球已有4,200家企业依赖 Informatica 存取、集成并信任其位于传统企业内外及因特网云中的信息资产。

Page 16: Informatica 数据质量控制方法 · 三个基于角色的工具 — Informatica Analyst、Informatica Developer 和 Informatica Administrator,都是 Informatica Data Explorer

白皮书

7130CN (05/27/2010)

北京办事处 上海办事处

地址:北京市朝阳区建国门外大街乙 12 号,LG 双子座大厦 地址:上海市浦东世纪大道 201 号渣打银行大厦 5楼 东塔 19 层 1906 室 邮编:100022 邮编:200120电话:86-10-5879 3366 传真:86-10-5879 3130 电话:86-21-6182 6825 传真:86-21-6182 6755

© 2008 Informatica Corporation. 保留所有权利。美国印刷。Informatica、Informatica 徽标、The Data Integration Company 是 Informatica 公司在美国和全世界司法区域的商标或注册商标。所有其它公司和产品名都可能是它们各自所有者的商业名称或商业标记。