元数据管理
052023/03
2023-03-05 00:00浏览:次
如果人们不使用数据仓库的原因是因为复杂数据仓库环境加剧了沟通障碍而使合作遇阻,我们就必须着眼于必要的元数据管理实践,创建一种通用语言,使数据仓库更容易理解、更好用并因此而更加可靠。
数据仓库的传话游戏
在很多方面,数据仓库都非常类似于孩子们的传话游戏,即一个游戏参与者在另一个人耳边轻声将消息依次传下去,直到最后的那个人告诉大家是什么消息。因为在复述中通常会积累错误,消息最后的版本经常与源头大相径庭。一些玩游戏的人似乎会故意改变一些说过的内容,这样游戏结束时消息保证会乱套。
数据之旅从运营数据源经过暂存区域、数据仓库、数据集市并最终进入仪表盘和报告,在转换过程中可能会丢失很多东西。数据在处理过程中经常被有意改变,以使其适应下一个目标的结构。数据每次从一个位置移动到另一个位置时,都可能会引入不一致的语义。
元数据远不止是“关于数据的数据”,可以将其看作为数据提供定义和上下文的翻译。因此,在确定数据使用方面,元数据起着不可或缺的作用。元数据、数据质量和决策管理之间同样存在着很强的关系。元数据带来评估数据质量的上下文,元数据还提供了解释决策流程所涉及的仪表盘和报告内容的框架。
营收和客户等常用的术语经常使诸如特定财务季度产生多少营收或组织拥有多少客户这样表面上看起来很直接的讨论复杂化。这些讨论经常会变成激烈辩论,议题是营收和客户等术语应如何定义,以及它们的数据应该如何集成和聚合以支持仪表盘和报告中显示的视图。
可信的元数据是一种通用语
尽管我们可能很想执行常用术语的单一定义,我们也必须承认,数据仓库传话游戏中的玩家并不想去破坏沟通。相反,他们使用术语时,通常使用有效的业务替代词语,反映他们业务需求和工作职责的背景。
业务和 IT 部门都将自己的行话带入数据仓库,但是需要一种媒介语言来简化沟通。通用语并不是将一群人的母语强加为标准,而必须是来源于群众,必须支持多角度、多维定义和多向翻译。
可信的元数据是一种通用语,是一种能够满足业务-IT 部门合作所需的清晰沟通网络代替数据仓库传话游戏的通用语言。
将数据仓库转化为玻璃屋
数据仓库的目标是可信数据的及时交付,为实现决策的洞察力提供支持。但是,想在一个很难看清内部的环境中获得洞察力,非常困难。
这就是为什么我们应该在满足数据隐私的必要条件下,将数据仓库尽可能转化成一个玻璃屋,让我们看到数据质量和决策管理挑战的本来面目。没有这样的可见性,就可能对业务问题和相关数据挑战做出危险的假设,努力解决这些假设挑战的协作团队不能充分了解它们。数据仓库需要提供围绕术语(包括业务和技术)的数据和流程(同样包括业务和技术)的清晰视图,以便使数据仓库更加容易理解、更易使用并因此更加可信。
元数据管理的主要考虑事项包括五个因素:
业务术语表——术语表提供有关业务术语来源以及在何处使用的基础细节,通过该术语表增强业务-IT 部门的合作。通过确保与业务用户的清晰沟通,这样的术语表提高了 IT 部门的生产率。
端对端的数据沿袭——记录数据仓库数字碎片线索允许从报告一路追溯到数据源,提供了沿路应用的所有数据转换或数据质量规则的概览。这种历史记录对于排除现有问题故障以及对提议的变更执行影响分析来说至关重要。
你无法重复使用不了解的东西——元数据实现了重复使用,因为如果不了解业务规则、数据服务和预建报告,就无法重复使用。
按角色标签点名——一些最重要的元数据简单地通过标识业务流程所有人、数据管理员和能够澄清有关复杂概念或流程任何混淆的其他相关问题专家,用标签来表示谁是谁。
审计合规性——全面的业务和技术元数据提供了必要的审计跟踪,以确保合规性要求得到满足。