数据治理:数据质量的度量维度!
关于数据质量的度量维度,业内还没有一个统一的标准,以下分享几个常见的数据质量度量维度。
检查记录数量是否与预期数量相负。如果不符,调查却是记录的根本原因并再次剖析数据集。完整性或填充率:包含值的字段的数量和百分比的测量标准。完整性或填充率只基于数值的存在性。需要另外的分析以确定这些值是否有效。要诠释结果,需要知道那些字段是必须的(强制性的)、可选择的或有条件的。如果字段是必填的(应用必填、业务必填或者该字段是主键),其填充率应是。如果应用软件不需登录,查看其是否可针对需要的数据进行修改;如果应用软件不能修改,对那些录入数据的人的资料进行归档,并对他们进行培训。这种情况下,应密切监视数据;一组数据:确定完成特定基本流程所需一系列字段的填充率。空:空字段(空是因为字段中什么也没有)的数量和百分比的测量标准。空是与完整性和填充率相反的。完整性或填充率的分析同样适用于此,只需用相反的观点来进行评判。确定数值是允许的或有效的。不同的字段的有效值集也不同。有效值集也被看成数据域或值域集。可能的话,比较实际的不同值列表与预期有效值列表。预期有效值可来自诸如参考表格或编码列表的数值列表,也可来自主题专家,或来自公司遵循的外部标准。如果业务没有有效值列表,请使用来自剖析的列表作为起点来开发一个有效值列表。如果对数值列表进行变更,将所有数值映射归档,并用需要变更的值更新记录。有效性:对字段中的值是否在允许的或有效的数值集中的测试。对每个字段的“有效的”含义进行定义和归档;不同字段的有效性构成不同。合法性测试可包括格式或样式、域、有效编码、类型(字母的/数字的)、依赖关系、业务规则、数据录入标准、大和小范围,等等。例如,记录中的所有编码是否被系统编码表中的业务定义为有效编码;如果是数字字段,字段中是否有字幕;日期字段中的日期是否在必需的范围内。频率分布:字段中值的分布,通过数量和百分比来度量。可考虑放弃那些使用频率低的数值,并改用一个常用的可比价的数值。研究所发现的常量。常量是指每个记录有相同数值的任一列,这可以是从未使用或不再使用的数据元素的标志。如果对数值列表已做变更,请将数值映射归档,并用需要变更的数值更新记录。寻找在分析信息环境时可能已发现的且正被业务广泛使用的那些异常数值的发生频率。观察默认值或假值的频率分布,使用频率分布来确定待选主键。如果不同值的比重较低,等值字段可能是相关的,许多空值或零值可能就有问题了。通常50%的不同值将由其他列确定是否为纯业务数据。有特定值的字段(例如,所有记录在该字段的值均相等)是潜在无用的或具有常数属性,确定是否应为此在数据库中占用一定空间。考虑输入到一个常数表中。大数值和小数值范围:由大数值和小数值表示的数值范围。数值范围上界和下界的任何数值可快速显示数据质量问题;还被用于向两个其他数据质量维度模拟或提供输入数据:及时性(数据的及时程度)和数据衰变(数据的负面变化率)。通过评判重复含义数值列表来获取重复数据的高层视图;有些工具提供不同列间的数据值比较,以及通常基于不同数值字符串匹配的重叠百分比;有些数据剖析工具强调仅基于字符串匹配的重复数据,但其他工具使用经常被称为“模糊匹配”的工具。寻找通过剖析工具推断的、预期数据类型和实际数据类型之间的差异。工具可显示归档的数据类型(或每个元数据的预期数据类型),并与从实际数据内容中推断出的数据类型进行比较;该工具也标记源数据类型和目标数据类型之间的不相容性,该问题需在迁移数据时予以解决。对数据模型而言,该工具也呈现数据类型以及可用于该模型中的替代数据类型实例。寻找大量具有完全相同大小的记录,这可显示出在该字段中已被缩减了的数据;如果源和目标系统之间的大小存在差异,确定超出目标大小的源记录的数目和百分比:如果数目小,需人工更新记录;如果数目大,需了解如果数据在迁移时被删减将会对业务产生什么影响。对数字数据,要确定小数点的位置是否在所需精度的位置。一致性:同一记录中相关字段的合理性测试。引用完整性。寻找其他依赖关系。一个字段中具有正确格式的值与另一个字段中的值相关联;并发性和及时性:各种数据库、应用软件和流程之间的数据同步和数据时延,剖析多个数据库,并比较其结果的差异。确定是否没被植入进数据结构中的业务/数据规则正在由应用程序逻辑实施。这通常都是针对有自身规则的数据子集。例如,可能有具有特定规则的不同当事者类型(组织、合同等),这些规则需要某些列为空,而其他列要输入。