数据格式的开放性是一个关键的考虑因素

17 4 月 , 2023 - 特殊数据库

它是推动习惯形成和采用最佳实践和标准的主要因素。 开源 Delta Sharing 是一种基于一组精益 REST API 的协议,用于管理对以。根据定义,接收者对来源处的数据格式是不可知的。Delta Sharing 以许多不同的语言和工具为受监管的数据访问提供了必要的抽象。 Delta 共享具有独特的优势,可以在公共部门等高度监管领域的背景下以可扩展的方式应对数据共享的许多挑战: 隐私和安全问题- 个人身份数据或其他敏感或受限数据是数据驱动和现代化政府数据交换需求的主要部分。鉴于此类数据的敏感性,以一致和统一的方式维护数据共享的治理至关重要。任何不必要的流程和技术复杂性都会增加过度共享数据的风险。考虑到这一点,增量共享从一开始就按照安全最佳实践进行设计。该协议提供端到端加密、短期凭证以及可访问且直观的审计和治理功能。

所有这些功能都可以在所有云中的所

有增量表中以集中方式提供。 质量和准确性——数据共享的另一个挑战是确保共享的数据具有高质量和准确性。鉴于底层数据存储为增量表,我们可以保证数据的事务性质得到尊重;增量确保数据的 ACID 属性。此外,Delta 支持数据约束,以保证存储时的数据质量要求。不幸的是,其他格式果不付出额外的努力,就不会 数据库 有这样的性质。如果不完全重新实现源系统,就无法在数据提供者和数据接收者方面以相同的方式确保数据质量,这一事实使这个问题变得更加突出。将质量和元数据与数据一起嵌入以确保质量与数据一起传播至关重要。任何单独管理数据、元数据和质量的解耦方法都会增加共享的风险,并可能导致不良结果。 缺乏标准化——数据共享的另一个挑战是数据收集、组织和存储方式缺乏标准化。

数据库

这在政府活动的背景下尤为明显

虽然政府提出了标准格式(例如国家统计局提倡使用 CSVW),使所有私营和公共部门的公司与此类倡议提出的标准保持一致是一项巨大的挑战。其他行业可能对可扩展性、互操作性、格式复杂性、数据结构缺乏等方面有不同的要求。目前提倡的标准大多缺乏这些方面。Delta 是在数据交换格式标准化中担当 GT列表 核心角色的最成熟的候选者。它被构建为一种事务性和可扩展的数据格式,它支持结构化、半结构化和非结构化数据,它将数据模式和元数据与数据一起存储,并通过增量共享提供可扩展的企业级共享协议。最后,Delta 是生态系统中最受欢迎的开源项目之一,自 2022 年 5 月以来,已超过每月 700 万次下载。 文化和组织障碍——这些挑战可以用一个词来概括——摩擦。不幸的是,由于过于繁琐的流程、政策和过时的标准,公务员很难获得对内部和外部数据的访问权,这是一个普遍的问题。


, , , ,

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注