数据架构
从数据存储模式、时效性和分布模式三个架构设计和数据建模视角描述做什么,怎么做
数据存储
数据计算
简单来说,批处理吞吐量大、时效性低、准确性高。而流处理的缺点在于为了保证实时性,可能会牺牲掉一定的准确性
批处理
流处理
流批一体
- 计算一体:同一套计算逻辑可以同时应用于流处理与批处理两种模式,且在最终结果上一致。
- 存储一体:流处理与批处理过程中全程数据存储在同一介质,即不管采用何种处理模式,数据的流转及存储都在同一介质中完成
数据应用
在向下游利益相关者提供数据服务之前,有一些需要特别关注的地方。首要的是信任,他们需要相信我们所提供的数据。另外,需要了解数据的用例和用户、产出的数据产品以及如何提供数据服务(是否自助服务)、数据口径是如何定义以及数据的计算逻辑
BI
通过收集、分析和呈现数据来提供商业洞察的技术和工具
通常包括以下功能:
- 数据可视化: 将数据转化为图表、仪表盘、报表等形式,以便用户直观地理解数据。
- 数据分析: 提供各种分析功能,包括查询、筛选、排序、聚合等,以便用户对数据进行深入的分析和探索。
- 报告和仪表盘: 支持定制化报告和仪表盘的生成,以满足不同用户和业务部门的需求。
- 数据挖掘: 使用数据挖掘算法和模型来发现数据中的隐藏模式、关联和趋势,从而提供更深入的洞察和预测。
- 实时监控和警报: 提供实时监控功能,监测业务指标的变化和异常情况,并及时发出警报
报表
报表与 BI 的区别在于 BI 更加灵活,且 BI 覆盖更广泛的功能。同时 BI 能够支持实时数据的查询和分析
数据分析
数据可视化
机器学习
数据网格
一种数据架构和组织方法。它旨在解决大规模数据管理中的挑战,通过去中心化的数据管理和以业务领域为中心的自服务数据基础设施,促进数据的共享和使用
flowchart TB subgraph Domain1[领域1] A1[数据产品1] A2[数据产品2] end Domain1 --> Domain2 Domain2 --> Domain1 subgraph Domain2[领域2] B1[数据产品3] B2[数据产品4] end subgraph DataInfrastructure[自服务数据平台] C1[数据存储] C2[数据处理] C3[数据治理] end subgraph FederatedGovernance[联邦数据治理] G1[标准和政策] end A1 & A2 --> C1 B1 & B2 --> C1 C1 --> C2 C1 & C2 --> G1 G1 --> A1 & A2 G1 --> B1 & B2- 去中心化数据所有权和治理:将数据的所有权和治理职责分配给具体的业务领域(Domain),每个领域对自己的数据负责。
- 按领域划分的数据产品:数据被视为产品,每个领域的数据团队负责创建、管理和维护自己的数据产品,确保数据的质量、可访问性和可用性。
- 自服务数据平台:提供统一的数据基础设施和工具,使每个领域能够独立地管理和操作其数据,支持数据的生产和消费。
- 联邦数据治理:通过标准化的协议和政策,实现跨领域的数据治理,确保数据的一致性、安全性和合规性。
安全与隐私
数据权限
- 访问权限
- 操作权限
- 范围权限
- 行级权限
- 字段权限