写给小白的“数据仓库”科普

xxn 阅读:97258 2025-03-16 22:01:31 评论:0

数据管理领域出现了一些比较流行的概念,比如数据仓库、数据集市、数据湖、数据中台、数据飞轮等,这些概念对于很多人来说可能有些混淆。因此,我打算通过几篇专题文章来解释这些概念,希望能够让大家更容易理解。本篇先从数据仓库开始说起。

数据仓库全称为Data Warehouse,简称DW或DWH。

尽管数据仓库和数据库名称非常相似,但它们却是完全不同的概念。

我们从数据仓库的历史发展说起。

数据仓库的起源

数据仓库并非一种新概念,实际上,它已经存在了几十年。

上世纪70年代,当关系数据库刚崛起时,比尔・恩门博士开始定义和讨论数据仓库这一概念。

1988年,IBM的巴里・德夫林和鲍尔・穆尔菲发表了《商业和信息系统的架构》一文,引入了“商业数据仓库”概念,并开发了一种“业务数据仓库”系统。

几年后,1990年,拉尔夫・金博尔创立了Red Brick Systems公司,推出了专门用于数据仓库的数据库管理系统Red Brick Warehouse。

1991年,比尔・恩门创立Prism Solutions公司,推出用于开发数据仓库的软件Prism Warehouse Manager。

同年,比尔・恩门正式出版了数据仓库的经典著作——《构建数据库仓库》,标志着数据仓库概念的正式确立。

此后,比尔・恩门被称为“数据仓库之父”。

比尔・恩门

 数据仓库的定义和特点

那么,什么是数据仓库呢?

比尔・恩门在书中给出了数据仓库的定义。

数据仓库是一个面向主题的集成的相对稳定的反映历史变化的数据集合,用于支持管理决策

这个定义概括了数据仓库的几个关键特点。

  • 支持管理决策

数据仓库的主要作用就是支持管理决策。

传统数据库主要用于员工使用,支持具体业务操作,如收银系统。

数据仓库主要面向管理层,帮助了解整体情况,实现更合理的决策。

在介绍数据库时,提到了OLTP和OLAP。

OLTP是用于支持日常业务操作的数据库,而OLAP用于支持复杂的查询和分析。

数据仓库主要属于OLAP类型,用于商业智能和决策支持,帮助企业从大量数据中获取信息,提高决策能力。

数据仓库是一个战略性工具,可以增加收入、提高效率、降低成本。

现在很多企业在使用数据仓库支持数字可视化大屏
  • 面向主题

传统数据库围绕具体工作组织数据,而数据仓库按主题组织数据。

数据仓库将不同数据库表信息整合在一起,提供更全面的数据呈现。

数据仓库的设计更适合管理者进行决策和分析。

  • 集成

数据仓库可以整合来自多个数据源的数据。

多样化的数据源提供全面视角,支持分析和决策。

数据仓库主要包括结构化数据,但也包括半结构化和非结构化数据。

  • 相对稳定

数据在加载到数据仓库后通常不会修改,确保数据稳定性和可靠性。

数据操作主要是查询,而非修改。

数据仓库架构通常相对稳定。

  • 反映历史变化

数据仓库保留大量历史数据,有利于分析业务发展趋势。

数据库仅更新数据,而数据仓库保存历史数据。

数据仓库的四大特征包括面向主题、集成、相对稳定、反映历史变化。

以超市为例,数据仓库与传统数据库的区别在于将不同系统数据整合到一个系统里,按主题分类,用于更深入的决策和分析。

如果您是超市老板,数据仓库是否帮助了您的决策和价值创造?

数据仓库的架构和工作流

数据仓库通常包括几个层次:原始数据层、数据公共层和数据应用层。架构与工作流有密切关系。

每个公司的数据仓库架构都不同,但通常包括以下几层:

数据仓库的整体架构

原始数据层:用于采集和存储原始数据。

数据公共层:数据仓库的主要部分,包括基础层、汇总层和公共维度层。

数据应用层:保存结果数据,为外部系统提供接口。

数据仓库的工作流一般包括:数据抽取、数据清洗和转换、数据建模、数据存储、数据加载、数据访问与分析以及数据安全和访问控制。

数据仓库采用特定的数据模型,建立数据表,以提高查询性能。

数据仓库建模主要有Ralph Kimball和Bill Inmon的方法论。

Ralph Kimball的维度建模是一种常用方法,而Bill Inmon则认为企业数据仓库应为原子数据的集成仓库。

元数据是描述数据的数据,用于管理和使用数据仓库。

数据仓库通常采用大容量、高性能的存储系统。

数据加载包括ETL过程,将数据加载到数据仓库并对数据进行处理。

数据加载可以是全量或增量方式,根据需求选择。

数据加载后,用户可以开始对数据进行访问和分析。

数据安全和访问控制是数据仓库使用过程中的重要考虑因素。

 数据集市(Data Mart)

数据集市是数据仓库的子集,专用于特定业务部门或功能。

例如,销售数据集市可以提供详细的销售报告和分析,辅助销售部门决策。

数据集市的优点包括规模小、数据深、响应快、建设周期短、灵活性高和成本低。

 数据仓库的发展趋势

数据仓库经历了多个发展阶段,技术持续进步,以提高处理能力。

早期基于传统数据库构建数据仓库,后来引入大数据技术,进入21世纪有Lambda和Kappa架构。

图片来自网络

近年基于MPP数据库和数据湖的实时数仓架构已经运用,支持高性能并行处理。

数据仓库的部署方式也有云部署等新模式。

AI技术的发展也推动了数据仓库和AI技术的深度结合。

数据仓库已成为企业更及时、准确进行决策的利器。

数据仓库和数据湖将如何发展,前景广阔。

关于数据仓库和数据集市,就暂时说这么多。

下一期将详细介绍数据湖和湖仓一体,探讨数据湖和数据仓库的区别。

本文来自微信公众号:鲜枣课堂(ID:xzclasscom),作者:小枣君

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容