搜索

大数据常见名词整理

发布网友 发布时间:2024-09-30 15:42

我来回答

1个回答

热心网友 时间:5分钟前

大数据分析中,数据仓库是一个核心概念,它为企业决策提供支持。数据仓库(DW/DWH)是专门构建的,用于存储和管理来自多个源头的数据,以满足分析和决策所需。其主要特性包括:面向主题、集成整合、数据变化和不可修改性。数据仓库通常按照ODS(原始数据)、DWD(数据明细)、DWS(数据汇总)和ADS(数据应用)分层结构设计,以满足不同层次的需求。

数据仓库与数据湖、数据中台有区别。数据湖强调原始、非结构化数据的存储,提供更高的灵活性,适合机器学习任务;数据中台则关注业务需求,以服务形式提供数据,数据处理更侧重于ELT(提取-加载-转换)。星型、雪花和星座模型是数据仓库的三种模型,分别反映了数据的不同关联程度和冗余程度。

在数据仓库中,术语如维度、实体、度量、粒度、口径、指标和标签等都是构建分析模型的关键。维度表存储描述性的信息,实体代表分析对象,度量则是数值指标,粒度决定数据的细化程度,而口径和指标则定义了数据的取样和计算方式。标签则是对实体进行分类和标记。

数据仓库的表设计中,全量表记录最新状态,增量表只存储新增数据,拉链表和流水表关注历史状态的连续变化,快照表则是某一时间点的数据冻结。选择何种表型取决于数据量、更新频率和业务需求。
声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
E-MAIL:11247931@qq.com
Top