第四讲_数据组织与环境.pdf

数据仓库与大数据工程 Data Warehouse and Big Data Engineering 第4部分数据组织与环境版权所有：北京交通大学计算机与信息技术学院为了谁？需要什么样的架构决策者及其需求最终服务对象与目的支撑应用手段数据平台— 主要设计对象数据仓库/大数据平台数据主要来源 OLTP环境北京交大数据仓库与大数据工程课程组环境里面有什么？ Data Warehouse and Big Data Engineering，BJTU 内容提纲数据仓库与大数据主要特征数据仓库与大数据平台总体数据架构数据仓库与大数据平台数据组织结构数据环境组成与应用支撑软硬件技术环境北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 1. 数据仓库及其特征 ► A Data warehouse is a ● Subject-oriented –面向主题 ● Integrated—集成 ● Nonvolatile—不可更新、非易失、永久 ● Time-variant—随时间变化 ► collection of data in support of management’s decision. ► 数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用于决策支持的数据集合北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU (1) 主题与面向主题 ► Subject—主题，一个高层抽象概念 ● 对企业数据进行分析应用的功能集的抽象。 ● 在较高层次上将企业信息系统中的数据进行综合、归类并进行分析利用的抽象。 ► 客户分析主题 ● 分析客户的消费习惯 ● 客户群划分 ● 客户发展动向 ● 通过围绕客户相关的一系列信息集合来支持北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 数据仓库的面向主题特性业务系统面向应用北京交大数据仓库与大数据工程课程组数据仓库面向主题 Data Warehouse and Big Data Engineering，BJTU 通信公司的业务系统与分析主题 ►业务系统 ►分析主题 ●语音业务 ●客户分析主题 ●数据业务 ●资源分析主题 ●计费业务 ●营销渠道分析主题 ●网管业务 ●资费模式分析主题分析主题中的数据来自业务系统，但围绕核心分析问题进行重新组织。北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU （2）集成—最重要的特征转换重新格式化重新序列化摘要数据一致化 … 数据仓库大数据平台数据源集成要解决的主要问题北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 为什么要集成 ► 利用多个方面的数据，进行碰撞、对比，才更有可能得到准确、全面、有价值的信息。 ► 例如：Customer Profiling ● 生理和自然属性：性别、身高、肤色、… ● 社会属性：地位、角色、民族、职位、… ● 内容或行为偏好：喜欢上网、喜欢看小说、喜欢某项运动、… ●… ► 需要有集成的数据，才能做好。北京交大数据仓库与大数据工程课程组 9 Data Warehouse and Big Data Engineering，BJTU 集成问题举例集成过程的编码一致性转换应用A m, f 应用B 1, 0 应用C x, y 应用D 男，女 m,f 操作型环境数据仓库解决编码的不一致问题北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 集成问题举例集成过程中的度量单位转换应用A 管道,厘米应用B 管道,英寸应用C 管道,千立方英尺应用D 管道，码厘米操作型环境数据仓库北京交大数据仓库与大数据工程课程组度量单位不一致的问题 Data Warehouse and Big Data Engineering，BJTU 集成需要解决的其他问题 ►不一致的描述 ►不一致的关键字 ►同一属性用不同的名称 ►同一名称代表不同的属性 ►…… 北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU （3）非易失性 ►非易失性(Nonvolatile) ● 不进行一般意义上的更新 ● 一般以批量方式装载 ● 构成相对永久的历史数据集北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU (4) 时变性(time-variant) ►时变性 ●数据仓库中的数据一般都有时间属性，时间作为关键字结构的一部分。 ●操作型系统的数据都是当前值数据，而数据仓库中则保存着历史数据。 ●数据仓库数据与操作型系统的数据的时间跨度存在很大差异 ○操作型系统：一般60-90天 ○数据仓库：5-10年北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 查询时间航班起飞日期 12 10 8 6 0 单位：分钟北京交大数据仓库与大数据工程课程组查询时间 18 14 查询量单位：次 4 2 2014/11/29 2014/11/27 200000 2014/11/25 250000 2014/11/23 2014/11/21 2014/11/19 2014/11/17 2014/11/15 2014/11/13 2014/11/11 2014/11/9 2014/11/7 50000 2014/11/5 100000 2014/11/3 2014/11/1 2014/11/29 2014/11/27 2014/11/25 2014/11/23 2014/11/21 2014/11/19 2014/11/17 2014/11/15 2014/11/13 2014/11/11 2014/11/9 2014/11/7 2014/11/5 2014/11/3 2014/11/1 从上海出发 0:00 1:00 2:00 3:00 4:00 5:00 6:00 7:00 8:00 9:00 10:00 11:00 12:00 13:00 14:00 15:00 16:00 17:00 18:00 19:00 20:00 21:00 22:00 23:00 0:00 1:00 2:00 3:00 4:00 5:00 6:00 7:00 8:00 9:00 10:00 11:00 12:00 13:00 14:00 15:00 16:00 17:00 18:00 19:00 20:00 21:00 22:00 23:00 时间序列数据案例从北京出发前往北京 1000000 800000 150000 600000 查询量单位：次 3 2 查询量 400000 单位：次 0 200000 0 航班起飞日期 16 5 4 查询量单位：次 1 0 单位：分钟 Data Warehouse and Big Data Engineering，BJTU 2. 大数据的主要特征 ►数据量巨大 ►数据类型多 ►数据的产生速度快 ►可度性 ►真实性 ►复杂性北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 内容提纲数据仓库与大数据主要特征数据仓库与大数据平台总体数据架构数据仓库与大数据平台数据组织结构数据环境组成与应用支撑软硬件技术环境北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 1. 数据组成总体层次结构高度综合级元数据轻度综合级 (数据集市) 当前细节级操作型转换 OLTP环境数据—数据源早期细节级生产线每月销售 2000-2015 子生产线每周销售 2008-2015 销售细节 2013-2015 销售细节 2000-2012 具有细节级、轻度综合级、高度综合级数据等多粒度数据。 Online, Near line, and Offline Data Storage 北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 相似数据层次架构图生产线每月销售高度综合级（2006-2017）子生产线每周销售轻度综合级（2006-2017）元数据销售细节（2016-2017）当前细节级操作型转换近线销售细节 OLTP环境早期细节级北京交大数据仓库与大数据工程课程组（2011-2015）销售细节（2006-2010） Data Warehouse and Big Data Engineering，BJTU 2. 细节数据 ► 细节数据是平台数据中规模最大的数据，来自 OLTP环境 ► 细节数据常常又分成 ● 当前细节级 ● 早期细节数据 ► 数据的产生时间与应用情况在通常情况下是紧密相关的，越新鲜的数据被访问的可能性更高，越陈旧的数据访问频率越低。 ► 不同热度的细节数据可能会放入不同的存储层级中北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 3. 环境中的多级存储体系 ► 根据向用户提供服务的模式，细节一般可以分成三个层级 ● Online—热数据，提供在线服务，使用率高 ● Near line—近线数据，温数据，使用率不高 ● Offline—离线数据，归档数据，冷数据，使用率不高 ► 三个层级的划分标准 ● 时间标准 ● 使用热度标准 ● 被使用与否 ► 注意：需要建立三层数据体系间的流动解决方案北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 4. 多层级综合或汇总数据高度综合思考：为什么要有不同层级的综合数据？轻度综合细节数据粒度与多粒度级数据北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 5. 元数据 ► 元数据(Metadata)是数据架构中关于数据的数据，即描述一个数据环境中数据的组成、结构、定义、关系、处理流程等的数据 ► Metadata is "data / information that provides information about other data" ► 元数据是数据管理与图书情报领域的一个非常重要的概念。 ► 在传统的OLTP系统和数据仓库环境中都应该具有元数据。 ► 元数据本身也是数据仓库数据架构中重要组成部分。北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 元数据的分类 ► Descriptive metadata describes a resource for purposes such as discovery and identification. It can include elements such as title, abstract, author, and keywords. ► Structural metadata is metadata about containers of data and indicates how compound objects are put together, for example, how pages are ordered to form chapters. It describes the types, versions, relationships and other characteristics of digital materials. ► Administrative metadata provides information to help manage a resource, such as when and how it was created, file type and other technical information, and who can access it. ► 元数据另一种分类角度：业务元数据和技术元数据北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 元数据相关概念 ► 数据库中的数据字典就是元数据的一种。 ► 元数据对于数据仓库就好比数据字典对于数据库一样重要 ► 用于对各种数据进行描述，说明它们之间的关系，是数据仓库的应用灵魂，是不可或缺的组成部分。 ► 元数据模型 ● 用于表达元数据的数据模型 ► 元元模型 ● 用于表达元数据的数据结构的模型 ● 元数据管理工具层的数据模型北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 内容提纲数据仓库与大数据主要特征数据仓库与大数据平台总体数据架构数据仓库与大数据平台数据组织结构数据环境组成与应用支撑软硬件技术环境北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 数据组织结构 ►面向主题的数据组织方法 ►粒度与多粒度级数据组织 ►数据分区 ►活样本数据集组织方法 ►三种常见细节数据与汇总数据组织形式 ►整个架构中的操作型数据窗口 ►数据清除问题北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 1. 面向主题的数据组织方法 ► 面向主题的概念 ► 面向主题与面向业务应用组织数据的区别 ► 主题划分方法 ► 主题区域的概念 ► 主题区域的重叠 ► 主题区域数据集特性 ► 主题划分案例北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU (1) 什么是面向主题？ ► 什么是面向主题？ ● 数据仓库应该针对企业的主要分析主题进行构造。 ● 主题：数据分析的关注范围；分析需求集；数据利用需求集; ► 面向主题是分析型应用的需求特点。北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU (2) 面向主题与面向业务应用组织数据的区别 ► 面向业务应用的数据组织方法 ● 紧密围绕具体业务场景的业务相关数据需求，去设计数据模型，组织业务应用，记录相应业务数据 ● 具有大量与具体业务过程与环节相关的细节数据 ► 面向决策支持主题的数据组织方法 ● 根据决策支持主题的需求，去企业信息系统环境中找到相应数据，进行集成与合理的数据组织，加工出决策支持需要的数据 ● 从现有数据出发，服务决策支持需求主题，组织数据北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 分析型应用与业务型应用的不同数据生成与消费关系 ► 业务型应用(操作型应用) ● 如何快捷地实现业务，生成并记录数据 ● 基础数据的制造者。业务型应用 ► 分析型（决策支持型）应用生成 ● 根据事实数据，对企业运营情况进行分析，用于决策支持； Data ● 利用数据，根据数据寻找信息；利用 ● 利用信息服务于业务应用 ● 数据的消费者。北京交大数据仓库与大数据工程课程组分析型应用 31 Data Warehouse and Big Data Engineering，BJTU 分析型应用举例 ► 商品采购 ● 业务应用系统：怎样更方便、更快地实现商品采购业务 ● 分析处理系统：同一商品选择哪个采购渠道？如何给某个产品选择合适营销客户？ ► 电信公司 ● 业务应用系统：如何保证为客户服务的业务能正常开展？如何确保信号质量和稳定性？ ● 分析系统：客户转网分析；客户分析；产品推荐；北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU (3) 主题划分方法 1. 收集决策支持需求 2. 将决策支持分析需求进行归类 3. 用一个主题名称命名将归类出不同的需求集 4. 根据主题内的每项分析需求，组织主题所需要的数据范围，确定出主题区域。 ► 例如，收集需求后，发现有许多需求与供应商有关，则把这些需求归成一类，称为“供应商分析”主题。北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 主题划分案例1 ► 电信公司数据仓库主题划分 ► 北京移动组织架构 ● 综合部、战略与法律事务部、计划建设部、财务部、 HR、市场经营部、品质保障部、集团客户部、数据业务部、网络部、信息系统部、采购部、审计部、客户服务中心、网络优化中心、网络运行支撑中心、工程建设中心、传输中心、培训中心、行政中心、党群工作部、纪检监察、工会北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 电信公司的客户主题 ►客户主题主要完成经营分析中对客户的各种属性，客户的消费行为及客户的发展动向等进行分析。 ►主题细分 ● 个人客户 ● 大客户 ● 集团客户北京交大数据仓库与大数据工程课程组 35 Data Warehouse and Big Data Engineering，BJTU 客户主题分析与处理 ►个人客户数据处理 ►大客户异动分析 ►个人大客户分析 ►大客户新业务分析 ►集团客户分析北京交大数据仓库与大数据工程课程组 36 Data Warehouse and Big Data Engineering，BJTU 电信公司的用户主题 ► 用户资料是整个经营分析系统的核心部分。是其它分析主题的基础。 ► 个人用户的基本资料信息数据刷新以及资料中关键维度的分析 ► 个人用户的业务变更数据的获取及分析数据的生成 ► 个人用户的积分数据的获取及积分的聚合数据获取北京交大数据仓库与大数据工程课程组 37 Data Warehouse and Big Data Engineering，BJTU 用户主题处理与分析功能 ► 用户基本信息处理 ► 用户转网分析 ► 用户扩展信息处理 ► 用户积分信息处理 ► 用户品牌套餐变更北京交大数据仓库与大数据工程课程组 38 Data Warehouse and Big Data Engineering，BJTU 电信公司的资源主题 ► 从时间、地域、和状态的角度对业务资源包括号码和卡资源的使用情况进行分析，以提高资源的利用率。 ► 号码资源 ● 对号码资源的使用情况分析，统计各个品牌的使用率、吉祥度等 ► 卡资源 ● 对卡资源进行分析处理北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 其它主题 ►服务使用主题 ►账务收益主题 ►客户服务主题 ►结算主题 ►… 北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU (5) 主题区域及其特性 ► 主题域或主题区域—Subject Area ► 解释1：主题所涉及的决策支持需求领域或范围 ► 解释2：与该主题决策支持需求相关的数据构成的数据区域或数据范围—主题数据区域 ► 显然，范围明确的决策支持需求需要相应的一定范围内的数据集合来支撑北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 主题区域应该具有的总体特性 ►主题区域应该具有： ● 独立性 ○ 具有独立的内涵，明确的界限，可以有交叉。 ● 完备性 ○ 对任何一个该领域的决策支持需求，都应能在该领域中找到所需的数据。 ○ 有一个逐步完善的过程。北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 主题与关系型数据表集 ►每一个主题是通过一系列的相应的数据表物理地实现的。 ►数据表集在逻辑上所表示的、所能支持的分析范围即称为主题域。 ►在关系型的物理数据平台上 ● 一个主题域 一套物理数据表北京交大数据仓库与大数据工程课程组 43 Data Warehouse and Big Data Engineering，BJTU 传统数据仓库中的主题数据集 ► 在企业级数据仓库中 ● 用一组界定的物理表表示相应主题 ► 在数据集市层的OLAP工具中 ● 常见用数据立方体(Data Cube)来表示针对主题的更小范围的分析. ● 数据立方体的数据基础，也是一组数据表集北京交大数据仓库与大数据工程课程组 44 Data Warehouse and Big Data Engineering，BJTU 数据仓库+大数据架构：混合架构 Application 集市层 Mart Traditional Data Warehouse Application Mart 应用层 Application Mart ODS Big Data Data Warehouse Hadoop OLTP系统北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 在混合型架构中主题数据集 ►混合型架构中主题区域组成 ●大数据平台中数据集 ●关系型平台中的表集 ►两类架构中的数据集之间存在语义关系与计算逻辑北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 案例2—电子商务相关的数据分析主题 ►商品分析主题 ►供应商分析主题 ►客户分析主题 ►店铺分析主题北京交大数据仓库与大数据工程课程组 47 Data Warehouse and Big Data Engineering，BJTU 主题相关数据(主题域)举例 ► 商品分析主题 ● 商品固有数据 ● 商品类别数据 ● 商品采购数据 ● 商品销售数据 ● 商品库存数据 ● 商品被搜索记录 ● 商品被点击记录 ●… 北京交大数据仓库与大数据工程课程组 48 Data Warehouse and Big Data Engineering，BJTU 主题相关数据(主题域)举例 ►供应商分析主题 ●供应商固有数据 ●供应商商品数据 ●供应商退货数据 ●… 北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 主题相关数据(主题域)举例 ► 商铺 ● 商铺基本信息 ● 商铺销售数据 ● 商铺采购数据 ● 商铺被投诉记录 ● 商铺供应商退货数据 ● 商铺客户退货数据 ●… 北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 主题相关数据(主题域)举例 ►客户分析主题 ●客户固有数据 ●客户购物记录 ●客户搜索记录 ●客户点击记录 ●客户投诉记录 ●客户退货记录 ●… 北京交大数据仓库与大数据工程课程组 51 Data Warehouse and Big Data Engineering，BJTU 主题区域之间存在数据重叠特点商品供应商客户商铺 ► 表现了两个主题之间的联系 ● 商品销售信息与客户购物信息 ► 仅仅是逻辑上的重叠，而不应是物理上的重叠 ► 仅仅是在细节级上的重叠 ► 并不是两两重叠北京交大数据仓库与大数据工程课程组 52 Data Warehouse and Big Data Engineering，BJTU 主题域数据结构及存储形态特点存储形式不同基本客户数据 2000-2011 Customer ID From date To date Name Address Phone Dob sex …… 基本客户数据 2012-2015 Customer ID From date To date Name Address Credit rating Employer dob sex …… 客户活动汇总 2000-2015 客户活动细节客户活动细节客户活动细节 2006-2012 2013-2015 2000-2005 Customer ID Month Number of trans Average tx amount Tx hight Tx low Txs cancelled …… Customer ID Activity date Amount Location For item Invoice no Clerk ID Order no …… Customer ID Activity date Amount Location Order no Line item no Sales amount Invoice no Deliver to …… 不同阶段数据结构有变化不同阶段数据结构有变化北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 存储介质的不同(磁盘和磁带) 客户主题基本客户数据 2000~2011 基本客户数据 2012~2015 客户活动 2011~2015 客户活动细节客户活动细节客户活动细节 2013-2015 2006~2012 2000~2005 北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 存储介质的不同意味着… ► 可能具有多个DBMS对不同数据分别进行管理 ► 某些数据没有被DBMS所管理 ● 但也算是数据仓库和大数据平台的一部分 ► 存放原则—或数据迁移的原则 ● 访问频繁且占用存储空间小的数据存放在快速且相对昂贵的存储介质上。 ● 访问较少且占用存储空间大的数据存放在廉价、慢速的介质上。北京交大数据仓库与大数据工程课程组 55 Data Warehouse and Big Data Engineering，BJTU 同一主题数据集一般具有共同主键 Customer ID From date To date Name Address Phone Dob sex …… 北京交大数据仓库与大数据工程课程组 Customer ID From date To date Name Address Credit rating Employer dob sex Customer ID Activity date Amount Location For item Invoice no Clerk ID Order no …… Customer ID Month Number of transactions Average tx amount Tx hight Tx low Txs cancelled …… Customer ID Activity date Amount Location Order no Line item no Sales amount Invoice no Deliver to …… Data Warehouse and Big Data Engineering，BJTU 主题数据集中的数据中都具有时间 Customer ID From date To date Name Address Phone Dob sex …… Customer ID From date To date Name Address Credit rating Employer dob sex Customer ID Activity date Amount Location For item Invoice no Clerk ID Order no …… 北京交大数据仓库与大数据工程课程组 Customer ID Month Number of transactions Average tx amount Tx hight Tx low Txs cancelled …… Customer ID Activity date Amount Location Order no Line item no Sales amount Invoice no Deliver to …… Data Warehouse and Big Data Engineering，BJTU 2. 粒度与多粒度级数据组织 ►粒度的概念与理解 ►平台中多粒度级数据关系 ►平台中粒度级设计因素北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU （1）粒度(Granularity) ► 在数据仓库环境中，分析应用需求决定了环境中必须具备不同粗细程度或层次的数据。引出粒度的概念： ● 数据粒度是描述数据环境中各种数据的细节程度或综合程度的高低的指标 ► 数据细节程度越高，粒度级就越低，粒度越小 ► 数据细节程度越低，粒度级就越高，粒度越大 ► 粒度级设计是数据仓库中一个重要的设计问题，影响整个平台的架构。北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU (2) 粒度的比拟细沙粒粒度级低北京交大数据仓库与大数据工程课程组小沙粒泥团粒度级中等大石头粒度级高 Data Warehouse and Big Data Engineering，BJTU 两级粒度案例客户一个月内的所有通话细节客户一个月内的电话通话汇总低粒度级—高细节级高粒度级—低细节级北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU （3）主题内多粒度级数据间的关系高粒度级数据中粒度级数据不同层级数据之间存在什么关系? 低粒度级数据北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 关系1—数据计算关系高粒度级数据中粒度级数据低粒度级数据北京交大数据仓库与大数据工程课程组关系1：计算关系，或数据依赖关系，从细节数据到高粒度级数据的多对一汇总关系。具有细节数据，总能汇总得到高粒度级的数据。对应于BI工具中的常见操作名称： ROLL UP，卷起，上卷，汇总汇总计算客户一个月内的所有通话细节客户一个月内的电话通话汇总 Data Warehouse and Big Data Engineering，BJTU 回忆数据库中的分组聚集操作 ► Grouping By & Aggregation ► Group By a1, a2, …, ak ● 分组操作：将元组根据分组标准将(a1, a2, …, ak)的属性值完全相同的元组归入同一组 ► Aggregation Functions ● 根据多个元组的值，采用某个聚集函数，计算出一个指标 ● 常见标准聚集函数：Sum, Avg, Count, Min, Max, … ● 自定义任意多对一映射函数 ► select a1, a2, sum(…), avg(…), count(…) from … ► where … ► group by a1, a2 北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 汇总计算关系案例 ► 设有如下各粒度级数据 ● 数据模式1（城市，商品类别，周，销售量） ● 数据模式2（门店，商品小类，周，销售量） ● 数据模式3（门店，商品，周，销售量） ● 数据模式4（门店，商品，天，销售量） ► 场景1：批量汇总计算 ► 场景2：增量汇总计算 ► 问题：如果实现这些计算需求北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 批量计算与增量维护关系分析问题：选哪条路数据模式1（城市，商品类别，周，销售量）数据模式2（门店，商品小类，周，销售量）数据模式3（门店，商品，周，销售量）数据模式4（门店，商品，天，销售量）北京交大数据仓库与大数据工程课程组问题：凭什么去选择计算用数据源? Data Warehouse and Big Data Engineering，BJTU 关系2—一对多细化分析关系高粒度级数据中粒度级数据低粒度级数据北京交大数据仓库与大数据工程课程组关系2：一对多细化分析关系，高粒度级中的一条数据对应于低粒度级数据中的多条数据对应于BI工具中的常见操作，Drill down：钻取，下钻，即从某高粒度的数据项出发，进而了解对应的细节数据 Data Warehouse and Big Data Engineering，BJTU Drill Down相关问题案例与思考 ► 设有如下各粒度级数据 ● 数据模式1（城市，商品类别，周，销售量） ● 数据模式2（门店，商品小类，周，销售量） ● 数据模式3（门店，商品，周，销售量） ● 数据模式4（门店，商品，天，销售量） ► 场景1：用户界面数据视图模式与数据模式1一致，管理者发现上周城市A的商品类别B销量大增（发现异常，产生疑惑），想看看该城市各门店商品类别B的上周销售情况（原因分析，需要进一步的信息），（Give me what I say I want, and I can tell you what I really want） ► 查询需求结果模式为（门店，商品类别，周，销售量），显然，系统中没有与本模式对应的数据集 ► 问题：如果响应这个Drill Down需求? 北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU Drill Down关系分析数据模式1（城市，商品类别，周，销售量）起点视图（城市，商品类别，周，销售量） Drill Down 目标视图（门店，商品类别，周，销售量）数据模式2（门店，商品小类，周，销售量）数据模式3（门店，商品，周，销售量）数据模式4（门店，商品，天，销售量）北京交大数据仓库与大数据工程课程组查询模式（门店，商品类别，周，销售量）该模式对应数据不存在，怎么办? 解决方案：选择其他可用数据去回答系列问题：哪些数据可以回答？谁知道哪些数据可以回答？如何才能知道哪些数据可以回答 Data Warehouse and Big Data Engineering，BJTU Drill Down相关问题案例续 ► 场景2：若已经切换到城市A各门店商品类别B的上周销售视图，视图2（门店，商品类别，周，销售量），发现门店1的商品类别B上周销售量特别大（阶段性信息，管理者脑中疑惑得到部分解答）。 ► 此时想看看到底是门店1哪个商品上周销量特别大（还存在疑惑，还需要进一步的信息）。 ►进一步的查询需求结果模式为（门店，商品，周，销售量） ►问题：如果响应这个Drill Down需求? 北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU Drill Down关系分析起点视图（门店，商品类别，周，销售量）数据模式1（城市，商品类别，周，销售量） Drill Down Q2（门店，商品，周，销售量）数据模式2（门店，商品小类，周，销售量）数据模式3（门店，商品，周，销售量）数据模式4（门店，商品，天，销售量）北京交大数据仓库与大数据工程课程组查询模式（门店，商品，周，销售量）该模式对应数据存在解决方案：选择模式3和4都能回答相应问题：选择哪个最好，谁知道？为什么知道？ Data Warehouse and Big Data Engineering，BJTU 关系3—查询负载分担关系高粒度级数据中粒度级数据低粒度级数据北京交大数据仓库与大数据工程课程组 Queries 关系3：查询负载分担关系通过高粒度级数据来支撑粒度级在其之上的查询，降低低粒度级数据体系的查询支撑压力。建立多粒度级数据的根本原因，空间换时间在数据一致的情况下，在可回答的前提下，优先选择高粒度级数据回答查询。如何保证多层数据间的一致性是数据维护的问题 Data Warehouse and Big Data Engineering，BJTU 集合性查询更为普通 ► 在数据仓库的分析应用中，集合性查询更普遍，例如： ● 北京移动用户上月平均打了多少个长途电话？ ► 因此，综合型数据更能有效回答分析查询问题 ► 普通分析型处理访问模式对数据的需求 ● 95%的信息处理发生在轻度综合级以上 ● 只有5 %的信息处理发生在细节层上。北京交大数据仓库与大数据工程课程组 73 Data Warehouse and Big Data Engineering，BJTU 多粒度级系统中的关键关系 ► 必须保存各类模式对应的数据之间的关系 ► 这种关系数据也是典型的元数据 ► 关系的用途 ● 让程序员知道，定制编写程序，根据数据间关系，满足这种动态查询需求，多数工程实践方法 ● 某些OLAP分析工具中间件，掌握数据间关系以后，自动生成计算代码，满足查询需求相应知识：OLAP分析工具或BI工具的常见功能、实现机制、内容结构，多维数据模型，元数据数据模型设计部分将介绍相关概念北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU (4) 粒度级设计需要考虑的因素 ► 粒度级设计 ● 设计需要保存哪些粒度级数据，需要保存多长时间 ► 常见因素 ● 空间约束 ● 时间约束 ● 业务要求 ● 其他要求（法律法规等） ► 粒度级设计方法，见后续数据模型设计北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 3. 环境中的数据分区或分割 ►分区定义 ►分区的必要性与普通性 ►分区的常见原则 ►分区透明性北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU （1）数据分区的定义 ► Data Partitioning, Data Partition ● A partition is a division of a logical database or its constituent elements into distinct independent parts. Database partitioning is normally done for manageability, performance or availability reasons, or for load balancing ► 分区的目的 ● 使得数据能够形成易于管理和操作的较小数据单元. Partitioned 北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU （2）分区的必要性与普遍性 ► 在数据仓库与大数据平台构建中，问题不是要不要分区的问题，而是怎么分区的问题。 ► 如果数据单元过大，则下面的操作不好实现： ● 重新调整结构，Restructuring ● 索引，Indexing ● 顺序扫描，Sequential scanning ● 数据重组，Reorganization ● 恢复，Recovery ● 监控，Monitoring ► 因此，几乎所有的细节数据都需要分区北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 思考并回答问题 ► 为什么将大数据集进行分割管理后有利于数据的插入效率？ ► 数据分割对索引有什么影响？ ► 对大数据集进行数据分割为什么有利于数据清除？ ● 相似问题，什么样的房子好拆？ ● 相类似为什么动车组容易装配 ► 对大数据集分割与并行与分布式计算的关系？北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU (3) 两种基本数据分割方法 ► 设有数据集S(a1, a2, …, an), 且有一个对S的分割方案 (S1, S2, …, Sk) ► 横向分割—行分割 ● ∀𝑺𝒊=𝟏..𝒌 , Si 的模式与S完全相同，且 𝒊=𝟏..𝒌 𝑺𝒊 = 𝑺 ► 纵向分割—列分割 ● ∀𝑺𝒊=𝟏..𝒌 ，设其模式为 𝒂𝒊𝟏 , 𝒂𝒊𝟐 , … , 𝒂𝒊𝒎𝒊 , 𝒊=𝟏..𝒌 𝒂𝒊𝟏 , 𝒂𝒊𝟐 , … , 𝒂𝒊𝒎𝒊 = 𝒂𝟏 , 𝒂𝟐 , … , 𝒂𝒏 ，且每个子模式的主键与S相同。北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU （4）分区标准—划分属性 ► 标准 ● 根据时间范围 ● 根据业务类别 ● 根据地理位置 ● 根据组织结构单元 ● 根据记录主键序号范围 ● 以上几种方式的结合 ► 分区的选择由开发者决定，但是一般必须按日期进行划分。北京交大数据仓库与大数据工程课程组 81 Data Warehouse and Big Data Engineering，BJTU （5）数据分区与数据管理系统设计使用人员 RDBMS HDFS … 数据管理系统谁分的谁知道怎么分的通过什么分的 Partitioned 关系到开发、维护的透明性、简便性北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 分区与数据管理系统间的关系 ► 系统层分区—由数据管理系统层自动分 ● 系统层的分区是系统提供的一个功能，各个分区在逻辑上一个表，物理上属于不同的分区，系统知道分区间的逻辑关系。 ● HDFS自动切分后多备份存储，Oracle等RDBMS分区 ► 应用层分区 ● 应用层的分区完成由应用代码实现，由开发者和程序员控制，系统并不知道分区间存在什么关系。 ● 管理、设计都很麻烦，透明性不好 ● 在一些关系型数据库，因为前后数据版本有小区别，不得于需要这样，HDFS能部分这样的问题北京交大数据仓库与大数据工程课程组 83 Data Warehouse and Big Data Engineering，BJTU 两种分区类别：应用层和系统层分区的优缺点 ► 系统层分区：由DBMS实现数据分区 ► 应用层分区：由数据仓库应用平台实现数据的分区管理。 ► 一般在系统层分区的便于访问，少写访问代码，在应用层的访问如果有涉及多个表，则需要手工编写代码加以实现。 ► 但是，因为不同分区可能在结构上会有些不同，所以也常常需要在应用层进行分区。 ► 如果在系统层进行分区，则分区间的数据的结构必须是一样的，如果数据的时间中跨度很长，则数据定义很有可能会发生变化。这样的话，这种方法就不可行。 ► 多数情况，有可能是两种方法相结合。 84 北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU Oracle的分区方法 ► 范围分区 ● 按照属性顺序范围 ► 散列分区 ● 按照主键序号散列 ► 复合分区 ● 以上两种方法的复合使用北京交大数据仓库与大数据工程课程组 85 Data Warehouse and Big Data Engineering，BJTU 分区举例 ► 一个寿险公司的例子 ● 2000 health claims ● 2001 health claims ● 2002 health claims ● 1999 life claims ● 2000 lilfe claims ● 2002 life claims ● 2000 casualty claims ● 2001 casualty claims ● 2002 casualty claims ► 例子中的两个分区标准：year, type of claim 北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU Hadoop distributed file system ► The Hadoop distributed file system (HDFS) is a distributed, scalable, and portable file-system written in Java for the Hadoop framework. A Hadoop cluster has nominally a single namenode plus a cluster of datanodes, although redundancy options are available for the namenode due to its criticality. Each datanode serves up blocks of data over the network using a block protocol specific to HDFS. The file system uses TCP/IP sockets for communication. Clients use remote procedure call (RPC) to communicate between each other. ► Because the namenode is the single point for storage and management of metadata, it can become a bottleneck for supporting a huge number of files, especially a large number of small files. 北京交大数据仓库与大数据工程课程组 87 Data Warehouse and Big Data Engineering，BJTU HDFS ► HDFS stores large files (typically in the range of gigabytes to terabytes) across multiple machines. It achieves reliability by replicating the data across multiple hosts, and hence theoretically does not require RAID storage on hosts (but to increase I/O performance some RAID configurations are still useful). With the default replication value, 3, data is stored on three nodes: two on the same rack, and one on a different rack. Data nodes can talk to each other to rebalance data, to move copies around, and to keep the replication of data high. 北京交大数据仓库与大数据工程课程组 88 Data Warehouse and Big Data Engineering，BJTU HDFS ► HDFS was designed for mostly immutable files and may not be suitable for systems requiring concurrent write-operations 北京交大数据仓库与大数据工程课程组 89 Data Warehouse and Big Data Engineering，BJTU 4. 活样本数据集组织方法 ► Living Sample Database or Dataset ► 一种特殊的数据设计 ● 原因：数据仓库数据量太大 ● 活样本:需要周期性的刷新的数据仓库数据的一个子集。 ► 在有些情况下，这种设计 ● 非常有用 ● 可以节省大量的资源 ● 访问起来很方便北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 缺点、适用场合和采样方法 ► 严重的缺点 ● 并不是一个通用目的的数据库，仅仅是样本 ● 不适合于需要处理单条记录的数据 ► 适用场合 ● 统计分析 ● 趋势分析 ● 综合性、集合性视图 ► 采样方法 ● 随机北京交大数据仓库与大数据工程课程组 91 Data Warehouse and Big Data Engineering，BJTU 5. 三种常见导出数据组织形式 ► 三种常见的导出数据组织形式 ● Simple cumulative structure，简单累积 ● Rolling summary，轮转综合 ● Simple Direct，简单直接文件北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU (1) 简单累积每天交易/业务数据数据传输操作型/业务数据按天汇总 1月1日 1月2日 1月3日 ... 2月1日 2月2日 2月3日 ... 3月1日 3月2日 3月3日 ... 需要以强大的存储能力作为保障北京交大数据仓库与大数据工程课程组简单累积结构就是系统以按一定时间策略到达数据仓库的细节数据为基础，根据导出数据模型的要求，不断地生成导出数据，并在系统中进行累积，直至导出数据达到生命周期的终点才清理出系统。 Data Warehouse and Big Data Engineering，BJTU 案例 ► 例如，假设铁路客票系统产生的新销售记录每天按一定的时间间隔分批次进入客运大数据平台。平台中除将新销售记录按要求进行累积存储到存储平台以外，还需要根据销售记录进行每日售票统计，例如，假设需要按模式1：（车次，发站，到站，发车日期，座位级别，销售日期，销量）生成各车次分 OD分类别座位销售情况数据。 ► 在这个例子中，简单累积策略根据原始客票销售数据与模式1之间的计算关系，采用一定的计算策略，每生模式1所对应的数据，在平台不断累积并保存数据。直到数据达到较长的年限，如5年以后，才可能会清理出平台。北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 例：简单累积结构的使用 ► 下列数据表哪些适合于简单累积结构 ● 商场销售数据表 ● 商场顾客表 ● 商场销售人员表 ● 银行存取款交易数据表 ● 银行网点名单数据表 ● 电信通话记录表 ● 铁路或航空售票数据表 ● 航班查询日志北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU (2) 轮转综合方式 ► 在有些应用背景，特别是存储空间有限情况下，也可能会采用轮转综合策略。 ► 轮转综合策略在存储空间有限且应用需求允许的情况下，将有限的存储空间划分给彼此相关的一组不同层次的导出数据使用，每个层次的导出数据只保留长度固定的时间跨度的数据。 ► 例如，将系统中某个主题紧密相关的导出数据划分日、周、月、年四个级别。天级别数据最多循环保存最近的15天，周级别数据最多保留最近的10周，月级别数据最多保存最近的24个月，年级别数据最多保存最近5年。并根据这个原则轮转将指定时间级别的最老数据清除出平台。北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 轮转综合示意图每天交易/业务数据数据传输操作型/业务数据 ... 周一周二周三 ... 按天汇总周日 ... 第一周第二周第三周 ... 第四周 ... 一月二月三月 ... 十二月 ... 第一年第二年第三年北京交大数据仓库与大数据工程课程组 ... 第n年 Data Warehouse and Big Data Engineering，BJTU 轮转综合 ► 在现实环境中，轮转综合是一种很有用的策略，特别是细节数据规模巨大，存储空间又非常有限，且各层级数据时间窗口的设计能满足应用要求的情况下，是非常有益的策略。但是其缺点也很明显，即在设置的时间周期进行的轮转的过程中，各层级数据都会丢失数据。每层的时间窗口设得越小，丢失的相应层级的数据就越多。 ► 当然，在累积策略中，因为导出数据达到一定的年限以后也会被清理出平台，因此，在轮转综合策略中，极端情况下如果将相应层的导出数据的时间窗口设置成相应时长，则该策略等价于累积式的策略。北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 轮转综合与简单累积的比较 ► 轮转综合 ● 紧凑 ● 丢失一些细节 ● 越旧的数据，丢失的细节越多 ► 简单累积 ● 需要大量的存储 ● 不丢失细节 ● 需要有更多的数据处理功能北京交大数据仓库与大数据工程课程组 99 Data Warehouse and Big Data Engineering，BJTU (3)快照拼接策略 ► 快照拼接策略是指根据同一个数据集不同时间点上的快照数据集或新增变化数据，生成反映事物状态变化的连续数据条目，形成连续数据文件的策略。 snapshot Operational Data J Adams P Anderson K Appleby L Azimoff 123 Main Street 456 High Street 10 A Street 64 N Ranch Rd. January Customers 北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 根据快照拼接生成连续文件 January Customers J Adams P Anderson K Appleby L Azimoff ……… 123 Main Street 456 High Street 10 A Street 64 N Ranch Rd. J Adams W Abraham P Anderson P Anderson K Appleby L Azimoff ……… 北京交大数据仓库与大数据工程课程组 Jan-present Feb-present Jan-Jan Feb-present Jan-present Jan-present February Customers J Adams W Abraham P Anderson K Appleby L Azimoff ……… 123 Main Street 12 Hwy 9 1455 Tincup Ct 10 A Street 64 N Ranch Rd. 123 Main Street 12 Hwy 9 456 High Street 1455 Tincup Ct 10 A Street 64 N Ranch Rd. Data Warehouse and Big Data Engineering，BJTU 案例示意 ► 再如，假设铁路客票系统会根据旅客的消费历史及旅行记录进行部分旅客信用评级，每次评级以后将评级有变化的用户数据发送到数据仓库平台，此时就可以根据原有旅客信用历史数据，根据新的用户信用变化数据，形成新的旅客连续信用记录旅客ID 信用级别开始时间结束时间 ID1 C 2014.6.1 2015.7.31 ID1 B 2015.8.1 2017.1.10 ID1 A 2017.1.11 ID2 B 2015.7.1 ID2 A 2017.3.2 ID3 B 2014.5.31 2017.3.1 … 北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 快照拼接及数据维护策略 ► 显然，在以快照的形式从数据源获取变化数据时，实施拼接策略后，将不断地根据连续文件和新的快照进行拼接。 ► 完成拼接以后，若新快照的变化内容都已经反映到相应的连续数据中，则拼接过的快照数据原则上就可以抛弃了，因此，拼接策略实际上也是一个压缩操作。 ► 当然，如果业务规则要求或空间允许，也可以将这些快照以原始备份数据的形式备存。北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 6. 整个架构中的操作型数据窗口 ► What’s the “Window of Opportunity”? ► 机会之窗，时间窗口，时间段 ►例 ● We have a window of opportunity here to deal with this disease. ● News analysis: "window of opportunity" for state banks to reduce NPLs(non-performing loan) ● Window of opportunity to back up data 北京交大数据仓库与大数据工程课程组 104 Data Warehouse and Big Data Engineering，BJTU 问题 ► 数据仓库中的数据是 ● 历史数据，档案数据； ● 至少具有24小时的历史。 ► 在整个架构环境中，还有任何其它的细节数据吗？在何处？ ● 有，在操作型环境中。北京交大数据仓库与大数据工程课程组 105 Data Warehouse and Big Data Engineering，BJTU 数据仓库中的历史数据 ► Time horizon ● 5—10 years ● A massive amount of data ► 为什么要有这么多的数据？ ● 分析型应用的要求； ● 比如，做时间序列预测，做拟合，都需要有一定数目的历史时间序列数据作为输入。北京交大数据仓库与大数据工程课程组 106 Data Warehouse and Big Data Engineering，BJTU 操作型环境细节数据的时间跨度 ► time horizon--operational window of data ► 1 week to 2 years ● Different from the time horizon of data in Data warehouse ○ Not the only difference 北京交大数据仓库与大数据工程课程组 107 Data Warehouse and Big Data Engineering，BJTU 其它区别 ► 操作型环境的细节型历史数据 ●新 ● 量小 ● 应该说概率高北京交大数据仓库与大数据工程课程组 108 Data Warehouse and Big Data Engineering，BJTU Example—bank user ► 用户可能想了解一些事务的执行情况 ● 如这个月的租金支票结清没有？ ● 那张支票款是什么时候存进去？ ● 这个月的结余是多少？ ● 银行是否取钱交了上个月的电费？ ► 因此，银行操作型环境需要保存非常详细的、近期内的数据。北京交大数据仓库与大数据工程课程组 109 Data Warehouse and Big Data Engineering，BJTU Example—bank ► 在操作型环境中能否回答如下问题 ● 5年前的是否给某个商店付了一笔款？ ● 10年前的某笔业务是否有问题？ ► 一般不能，原因 ● 操作型系统中一般不保存这类问题所涉及的数据（数据的访问的概率很低，硬件环境不支持等原因）。北京交大数据仓库与大数据工程课程组 110 Data Warehouse and Big Data Engineering，BJTU Operational windows of industries ► 行业间的操作型窗口的大小各不相同。 ● 保险业，面向用户直接交易少，数据量比较小,操作型窗口2—3年 ● 银行业，业务量大，操作型窗口30—60天。 ● 一些大型企业，业务多，不同操作型系统下的操作型窗口大小可能各不相同。北京交大数据仓库与大数据工程课程组 111 Data Warehouse and Big Data Engineering，BJTU 各行业建议窗口长度 ► Insurance—2 to 3 years ► Bank trust processing—2 to 5 yeas ► Telephone customer usage– 30 to 60 days ► Supplier/vendor activity– 2 to 3 years ► Retail banking customer account activity – 30 days ► Vendor activity – 1 years ► Loans – 2 to 5 years 北京交大数据仓库与大数据工程课程组 112 Data Warehouse and Big Data Engineering，BJTU 各行业建议窗口长度 ► Retailing SKU activity– 1 to 14 days ► Vendor activity – 1 week to 1 month ► Airlines flight seat activity – 30 to 90 days ► Vendor/supplier activity – 1 to 2 years ► Public utility customer utilization – 60 to 90 days ► Supplier activity – 1 to 5 years 北京交大数据仓库与大数据工程课程组 113 Data Warehouse and Big Data Engineering，BJTU 操作型环境细节数据时间窗口设置相关因素 ► 操作型环境的硬件处理能力 ● 可用的存储空间 ● 并发处理能力 ► 业务发展需求 ● 行业竞争需求，为用户提供更好的细节数据查询服务北京交大数据仓库与大数据工程课程组 114 Data Warehouse and Big Data Engineering，BJTU 整个环境中操作型数据重叠 ► 如果DW中的数据刷新频率不依赖于操作型窗口长度，只与本身的刷新策略或刷新频率有关，将会在整个体系结构化环境中产生部分操作型数据重叠的现象。数据重叠操作型环境北京交大数据仓库与大数据工程课程组数据仓库环境 Data Warehouse and Big Data Engineering，BJTU 另一个问题 ► 如果操作型环境中的数据与数据仓库数据之间不存在重叠，有些信息处理可能就无法实现，如： ● 涉及到操作型时间窗口内的大量数据的复杂的分析处理 ► 原因 ● 如果在操作型环境中进行一些复杂分析，对操作型环境的性能会产生影响， ► 在这种情况下，操作型窗口大小对所进行的DSS来说就很重要北京交大数据仓库与大数据工程课程组 116 Data Warehouse and Big Data Engineering，BJTU 7. 数据清除问题 ► 数据清除是一个很重要的设计问题； ► 在数据仓库中，数据也具有自己的生命周期； ► 数据仓库中的一些数据将被在某个时间点上清除出数据仓库。 ► 因此，在数据仓库设计时，应根据数据的组织形式和一致性要求，对数据仓库中数据清理过程进行设计。北京交大数据仓库与大数据工程课程组 Data Warehouse and Big Data Engineering，BJTU 几种数据清除方式 ► 数据增加到轮转综合中，但细节数据丢失。 ► 数据从高效即时访问设计如磁盘转移到大容量离线存储设备上。 ► 数据从系统中进行了实际删除处理。 ► 数据从一种体系结构转移到另一种体系结构中如从操作型系统到数据仓库中. 北京交大数据仓库与大数据工程课程组 118 Data Warehouse and Big Data Engineering，BJTU 本部分待续！