数据仓库复习提纲word.doc

书 山 有 路 数据库应用技术(数据仓库与数据挖掘复习提纲) 说明 考试形式闭卷 考试题型填空、选择、判断、名词解释、简答题、综合题。(由于试题是随机从试题库中抽取,有可能抽取的试题中不会全部包含上述的所有题型) 另外本提纲仅针对试题中的名词解释、简答题和综合题提供复习参考,不包括填空、选择、判断等其它题型的参考。

一、名词解释 1、 数据仓库是面向主题的、综合的、不同时间的、稳定的数据的集合,用以支持经营管理中的决策制定过程;

2、 数据挖掘就是从大量数据中获取有效的、新颖的、潜在有用的、最终可以理解的模式的过程;
简单的说是从大量数据中提取或挖掘知识,又被称为数据库中的知识发现。

3、 操作数据存储是一种DW的混合形式,它面向主题的、及时的、最近的和集成的信息,用于支持企业的日常的全局应用和决策制定,其中数据可以作为DW的通用数据源。

4、 OLAP是数据库系统主要应用,支持复杂的分析操作,侧重决策支持,且提供直观易懂的结果。

5、 商业智能是数据仓库(DW)、联机分析处理(OLAP)、数据挖掘等技术与资源管理系统ERP结合起来应用于商业活动实际过程中,实现了技术服务于决策的目的。

二、简答题 1、 试叙述数据仓库系统与传统数据库系统的区别 (1)、操作型数据库中的数据针对事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的;

(2)、操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是并构的,而数据仓库中的数据在对原有分期的数据库数据做抽取、清理的基础上经过系统的加工、汇总和整理得到的;

(3)、操作型数据库中的数据通常实时更新,数据根据需要及时发生变化,数据仓库的数据主要用于决策分析,对涉及的数据操作主要是数据查询和定期更细,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存;

(4)、操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史单位,因此总是包括一个时间维,以便可以研究趋势和变化。

2、试叙述数据仓库设计的步骤及每一步完成的工作 (1)、概念模型界定系统的边界;
确定主要的主题域;

(2)、技术准备工作技术评估;
技术环境准备;

(3)、逻辑模型设计分析主题域;
粒度层次的划分;
确定数据分割策略;
关系模式定义;
定义记录系统;

(4)、物理模型设计确定数据存储结构;
确定索引策略;
确定数据存放位置;
确定存储分配;

(5)、数据仓库生成设计接口和数据装入;

(6)、数据仓库的使用和维护建立DSS;
不断理解需求和完善系统;
维护DW;

3、OLAP与OLTP的区别有哪些它们适合于运行在同一个服务器上吗为什么 OLTP OLAP 用户 操作人员,低层管理人员 决策人员,高级管理人员 功能 日常操作处理 分析决策 DB 设计 面向应用 面向主题 数据 当前的, 最新的细节的, 二维的分立的 历史的, 聚集的, 多维的集成的, 统一的 存取 读/写数十条记录 读上百万条记录 工作单位 简单的事务 复杂的查询 用户数 上千个 上百万个 DB 大小 100MB-GB 100GB-TB 时间要求 具有实时性 对时间的要求不严格 主要应用 数据库 数据仓库 4、为什么要进行数据的预处理及其方法(适当举例即可) (1)、在现实社会中,存在着大量的“脏”数据 1)、不完整性 缺少感兴趣的属性;
感兴趣的属性缺少部分属性值;
仅仅包含聚合数据,没有详细数据;

2)、噪音数据 数据中包含错误的信息
存在着部分偏离期望值的孤立点;

3)、不一致性 数据结构的不一致性;
Label的不一致性;
数据值的不一致性;

(2)、数据挖掘的数据源可能是多个互相独立的数据源 关系数据库;
多维数据库(Data Cube);
文件、文档数据库 (3)、数据转换 为了数据挖掘的方便 (4)、海量数据的处理 数据归约(在获得相同或者相似结果的前提下) 数据预处理的方法 (1)、数据清理 填入缺失数据;
平滑噪音数据;
确认和去除孤立点;
解决不一致性;

(2)、数据集成 多个数据库、Data Cube和文件系统的集成;

(3)、数据转换 规范化、聚集等;

(4)、数据归约 在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减;

(5)、数据离散化 对于一个特定的连续属性,尤其是连续的数字属性,可以把属性值划分成若干区间,以区间值来代替实际数据值,以减少属性值的个数。

5、在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。

6、对于类特征化,基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么讨论哪种方法最有效,在什么条件下最有效。

7、数据仓库和数据集市的区别是什么数据仓库的体系环境具有什么特点有哪些建立数据仓库体系化环境的方法它们各有何优劣 8、 为了提高数据仓库的性能,可以在哪些方面作一些努力在各个方面分别采用什么样的技术这些技术易于实现吗 9、 数据仓库中的数据是数据库中数据的简单堆积吗它有哪些常用的数据组织方式 (1)、简单堆积文件(2)、轮转综合文件(3)、简单直接文件(4)、连续文件 10、一般来说,数据仓库采用什么样的数据模型与OLTP的数据库模型相比,这些模型有什么特点 11、数据仓库的设计包括哪些内容 收集、分析和确认业务分析需求,分析和理解主题和元数据,事实及其量度,粒度和维度的选择与设计,数据仓库的物理存储方式的设计等。

12、在内容和使用者方面,数据仓库环境中的元数据与操作型环境中的元数据有何异同 内容 (1)、DW的主题描述主题名,公共码键,描述信息等;

(2)、外部数据和非结构化数据的描述外部数据源名,存储地点,存储内容描述;

(3)、记录系统定义主题名,属性名,数据源系统,源表名,源属性名;

(4)、逻辑模型的定义关系名,属性1,,属性n;

(5)、数据进入DW的转换规则;

(6)、数据的抽取历史;

(7)、粒度的定义;

(8)、数据分割的定义;

(9)、广义索引广义索引名,属性1,,属性n;

(10)、有关存储路径和结构的描述。

定义元数据是关于数据的数据,它描述了数据的结构、内容、码、索引等项内容。

功能 (1)、元数据为决策人员访问DW提供直接或辅助信息;

(2)、元数据描述和管理从DBS到DW的数据转换;

(3)、元数据要管理DW中的数据。

13、什么是维、维层次、维成员举例说明 维观察数据的特定角度,比如时间维;

维层次数据的维可以存在细节程度不同的多个描述方面,比如时间维可以由日期、月份、季度、年等不同的层次来描述;

维成员维的一个取值称为该维的一个维成员。若一个维是多层次的,则该维的维成员是在不同维层次的取值的组合,比如2014年夏季6月22日;

14、OLAP提供哪些基本操作 (1)、切片选定二维数组的一个二维子集的动作;

(2)、切块选定二维数组的一个三维子集的动作;

(3)、旋转改变一个页面显示的维方向的操作;

(4)、上卷通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集。

(5)、下钻下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。

(6)、查询多维数据库的星型网查询模型多维数据库查询也可以基于星型网模型。星型网由从中点发出的射线组成,其中每一条射线代表一个维概念分层。

15、OLAP服务器有哪些实现方法它们的优劣是什么 (1)、关系OLAP(ROLAP)服务器 优势没有大小限制;
现有的关系数据库技术可以沿用;
可以通过SQL实现详细数据与概要数据的存储;
现有数据库已经对OLAP做了很多优化,包括并行存储,并行查询,并行数据管理,基于成本的查询优化,位图索引、SQL的OLAP扩展等大大提高了OLAP的速度。

缺点一般比MDD相应的速度慢;
不支持有关预计算的读写操作;
SQL无法完成部分计算无法完成多行的计算;
无法完成维之间的计算。

(2)、多维OLAP(MOLAP)服务器 优势性能好,相应速度快;
专为OLAP所设计支持高性能的决策支持计算,如复杂的跨维的计算;
多用户的读写操作;
行级的计算。

缺点增加系统复杂度,增加系统培训及维护费用;
受操作系统平台中文件大小的限制,难以达到TB级(10-20G)需要进行预计算,可能导致数据爆炸;
无法支持维的动态变化,缺乏数据模型和数据访问的标准。

(3)、混合OLAP(HOLAP)服务器 16、为什么不能依靠传统的业务处理系统决策分析 (1)、所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并不太关心数据查询的方便与快捷。

(2)、业务数据往往被存放于分散的衣钩环境中,不易统一查询问题,而且还有大量的历史数据处于脱机状态,形同虚设。

(3)、业务数据的数据库模式针对事务处理系统而设计,数据的格式和描述方式并不太适合非计算机专业人员进行业务上的分析和统计。

17、自然演化体系结构中存在的问题 (1)、 “蜘蛛网”问题;

(2)、数据缺乏可信性a、数据无时机;
b、数据算法上的差异;
c、抽取的多层;
d、外部数据问题;

(3)、生产问题生产率低;

(4)、从信息到数据的转换不可行性a、集成化问题;
b、没有足够的历史数据 18、试述建立多维数据库的过程 (1)、选择主题域及其主题域的商业过程;

(2)、确定事实表的粒度;

(3)、区分每一个事实表的维层次;

(4)、区分事实表的度量;

(5)、确定每一个维表的属性;

(6)、让用户验证数据类型。

19、数据挖掘的主要方法 统计分析方法、决策树、人工神经网络、基因算法、粗糙集、联机分析处理技术 20、数据挖掘中的数据分类是个两步过程,简述每步过程 (1)、学习建立一个模型,描述预定的数据类集或概念集,该模型是通过分析由属性描述的DB元组而构造的。假定每个元组属于一个预定义的类,由类标号属性确定。为建立模型所使用的元组形成训练数据集。其中的单个元组称作训练样本,并随机地由样本群选取。由于提供了每个训练样本的类标号,该步也称作有指导的学习。

(2)、分类首先评估模型(分类法)的预测准确率。保持方法是一种使用类标号样本测试集的简单方法。这些样本随机选取,并独立于训练样本。模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比。对于每个测试样本,将已知的类标号与该样本的学习模型类预测比较。

21、 试述商业智能系统的演化过程 (1)、第一代基于主机的查询与报表、面向专家 早期的商务信息系统使用批处理应用程序为商业用户提供它们所需的信息。

第一代的商务信息系统只能被诸如业务分析人员之类的熟悉数据且有相当计算机经验的人员使用。

管理人员很少能够使用这些早期的系统,他们必须依靠信息提供者来解答他们的问题,并给他们所需要的信息。

(2)、第二代 数据仓库 第二代信息系统应用了数据仓库技术。从而使性能有了一个飞跃。

(3)、第三代商业智能 数据仓库仍然不能完全解决商业用户的需求问题。

22、ODS与DW的区别 (1)、存放的数据内容不同(最大差别) ODS当前或接近当前数据,细节数据,可联机更新 DW 历史数据,细节数据和综合数据,不可变快照 (2)、数据量是不同等级 (3)、技术支持不同 ODS 要支持面向记录的联机更新,又要保证数据与源数据库系统中数据的一致性,需要的技术支持同面向应用的DBS的一样复杂。

DW 只需支持装入和存取。

(4)、面向的需求不同 ODS 满足企业的全局应