荔园在线

荔园之美,在春之萌芽,在夏之绽放,在秋之收获,在冬之沉淀

[回到开始] [上一篇][下一篇]


发信人: Pilot (青青子襟), 信区: Database
标  题: [转载] 从 数 据 库 到 数 据 仓 库
发信站: BBS 荔园晨风站 (Wed Apr 22 22:11:46 1998), 站内信件

【 以下文字转载自 Program 讨论区 】
【 原文由 zzt 所发表 】
发信人: jianzi ( 甜甜的,胖胖的~~~), 信区: DataBase
标 题: 从 数 据 库 到 数 据 仓 库
日 期: Thu Oct 17 13:10:21 1996

------------------------------------------------------------------------
从 数 据 库 到 数 据 仓 库

  中 国 人 民 大 学 数 据 与 知 识 工 程 研 究 所   王 珊   罗 立
------------------------------------------------------------------------

编 者 按

数 据 仓 库 (Data Warehouse,DW)和 联 机 分 析 处 理 (On-Line Analytical Pr
ocessing,OLAP)是 信 息 技 术 领 域 近 来 谈 论 的 一 个 热 门 话 题 。 为 此
,我 们 组 织 了 本 期 数 据 仓 库 专 题 。

伴 随 着 数 据 仓 库 的 兴 起 ,一 些 问 题 也 随 之 产 生 ,如 :数 据 仓 库 与
数 据 库 的 概 念 、 技 术 以 及 建 立 、 使 用 等 有 什 么 区 别 和 联 系
?OLAP与 OPTP(联 机 事 务 处 理 )有 什 么 不 同 ?OLAP与 DW技 术 之 间 又 有 什
么 关 系 ?这 组 专 题 的 作 者 针 对 这 些 问 题 认 真 阅 读 了 有 关 论 文
和 书 籍 ,考 察 了 DBMS厂 商 和 OLAP厂 商 的 有 关 技 术 和 产 品 ,进 行 了
十 多 次 讨 论 ,在 此 基 础 上 写 下 了 自 己 的 心 得 、 体 会 和 看 法 ,借
以 将 数 据 仓 库 技 术 的 讨 论 引 向 深 入 ;同 时 ,希 望 在 有 条 件 的 部
门 和 行 业 逐 步 创 建 数 据 仓 库 ,充 分 利 用 已 有 的 数 据 资 源 ,把 数
据 转 化 为 信 息 ,从 中 挖 掘 出 知 识 、 提 炼 成 智 慧 ,最 终 创 造 出 效
益 。


这 组 文 章 共 有 以 下 7篇 :

1.从 数 据 库 到 数 据 仓 库   本 文 论 述 了 DW产 生 的 背 景 及 其 定 义
,讨 论 了 分 析 型 数 据 和 DW的 特 征 ,介 绍 了 DW的 结 构 及 其 数 据 结 构

2.创 建 数 据 仓 库 的 方 法 、 模 型 与 步 骤   创 建 DW的 方 法 、 模 型
和 步 骤 与 传 统 的 操 作 环 境 是 有 区 别 的 ;其 数 据 模 型 是 在 整 体
企 业 范 围 内 面 向 主 题 而 建 立 的 ;在 创 建 DW的 过 程 中 ,管 理 至 关
重 要 ;从 根 本 上 讲 ,其 技 术 仍 以 数 据 库 为 基 础 。

3.操 作 数 据 存 储 :数 据 仓 库 的 补 充 — — — 兼 论 数 据 库 、 操 作 数
据 存 储 及 数 据 仓 库 的 关 系 本 文 从 多 个 角 度 论 述 了 操 作 数 据 存
储 (ODS)是 对 DW的 重 要 补 充 这 一 观 点 ,介 绍 了 ODS的 定 义 和 特 点 ,以
及 OB、 ODS与 DW的 关 系 。

4.我 国 数 据 仓 库 应 用 展 望   本 文 从 DW的 产 生 出 发 论 述 了 DW的 实
质 ,并 给 出 了 几 个 DW应 用 的 实 例 。 文 章 指 出 ,建 与 不 建 DW,取 决
于 有 没 有 相 应 的 基 础 和 需 求 ,同 时 还 要 考 虑 成 本 和 效 益 问 题。

5.论 数 据 库 仓 库 系 统 中 工 具 的 重 要 性   本 文 论 述 了 DW系 统 中
DW、 DW管 理 系 统 和 DW工 具 三 部 分 的 作 用 ,并 指 出 ,只 有 通 过 高 效
的 工 具 ,DW才 能 真 正 发 挥 出 数 据 宝 库 的 作 用 。

6.决 策 支 持 工 具 的 新 发 展 — — — 联 机 分 析 处 理   本 文 从 OLA
P出 现 的 背 景 、 OLAP与 OLAP的 区 别 、 OLAP的 实 施 、 OLAP与 DW的 关 系
等 方 面 ,对 这 一 新 技 术 作 了 介 绍 。

7.OLAP的 两 种 支 持 技 术   本 文 对 支 持 OLAP的 两 种 技 术 :基 于 多 维
数 据 库 的 OLAP实 现 和 基 于 关 系 数 据 库 的 OLAP实 现 ,作 了 较 全 面 地
分 析 与 比 较 ,同 时 介 绍 了 OLAP产 品 的 选 择 方 法 。

一 、 OLTP数 据 库 的 发 展 及 DSS的 萌 芽
==========================================
W.H.Inmon是 业 界 公 认 的 数 据 仓 库 概 念 的 创 始 人 。 在 他 写 的 《 建
立 数 据 仓 库 》 一 书 中 ,他 给 数 据 仓 库 作 出 的 定 义 是 :"数 据 仓 库
就 是 面 向 主 题 的 、 集 成 的 、 稳 定 的 、   不 同 时 间 的 数 据 集 合
,用 以 支 持 经 营 管 理 中 的 决 策 制 订 过 程 。 "它 与 传 统 的 数 据 库
目 标 有 较 大 的 不 同 。 在 过 去 几 十 年 中 ,数 据 库 技 术 ,特 别 是
OLTP(联 机 事 务 处 理 ),主 要 是 为 自 动 化 生 产 、 精 简 工 作 任 务 和
高 速 采 集 数 据 服 务 的 。 它 是 事 务 驱 动 的 、 面 向 应 用 的 。 它 的
根 本 任 务 就 是 及 时 地 、 安 全 地 将 当 前 事 务 所 产 生 的 记 录 保 存
下 来 。 这 些 用 途 准 确 地 说 只 能 归 之 为 数 据 操 作 。

随 着 社 会 的 发 展 ,人 们 已 不 满 足 于 简 单 的 数 据 操 作 ,人 们 进 一
步 产 生 了 使 用 现 有 数 据 的 需 求 ,也 就 是 利 用 现 有 的 数 据 ,进 行
分 析 和 推 理 ,从 而 为 决 策 提 供 依 据 。 这 样 的 需 求 导 致 了 决 策
支 持 系 统 (DSS)的 产 生 。 人 们 最 初 在 构 建 DSS时 ,自 然 而 然 地 想 到
要 建 立 在 DB的 基 础 上 。 因 为 ,DB技 术 正 日 趋 成 熟 ,特 别 是 关 系 数
据 库 技 术 的 飞 速 发 展 ,使 数 据 库 的 整 体 性 能 得 到 了 迅 速 提 高
。 因 此 ,建 立 了 不 少 基 于 传 统 DB的 DSS,并 且 在 许 多 领 域 中 发 挥
了 一 定 的 作 用 。


二 、 服 务 于 OLTP的 数 据 库 难 以 满 足 分 析 的 需 求
=========================================================
但 是 ,随 着 数 据 量 越 来 越 大 ,查 询 越 来 越 复 杂 ,逐 渐 出 现 了 许 多
难 以 克 服 的 问 题 。 其 中 最 严 重 的 有 以 下 几 个 :

1. 缺 乏 组 织 性
-----------------
各 个 部 门 在 进 行 分 析 的 时 候 ,为 了 不 影 响 联 机 效 率 并 取 得 对
数 据 的 全 权 控 制 ,都 是 利 用 自 己 的 抽 取 程 序 将 所 关 心 的 一 小
数 据 的 全 权 控 制 ,都 是 利 用 自 己 的 抽 取 程 序 将 所 关 心 的 一 小
部 分 数 据 从 原 始 数 据 库 中 抽 取 出 来 ,再 对 其 进 行 分 析 。 每 个
部 门 或 单 位 都 这 样 各 行 其 是 地 进 行 抽 取 ,并 且 在 抽 取 的 基 础
上 还 有 进 一 步 的 抽 取 。 这 种 横 向 与 纵 向 的 无 节 制 的 发 展 ,必
然 导 致 "蜘 蛛 网 "(Spider Web)的 产 生 。 虽 然 网 上 任 意 两 个 节 点 的
数 据 可 能 归 根 结 底 是 从 一 个 原 始 库 中 抽 取 出 来 的 ,但 他 们 的
数 据 没 有 统 一 的 时 间 基 准 ,抽 取 算 法 各 不 相 同 ,抽 取 级 别 也 不
相 同 ,并 且 可 能 参 考 了 不 同 的 外 部 数 据 。 因 而 ,对 同 一 问 题 的
分 析 ,不 同 节 点 却 会 产 生 不 同 、 甚 至 截 然 相 反 的 结 果 。 这 必
然 使 决 策 者 无 从 下 手 。


2. 效 率 极 为 低 下 , 数 据 难 以 转 化 为 有 用 的 信 息
----------------------------------------------------------
一 个 公 司 每 一 阶 段 的 业 务 都 积 累 了 大 量 的 数 据 。 然 而 ,这 些
数 据 只 是 一 种 处 于 原 始 状 态 的 资 源 ,管 理 层 要 想 在 此 基 础 上
生 成 一 个 报 告 ,就 会 遇 到 很 大 困 难 。 前 面 提 到 ,传 统 的 应 用 于
OLTP的 DB是 面 向 应 用 、 事 务 驱 动 的 。 应 用 本 来 就 是 千 差 万 别 、
零 散 索 碎 的 ,而 .且 为 了 提 高 性 能 ,数 据 还 常 常 被 分 散 在 多 个 子
系 统 中 。 因 而 ,要 利 用 支 持 OLTP 的 DB进 行 分 析 是 十 分 困 难 的 。
分 析 所 需 要 的 主 题 内 容 可 能 分 散 在 许 多 应 用 中 。 同 一 字 段 在
不 同 应 用 中 又 可 能 存 在 着 同 名 异 义 、 异 名 同 义 、 单 位 不 同 、
字 长 不 同 等 许 多 难 以 识 别 的 矛 盾 。 为 了 将 这 些 零 碎 而 且 结 构
各 不 相 同 的 数 据 统 一 起 来 ,就 要 为 各 种 数 据 类 型 定 制 相 关 转
化 程 序 ,最 终 将 所 有 数 据 集 成 以 供 分 析 之 用 ,并 产 生 整 体 报 告
。 这 是 一 个 复 杂 而 繁 重 的 工 作 。 但 如 果 能 一 劳 永 逸 (这 次 的
数 据 可 以 留 作 以 后 用 ),也 是 值 得 的 。 但 糟 糕 的 是 ,除 非 未 来 报
告 的 需 求 能 够 预 先 知 道 ,并 把 所 需 的 相 关 因 素 加 到 上 述 过 程
中 ,否 则 这 次 生 成 的 结 果 (因 其 专 用 性 而 不 具 有 普 遍 性 )对 今 后
的 报 告 生 成 是 不 会 有 什 么 帮 助 的 。


3. 其 他 困 扰 着 基 于 传 统 DB DSS的 问 题
---------------------------------------------
比 如 ,DSS 分 析 需 要 时 间 较 长 ,而 OLTP则 要 求 尽 快 做 出 响 应 ,如 果
进 行 一 次 大 规 模 的 分 析 ,对 OLTP性 能 的 影 响 是 难 以 忍 受 的 。 另
外 ,DSS常 常 需 要 通 过 一 段 历 史 时 期 的 数 据 来 分 析 趋 势 ,而 DB中
一 般 只 存 储 短 期 数 据 ,且 各 个 应 用 领 域 的 保 存 期 限 也 不 一 样
,在 分 析 时 难 以 满 足 DSS的 需 要 。 总 之 , 随 着 时 间 的 推 移 ,人 们
越 来 越 认 识 到 ,基 于 传 统 DB的 DSS不 能 很 好 地 满 足 需 要 。



三 、 分 析 型 数 据 及 数 据 仓 库 的 特 点
============================================
社 会 的 需 求 极 大 地 推 动 了 技 术 的 发 展 。 人 们 开 始 尝 试 对 DB 中
的 原 始 数 据 进 行 再 加 工 ,形 成 一 个 综 合 的 、 面 向 分 析 的 环 境
以 支 持 决 策 的 产 生 ,由 此 ,数 据 仓 库 的 思 想 逐 渐 形 成 。
W.H.Inmon在 《 建 立 数 据 仓 库 》 一 书 中 ,列 出 了 原 始 数 据 (操 作 型
数 据 )与 导 出 型 数 据 (DSS数 据 )之 间 的 区 别 。 其 中 的 主 要 内 容 如
下 表 :(表在此省略,版主注)
在 这 种 数 据 要 求 的 指 导 之 下 ,我 们 来 讨 论 一 下 数 据 仓 库 最 主
要 的 四 个 特 征 :


1.数 据 仓 库 是 面 向 主 题 的
-------------------------------
它 是 与 传 统 数 据 库 面 向 应 用 相 对 应 的 。 主 题 是 一 个 在 较 高 层
次 将 数 据 归 类 的 标 准 ,每 一 个 主 题 基 本 对 应 一 个 宏 观 的 分 析
领 域 。 比 如 ,一 个 保 险 公 司 的 数 据 仓 库 所 组 织 的 主 题 可 能 为
: 客 户 ,政 策 ,保 险 金 ,索 赔 。 而 按 应 用 来 组 织 则 可 能 是 :汽 车 保
险 ,生 命 保 险 ,健 康 保 险 ,伤 亡 保 险 。 我 们 可 以 看 出 , 基 于 主 题
组 织 的 数 据 被 划 分 为 各 自 独 立 的 领 域 ,每 个 领 域 有 自 己 的 逻
辑 内 涵 互 不 交 叉 。 而 基 于 应 用 的 数 据 组 织 则 完 全 不 同 ,它 的
数 据 只 是 为 处 理 具 体 应 用 而 组 织 在 一 起 的 。 应 用 是 客 观 世 界
既 定 的 ,它 对 于 数 据 内 容 的 划 分 未 必 适 用 于 分 析 所 需 。

"主 题 "在 数 据 仓 库 中 是 由 一 系 列 表 实 现 的 。 也 就 是 说 ,依 然 是
基 于 关 系 数 据 库 的 。 虽 然 现 在 许 多 人 认 为 多 维 数 据 库 更 适 用
于 建 立 数 据 仓 库 ,它 以 多 维 数 组 形 式 存 储 数 据 ,但 "大 多 数 多 维
数 据 库 在 数 据 量 超 过 10G字 节 时 效 率 不 佳 "。   一 个 主 题 之 下
包 含 许 多 表 ,表 的 划 分 可 能 是 由 于 对 数 据 的 综 合 程 度 不 同 ,也
可 能 是 由 于 数 据 所 属 的 时 间 段 不 同 而 进 行 的 划 分 。 但 无 论 如
何 ,基 于 一 个 主 题 的 所 有 表 都 含 有 一 个 称 为 公 共 码 键 的 属 性
作 为 其 主 码 的 一 部 分 。 公 共 码 键 将 各 个 表 统 一 联 系 起 来 ,从
根 本 上 体 现 出 它 们 属 于 一 个 主 题 。 比 如 ,基 于 "客 户 "这 一 主 题
的 所 有 表 都 包 含 公 共 码 键 CUSTOMER ID。 同 时 ,由 于 数 据 仓 库 中 的
数 据 都 是 同 某 一 时 刻 联 系 在 一 起 的 ,所 以 每 个 表 除 了 其 公 共
码 键 之 外 ,还 必 然 包 括 时 间 成 分 作 为 其 码 键 的 一 部 分 。 因 为
数 据 仓 库 包 含 的 都 是 历 史 数 据 ,它 的 表 必 然 包 括 对 应 的 时 间
属 性 。

有 一 点 需 要 说 明 的 是 ,同 一 主 题 的 表 未 必 存 在 同 样 的 介 质 中
。 根 据 数 据 被 关 心 的 程 度 不 同 ,不 同 的 表 分 别 存 储 在 磁 盘 、
磁 带 、 光 盘 等 不 同 介 质 中 。 一 般 而 言 ,年 代 久 远 的 、 细 节 的
或 查 询 概 率 低 的 数 据 存 储 在 廉 价 慢 速 设 备 (如 磁 带 )上 ,而 近 期
的 、 综 合 的 或 查 询 概 率 高 的 数 据 则 可 以 保 存 在 磁 盘 等 介 质 上
2.数 据 仓 库 是 集 成 的




从 上 表 中 我 们 已 经 看 到 ,原 始 数 据 与 适 合 DSS 分 析 的 数 据 之 间
差 别 甚 大 。 因 此 ,在 数 据 进 入 数 据 仓 库 之 前 ,必 然 要 经 过 加 工
与 集 成 。 这 一 步 实 际 上 是 数 据 仓 库 建 设 中 最 关 键 、 最 复 杂 的
一 步 。 首 先 ,要 统 一 原 始 数 据 中 的 所 有 矛 盾 之 处 ,如 字 段 的 同
名 异 义 、 异 名 同 义 、 单 位 不 统 一 、 字 长 不 一 致 ,等 等 ,还 要 将
原 始 数 据 结 构 做 一 个 从 面 向 应 用 到 面 向 主 题 的 大 转 变 。


3.数 据 仓 库 是 稳 定 的
-------------------------
它 反 映 的 是 历 史 数 据 的 内 容 ,而 不 是 处 理 联 机 数 据 。 因 而 , 数
据 经 集 成 进 入 数 据 库 后 是 极 少 或 根 本 不 更 新 的 。

4.数 据 仓 库 是 随 时 间 变 化 的
----------------------------------
它 表 现 在 以 下 几 个 方 面 :首 先 ,数 据 仓 库 内 的 数 据 时 限 要 远 远
长 于 操 作 型 环 境 中 的 数 据 时 限 。 前 者 一 般 在 5~ 10年 ,而 后 者
只 有 60~ 90天 。   数 据 仓 库 保 存 数 据 时 限 较 长 是 为 了 适 应
DSS进 行 趋 势 分 析 的 要 求 。 其 次 , 操 作 型 环 境 包 含 当 前 数 据 ,即
在 存 取 一 刹 那 是 正 确 、 有 效 的 数 据 ;而 数 据 仓 库 中 的 数 据 都
是 历 史 数 据 。 最 后 ,数 据 仓 库 数 据 的 码 键 都 包 含 时 间 项 ,从 而
标 明 了 该 数 据 的 历 史 时 期 。


四 、 数 据 仓 库 的 结 构 、 粒 度 及 分 割典 型 数 据 仓 库 的 结 构
======================================================================
如 图 1(略)
它 分 为 四 级 :早 期 细 节 级 、 当 前 细 节 级 、 轻 度 综 合 级 和 高 度
综 合 级 。 原 始 数 据 经 过 集 成 后 ,首 先 进 入 当 前 细 节 级 ,并 根 据
具 体 需 要 进 行 进 一 步 地 综 合 ,从 而 进 入 轻 度 综 合 级 乃 至 高 度
综 合 级 ,老 化 的 数 据 将 进 入 早 期 细 节 级 。 从 中 我 们 可 以 看 出
,数 据 仓 库 中 存 在 着 不 同 的 细 节 级 别 ,我 们 一 般 称 之 为 "粒 度
"。 粒 度 越 高 表 示 细 节 程 度 越 低 、 综 合 程 度 越 高 。 粒 度 是 数
据 仓 库 的 重 要 概 念 ,它 既 影 响 到 数 据 仓 库 中 数 据 量 的 多 少 ,也
影 响 到 数 据 仓 库 所 能 回 答 询 问 的 种 类 。

一 个 内 在 的 矛 盾 是 :粒 度 越 低 ,细 节 程 度 越 高 ,回 答 查 询 的 种 类
就 越 多 ,例 如 回 答 "张 三 在 某 时 某 地 是 否 给 李 四 打 过 电 话 ?"这
样 细 节 的 问 题 。 但 这 必 然 造 成 数 据 仓 库 中 数 据 的 大 量 堆 积 。
当 回 答 "张 三 去 年 共 打 了 几 次 长 途 电 话 ?"这 样 的 综 合 性 问 题 时
,要 从 大 量 细 节 数 据 中 综 合 并 计 算 答 案 ,效 率 将 十 分 低 下 。

另 一 方 面 ,粒 度 的 提 高 将 会 提 高 查 询 效 率 。 比 如 在 一 个 高 粒
度 的 数 据 层 中 记 录 的 是 每 个 客 户 每 年 所 打 的 长 途 /普 通 电 话
费 用 ,那 么 ,这 组 综 合 数 据 将 使 许 多 查 询 的 效 率 大 大 提 高 ,比 如
回 答 如 下 问 题 :某 地 区 今 年 长 途 与 普 通 电 话 费 用 之 比 、 今 年
长 途 /普 通 电 话 费 用 增 长 率 、 根 据 近 几 年 的 数 据 预 测 未 来 长
途 /普 通 电 话 费 用 变 化 趋 势 ,等 等 ,但 同 时 也 造 成 了 回 答 细 节 问
题 能 力 的 下 降 。

因 此 ,在 数 据 仓 库 中 ,多 重 粒 度 就 是 必 不 可 少 的 。 由 于 数 据 仓
库 的 主 要 作 用 在 于 DSS分 析 , 因 而 决 定 了 其 绝 大 部 分 查 询 都 基
于 一 定 程 度 的 综 合 之 上 ,只 有 极 少 的 查 询 涉 及 细 节 。 所 以 ,应
将 高 粒 度 数 据 存 储 于 快 速 设 备 (如 磁 盘 )上 ,这 样 ,对 于 绝 大 多
数 查 询 ,性 能 将 大 大 提 高 。 而 低 粒 度 数 据 可 存 储 于 低 速 设 备
(如 磁 带 )上 ,万 一 有 对 细 节 的 查 询 ,也 可 以 满 足 。 当 然 ,这 样 的
查 询 代 价 将 会 很 高 ,它 并 非 数 据 仓 库 的 典 型 应 用 。

分 割 是 数 据 仓 库 中 的 另 一 个 重 要 概 念 ,它 的 目 的 同 样 在 于 提
高 效 率 。 它 是 将 数 据 分 散 到 各 自 的 物 理 单 元 中 去 ,以 便 能 分
别 独 立 处 理 。 有 许 多 数 据 分 割 的 标 准 可 供 参 考 :如 日 期 、 地
域 、 业 务 领 域 等 等 ,也 可 以 是 其 组 合 。 一 般 而 言 ,分 割 标 准 总
应 包 括 日 期 项 ,它 十 分 自 然 而 且 分 割 均 匀 。



五 、 数 据 仓 库 的 数 据 结 构
================================
数 据 仓 库 中 的 数 据 文 件 结 构 的 种 类 很 多 ,最 常 见 的 有 以 下 几
类 (见 图 2) :

图 2 常 见 的 数 据 文 件 结 构
· 简 单 堆 积 文 件 :它 将 每 日 由 数 据 库 中 提 取 并 加 工 的 数 据 逐天 ?
累 并 存 储 起 来 。

· 轮 转 综 合 文 件 :数 据 存 储 单 位 被 分 为 日 、 周 、 月 、 年 等 几
个 级 别 。 在 一 个 星 期 的 七 天 中 ,数 据 被 逐 一 记 录 在 每 日 数 据
集 中 ;然 后 ,七 天 的 数 据 被 综 合 并 记 录 在 周 数 据 集 中 ;接 下 去 的
一 个 星 期 ,日 数 据 集 被 重 新 使 用 ,以 记 录 新 数 据 。 同 理 ,周 数 据
集 达 到 五 个 后 ,数 据 再 一 次 被 综 合 并 记 入 月 数 据 集 。 以 此 类
推 。 轮 转 综 合 结 构 十 分 简 捷 ,数 据 量 较 简 单 堆 积 结 构 大 大 减
少 。 当 然 ,它 是 以 损 失 数 据 细 节 为 代 价 的 ,越 久 远 的 数 据 ,细 节
损 失 越 多 。

· 简 化 直 接 文 件 :它 类 似 于 简 单 堆 积 文 件 ,但 它 是 间 隔 一 定 时
间 的 数 据 库 快 照 ,比 如 每 隔 一 星 期 或 一 个 月 作 一 次 。

· 连 续 文 件 :通 过 两 个 连 续 的 简 化 直 接 文 件 ,可 以 生 成 另 一 种
连 续 文 件 ,它 是 通 过 比 较 两 个 简 单 直 接 文 件 的 不 同 而 生 成 的
。 当 然 ,连 续 文 件 同 新 的 简 单 直 接 文 件 也 可 生 成 新 的 连 续 文
件 。对 于 各 种 文 件 结 构 的 最 终 实 现 ,在 关 系 数 据 库 中 仍 然 要 依 靠

"表 "这 种 最 基 本 的 结 构 。

六 、 数 据 仓 库 的 数 据 追 加
================================
如 何 定 期 向 数 据 仓 库 追 加 数 据 也 是 一 个 十 分 重 要 的 技 术 。 我
们 知 道 ,数 据 仓 库 的 数 据 是 来 自 OLTP的 数 据 库 中 。 问 题 是 我 们
如 何 知 道 究 竟 哪 些 数 据 是 在 上 一 次 追 加 过 程 之 后 新 生 成 的 。
常 用 的 技 术 和 方 法 有 :

· 时 标 方 法 :如 果 数 据 含 有 时 标 ,那 么 只 需 根 据 时 标 判 断 即 可
。 但 并 非 所 有 数 据 都 含 有 时 标 。

· DELTA文 件 :它 是 由 应 用 生 成 的 ,记 录 了 应 用 所 改 变 的 所 有 内
容 。 利 用 DELTA文 件 效 率 很 高 ,它 避 免 了 扫 描 整 个 数 据 库 。 但 同
样 的 问 题 是 生 成 DELTA文 件 的 应 用 并 不 普 遍 。   此 外 ,还 有 更 改
应 用 代 码 的 方 法 ,使 得 应 用 在 生 成 新 数 据 时 可 以 自 动 将 其 记
录 下 来 。 但 应 用 成 千 上 万 ,且 修 改 代 码 十 分 繁 琐 ,这 种 方 法 很
难 实 现 。

· 前 后 映 象 文 件 的 方 法 :在 抽 取 数 据 前 后 对 数 据 库 各 作 一 次
快 照 ,然 后 比 较 两 幅 快 照 的 不 同 从 而 确 定 新 数 据 。 它 占 用 大
量 资 源 ,对 性 能 影 响 极 大 ,因 此 并 无 多 大 实 际 意 义 。

· 日 志 文 件 :最 可 取 的 技 术 大 概 是 利 用 日 志 文 件 了 ,因 为 它 是
DB的 固 有 机 制 ,不 会 影 响 OLTP的 性 能 。 同 时 ,它 还 具 有 DELTA文 件
的 优 越 性 质 , 提 取 数 据 只 要 局 限 日 志 文 件 即 可 ,不 用 扫 描 整 个
数 据 库 。 当 然 ,原 来 日 志 文 件 的 格 式 是 依 据 DB系 统 的 要 求 而 确
定 的 ,它 包 含 的 数 据 对 于 数 据 仓 库 而 言 可 能 有 许 多 冗 余 。 比
如 ,对 一 个 记 录 的 多 次 更 新 ,日 志 文 件 将 全 部 变 化 过 程 都 记 录
下 来 ;而 对 于 数 据 仓 库 ,只 需 要 最 终 结 果 。 但 比 较 而 言 ,日 志 文
件 仍 然 是 最 可 行 的 一 种 选 择 。

数 据 追 加 的 另 一 个 途 径 是 ODS,参 见 "操 作 数 据 存 储 :数 据 仓 库 的
补 充 "一 文

七 、 数 据 仓 库 在 "四 级 结 构 "中 的 位 置
需 要 指 出 的 是 ,数 据 仓 库 不 一 定 是 实 施 分 析 决 策 的 典 型 场 所
。 诚 然 ,数 据 仓 库 使 数 据 发 生 了 质 的 变 化 ,由 原 始 数 据 转 化 为
适 合 分 析 的 导 出 型 数 据 。 但 这 种 转 化 和 综 合 仍 然 是 粗 线 条 的
,它 不 可 能 完 全 符 合 各 种 分 析 的 需 求 ,因 此 仍 需 要 进 一 步 的 综
合 加 工 。 另 外 ,随 着 数 据 的 不 断 载 入 ,数 据 仓 库 将 越 来 越 庞 大
,分 析 工 作 若 完 全 基 于 数 据 仓 库 , 性 能 将 十 分 低 下 。 一 种 典 型
的 "四 级 结 构 "如 图 3所 示 。


图 3 一 种 典 型 的 四 级 结 构


数 据 先 由 操 作 型 环 境 经 综 合 整 理 进 入 数 据 仓 库 ,部 门 和 个 人
再 从 数 据 仓 库 中 组 织 适 合 自 己 特 殊 分 析 需 求 的 数 据 ,建 立 自
己 的 局 部 仓 库 。 这 时 ,由 于 数 据 在 数 据 仓 库 中 已 经 是 综 合 、
一 致 的 了 ,所 以 部 门 和 个 人 的 抽 取 工 作 效 率 将 会 很 高 ,并 且 不
会 出 现 本 文 开 头 所 提 到 的 "蜘 蛛 网 "的 情 况 。

                                [返回首页] [分类讨论区] [全部讨论区]

--
日出东方,唯我不败;
    天上地下,唯我独尊。

※ 来源:.深大荔园晨风站 bbs.szu.edu.cn.[FROM: 202.192.140.210]
--
※ 转载:.BBS 荔园晨风站 bbs.szu.edu.cn.[FROM: 202.192.140.90]


[回到开始] [上一篇][下一篇]

荔园在线首页 友情链接:深圳大学 深大招生 荔园晨风BBS S-Term软件 网络书店