摘要:本文介绍数据仓库技术在电厂中针对海量数据的应用,以及和OLAP技术结合起来对数据的处理方式。分别对两者的体系结构进行了介绍,对数据仓库技术的应用前景进行了展望。
关键字:数据仓库,OLAP,数据挖掘,模型
The Application of Warehouse and OLAP Technology in Electric Power System
Liu Qi Liang,Fu Zhong Guang
(School of Energy and Power Engineering,Key Laboratory of Condition Monitoring and Control for Power Plant Equipment of Ministry of Education, North China Electric Power University , Beijing 102206)
Abstract: the paper introduce the application of DW in thermal plant,it explains the mode of disposal together with OLAP.it introduce the frame of both systems,it make a view of the application of DW. Keywords: DW,OLAP,DM,model
电力企业网建设规模日趋扩大, 如何从海量的数据中快速准确地提取用于电力企业科学决策的信息, 是一项有别于已建立的M IS 等系统的重点工作。此类系统亦称之为业务智能化系统, 它应满足: (1)对原来提出的任务或查询作出响应, 并可以进行深层次的分析及探讨; (2)从所提及的较为简单或单一的问题中, 得到更大范围的结果。上述是变化的电力市场动态环境所涉及的,为此所使用的信息化工具必须突破传统的简单的数据库表模式应用, 建立更为贴近决策者思维过程的支持, 代替决策者的复杂数据与信息的处理,及时提供正确决策所需全部信息。
1、数据仓库技术
能够提供决策全过程集成的支持工具主要有:
(1) 数据仓库数据集市。本质上讲, 数据仓库完成将数据转换为信息, 并及时提供给用户以实现决策支持的任务。从实际讲, 数据仓库由可操作的外部数据源、一个或多个DB 和数据分析工具组成。
(2) 智能化决策支持工具。涉及到多项应用的信息分析决策系统: 收集与整理数据, 并启动相关知识进程, 自动引导用户交互信息, 进行决策。通常智能化决策支持系统可分层调用, 如取出联机事务处理(OLTP)数据进行数据仓库格式化处理, 从而进行各类智能化分析, 再进一步实施数据挖掘。
数据挖掘(data mining)技术, 又称为数据开采或数据库中的知识发现 (KDD: knowledge discover in data)。数据挖掘是从大量数据中产生可信的、新颖的、有效的并能被人理解的模式的处理过程。数据挖掘具有以下能力:
(1) 趋势和行为自动进行预测。数据挖掘在数据库中自动地发现预测性的信息。对于有些以前必须通过人工分析才能得到答案的问题, 现在只需直接对数据进行分析。
(2) 自动发现以前未知的模式。数据挖掘工具扫描数据库, 发现以前隐藏着的模式。数据挖掘与OLAP 的区别在于挖掘的层次不同。OLAP 是利用现有数据库的查询检索、报表功能与多维分析、统计方法相结合, 得到可供决策参考的统计分析数据。数据控掘则从数据库中发现隐含的知识,两者所能回答的问题有所不同。数据挖掘一般分为以下几种:
聚 类 ( clustering ) 规 则 挖 掘; 分 类(classification)规则挖掘; 关联(association)规则挖 掘; 总结 (summarization) 规则挖掘; 特征(characteriza tion)规则挖掘; 趋势(trend) 分析;偏差(deviation2 )分析; 模式(pattern)分析。对电网数据库的数据挖掘可以发觉有关电力规划专家所忽略的一些知识。
综上所述, 数据仓库数据集市的应用要求有功能强大的桌面分析工具来支持, 通常称之为联机分析处理(OLAP), 是用于给分析人员以灵活、可用和及时的方式来构造、处理和表示综合数据的技术。OLTP 数据库在查找业务具体数据上很有效, 每天处理成千上万的事务, 而为决策者提供总结性数据则无效。如电力公司需要查看去年所管辖的各公司的电力销售数据。OLTP 数据库中需用大量时间用一个查询语句去检索4 个季度每个月的销售数据, 而OLAP 技术则可在20 s 内完成。因为支持OLAP 的数据仓库中的数据已被转换成一种更有效的存储结构, 允许用户在大量数据上完成复杂的数据分析。随着微机保护装置的应用普及, 继电保护二次系统的自动化水平得到不断提高。许多当前由人工处理的模拟信息转化为大量的数字信息, 而技术管理人员也有许多用计算机实现的资料和试验记录文档。信息的数字化使得我们可以将不同的数据源有机地结合起来, 形成一个专业化的计算机应用系统。通过综合分析数据, 对设备实际运行状况加强了解, 消除故障隐患, 进一步保障电力系统的安全运行。
OLAP意为“联机分析处理”,和熟知的OLTP(联机事务处理)比较,事务处理通常单单依赖于关系数据库,OLAP表示一类用于访问和分析动态数据的技术。OLAP实际上已经变成商务数据多维视图的同义语,这种多维视图要依赖于多维数据库的支持,且提供商业智能应用所需要的计算与分析技术基础,使商业用户可以从多层次、多方面了解数据多提供的信息。
OLAP的体系结构OLAP采用三层客户/服务器体系结构。第一层解决数据的多维数据存储问题,第二层是OLAP服务器,它接受查询并提取数据,第三层是用户描述服务。结构如图1示:
图1 OLAP三层客户/服务器体系结构
2、数据仓库系统的体系结构
2.1 系统的体系结构
一个完整的数据仓库系统是由 3 部分数据和5 部分组件集成起来的, 图2 为其体系结构。
图2 数据仓库系统的体系结构
2.2 各部分的内容和功能
2.2.1 操作型数据和外部数据电力职称论文发表
操作型数据是面向应用的, 主要是支持日常的业务操作, 是当前企业数据库的主体。外部数据主要指企业为了进行决策, 从企业数据库外获取的数据, 比如其它企业的信息等。
2.2.2 数据仓库
整个数据仓库系统的核心部分, 是按照数据仓库的思想组织起来的数据的集合。可以包括一个庞大的中心数据仓库和一系列较小的数据集市。
2.2.3 元数据
元数据是关于数据的数据, 是数据仓库系统实现其功能所不可缺少的。元数据可分为技术元数据 (Technical Metadata) 和业务元数据(Business Metadata)。技术元数据为系统开发人员提供了有关数据仓库准确和详细的信息, 主要包括数据仓库逻辑和物理模型, 数据仓库的表名、关键字、索引, 字段名、长度、属性, 源数据的相关信息, 源数据与数据仓库数据的对应关系等等。业务元数据为管理人员提供了从数据仓库中获取信息的指南, 主要包括从业务角度考虑的数据结构,表或属性的业务名称, 向下挖掘的规则等等。电力职称论文发表
2.2.4 数据接口组件电力论文发表
数据接口组件的功能主要是实现同构或异构数据库之间透明的数据传送, 当从源数据向数据仓库导入数据, 或分析决策工具要从数据仓库读取数据时, 这个组件是必不可少的。
2.2.5 数据处理组件
数据处理组件在数据仓库提取数据的过程中, 完成对元数据的选择、编辑、运算、组合等功能。是保证一个规范化的、能够真正被用户所接受的数据仓库所必不可少的。电力职称论文发表
2.2.6 决策分析组件
决策分析组件包括最终用户进行分析决策所使用的OLAP、DSS 等工具, 以及生成报表、图表等的工具。决策分析组件是实现由数据到信息的非常重要的工具。电力职称论文发表
2.2.7 元数据目录组件
元数据目录主要用来提供元数据的管理和访问等功能, 是元数据发挥其作用所不可缺少的。
2.2.8 系统管理组件电力职称论文发表
涉及到前面几个部分, 包括任务的调度, 数据库的优化, 维护用户权限等功能。
当把各个部分集成到一个完整的数据仓库系统中时, 有一点是非常关键的, 就是系统要具有开放的结构。这是因为整个数据仓库系统实际上是不同软件的集成, 这些软件可能是不同的厂商或不同的人开发的, 而且系统所选用的软件也可能是在变化的, 因而一个开放的结构对于一个成功的系统来说是必须的。
3、系统的设计与实施
可以把实现整个数据仓库系统划分为五个阶段: 总体规划, 数据仓库的设计, 元数据的设计与实现, 数据提取的实现, 分析决策的实现。
3.1 总体设计电力职称论文发表
总体设计主要在于确定系统整体需要达到的目的, 数据仓库系统的框架结构, 实现策略, 同时选择需要使用的工具等等。对于电力信息系统, 将使用图 2 的结构框架, 采用先实现数据集市、再实现数据仓库的策略, 同时决定把我们的系统建立在M icrosoft SQL Server 的基础上。
3.2 数据仓库设计
数据仓库的设计可以分为三个阶段:
(1) 设计概念模型 调研实际业务和用户需求, 划分主题, 设计ER 图和信息打包图;
(2) 设计逻辑模型 在概念模型的基础上,建立数据仓库的逻辑表示——星形模型或雪花模型;
(3) 设计物理模型 根据逻辑模型, 设计数据仓库实际的存储方式, 即设计出表的结构和各字段的属性。
3.3 数据提取的实现电力论文发表
数据提取并不是简单的数据导入, 还包括类型转换、格式化、校验等。数据提取很大程度上要依赖于元数据所提供的信息。数据提取需要解决的也不仅仅是异构数据库之间的数据转换, 还存在许多其它问题, 例如如何实现原始数据的增量导入, 而不是每次复制整个数据库, 如何实现检查点重启逻辑等。
3.4 分析决策的实现电力职称论文发表
进一步的工作主要是根据用户的需求和习惯, 把适当的分析决策软件集成到系统中, 使它们能够访问数据仓库中的数据。
4、结 语
随着DCS 系统在电厂中的广泛应用,DCS系统所承担的控制任务也日趋多样, 从开始阶段完成MCS、SCS、FSSS 控制功能, 进而实现DEH控制功能, 现在部分电气设备的控制功能也被纳入了DCS 的控制范围。由于电气设备类型复杂、数量繁多, 将电气设备归于DCS 控制, 会给热工和电气两个专业带来不少新的问题, 需要综合两专业的知识才能解决。电力职称论文发表
参考文献
1 王珊等. 数据仓库技术与联机分析处理. 北京: 科学出版社, 1998.
2 M icrosoft Corporation. SQL Server 7. 0 Data Warehousing Framework White Paper. http: //www.m icrosoft. Com/sql /bizsol /datawareframe. htm, 1998, 10.
3 微软中国有限公司. M icrosoft SQL Server Version7.0 技术资料. 1998, 12.
4 伍力, 吴捷, 周乐荣. 面向规划的广东电网数据库的建立及其应用. 电力系统自动化, 1999, 23(13).
5 杨思春 基于数据仓库的数据挖掘技术分析研究.微机发展,2003,9电力职称论文发表
6 谢茂龙,郭 禾,陈 锋.应用扩展元数据库方式解决数据仓库质量问题 计算机工程与应用. ,2002 ,38 (18) :218 -219