主管单位:中国电力企业联合会
主办单位:中国电力教育协会
国际标准刊号:ISSN 1007-0079
国内统一刊号:CN 11-3776/G4
版权信息主管单位:中国电力企业联合会 主办单位:中国电力教育协会 国际标准刊号:ISSN 1007-0079 国内统一刊号:CN 11-3776/G4 联系我们
|
基于大数据日志查询电网用户行为分析系统的研究与实现
摘要: 随着我国从计划经济向市场经济的转变,我国的电力企业类型从生产型逐渐转变为经营型,市场营销的理念逐渐被电力企业所认可。对电力用户行为的预测和分析成为电力企业日常经营的重要工作。随着电网智能化的发展,电力企业的信息管理系统在长期的运行过程中积累了大量的日志信息。建立一个科学有效的数据挖掘系统,对电力日志大数据进行筛查和分析,从而对客户行为进行预测,是本文研究的重点。
关键词:大数据;查询;行为分析
一 概述。
随着我国市场经济的逐步建立,电力企业由生产型企业向精英型企业转化,电网企业工作的重点逐渐向市场营销和客户服务方向转变,市场营销的理念被电力行业所接收。市场营销的重点工作在于用户行为的预测和分析。因此,电力用户的行为的分析成为电力企业数据分析人员的首要任务。此外随着电网智能化的迅速发展,电网的信息化水平大幅提升,数量过庞大的数据以日志的形式在电网的各种信息管理系统中不断累积。但是这些数据系统对数据库中的数据只能进行例如查询统计之类的简单处理,利用这些简单的数据处理功能,并不能获得数据中蕴含的深层规律,也不能通过这些数据对系统未来的发展趋势进行分析,造成空有大量信息财富却不能充分利用。因此,增强对信息系统收集的大量日志信息进行有效利用,选取科学的数据分析和处理模型,对数据进行深层次的发掘,发现其中蕴含的决策信息,从而为企业的运营决策提供依据,是目前继续解决的问题。[1]利用数据挖掘技术从大量数据信息中寻找有用的信息,把数据应用从简单的查询处理转变为分析决策等高级应用处理。本文就是在大数据背景下,进行电力系统日志信息高级分析,采取相关分析技术建立数据分析系统,探求数据中的潜在信息,对客户行为进行分析。
二 数据挖掘的原理。
1.数据挖掘的基本结构。
数据挖掘分析系统通常由数据库、数据库服务器、数据挖掘引擎、知识库、模式评估工具以及图形用户界面构成,如图2.1所示。
。
图2.1数据挖掘分析系统结构图
如上图所示,数据库的功能主要为储存原始数据。原始数据经过简单处理形成的备选数据和用户自定义条件形成的数据通常也是在数据库中存储。数据库服务器的功能是为数个数据库提供统一标准的接口服务,方便应用程序对数据信息的调用。知识库的功能是储存数据挖掘规则、函数。数据挖掘引擎的功能是把基本数据转变为知识可以处理的应用对象,其具有调用知识库以及和用户交互的能力,从而构建目标模式。通常数据挖掘引擎具有联想分析、分类、归类以及预测等功能部分。模式评估工具的功能为从众多决策系统中筛选符合客户要求的知识模块,模式评估工具在数据挖掘的各个阶段都可能应用,从而确保搜索过程在用户所希望的范围内,避免系统资源的浪费,提高工作效率。[2]图形用户洁面用来引导用户完成数据挖掘的整个过程,同时客户也可以通过图形界面获取数据库、知识库以及任务的执行结果。
2 数据挖掘的基本流程。
数据挖掘的主要流程为确定业务的操作对象、准备数据、数据挖掘、分析结果以及同化知识几个部分。数据挖掘的整个流程是统一的有机整体,为满足客户需求,在具体执行过程中可能出现多次迭代的情况。其流程图如下所示。
图2.2 数据挖掘流程图
(1)确定业务的操作对象。这一过程的目的是明确任务的需求,对问题进行分析,确定工作目标。这是整个流程的起始,是关键的一步,数据分析人员一旦忽视了这一环节,目标偏离,则最终结果也是徒劳。[3]
(2)准备数据。逐步数据在整个处理过程中耗时耗力,其又可分为如下三部分。
1)选择数据。这是准备数据的开始环节,即调用与任务相关的数据库数据。分析并筛选有用的数据集合,使数据挖掘的质量从源头得到提升。
2)数据信息的预处理。该步骤是将多种数据进行整合,进一步去除无效数据,根据语义对数据进行筛除。
3)数据形式转化。即将数据转化为符合挖掘操作的形式,从而确保挖掘过程的顺利进行。
3.数据挖掘。该步骤是整个工作的核心,即利用适当的数学模型对数据进行处理分析。
4.分析结果。进一步解释和评估客户的兴趣点,并用简单易懂的方式进行展现。
5.同化知识。将分析出的用户兴趣模式转变为便于使用的知识形式,以便于在业务系统中使用。
三行为分析系统的研究与实现。
1.系统结构。
电网用户行为分析系统采用数据挖掘的常用流程,主要包括数据信息采集、数据信息的预处理、数据挖掘、分析结果以及系统管理几部分。其功能结构图如下所示。
图3.1 行为分析系统功能结构图
2 行为分析系统的基本体系。
系统的框架结构为Struts+ Spring+Hibernate组合框架,表示层中采用了Struts包含的实现组件,在用户浏览器上以JSP的形式展现,发挥接收用户的输入信息和请求的功能,这些数据将被发送到业务逻辑层经过相应的功能业务处理后,在经由表示层传递给用户。具体的业务逻辑即系统的数据信息采集、数据信息的预处理、数据挖掘、分析结果等功能业务是在业务逻辑层实现的。为方便系统的维护和扩展,在业务逻辑层应用Spring框架解耦持久层和表示层。持久层中对数据库的访问封装则应用了Hibernate框架,利用数据访问对象的设计方式,为便于编码工作的进行,减轻编码的任务量,在执行业务逻辑访问数据库的过程中采用了面向对象的思想。[4]系统体系包结构如下图所示。
图3.2系统体系的包结构图
3电网用户行为分析系统的实现。
(1)数据信息采集部分。
电网用户行为分析系统的数据信息采集部分的功能在于筛选数据集合、维护数据、查看数据属性三个功能。筛选数据集合要求根据用户需要选取需要处理的数据,并加载到工作内存中。维护数据主要修改数据集合名称,即将合法的新名称赋予数据集合。查看数据属性即将数据名称、类型、字段等属性以列表的形式罗列。
(2)数据信息预处理部分。
电网用户行为数据信息预处理部分主要负责数据信息的清洗、化简、规约和转换几个功能、数据清洗是对选取数据的进一步处理,首先选取需要处理的数据属性,通常有所属行业、用电类型、报装容量、计费容量、缴费方式、欠费额度、实际用量、供电方式等多种属性。按照属性值的类别又可以分为离散型和连续型两种,例如报装容量和实际用量就是连续型。常用的清洗方法有去除负数、忽略缺失数据、用整体平均值补充以及回归法补充等。数据化简主要将数据根据时间进行汇总。规约主要将数据没有价值的属性去除。数据转换则住哟是将连续数据和离散数据进行数据标准化和泛化操作。[5]
(3)数据挖掘部分的实现。
1)电力用户的细分。该操作将电力用户采用一定的聚类分析策略划分成若干群组,从而方便针对不同的群体采用不同的营销策略。
2)用户的信用等级分析。该步骤通过采用相应的规则对客户的信用度进行分析,可以首先通过人工评估的方式对用户进行标记,然后用分类技术进行分类模型的构造,最终实现客户信用级别的分析评估。
3)信用不良用户预测。根据数据库中的历史数据对可能欠费的用户进行预测,并将预测结果按照不欠费和可能欠费进行分组。
(4)分析结果。
电网用户行为分析系统的结果分析部分的功能主要是数据对比和生成报表。
数据分布的统计信息可以按照所述行业的类别、电压等级、客户类型以及信用度等条件输出,并通过柱状图等形式在用户面前直观形象的展示。当用户输入数据名称和属性名称后,系统会自动生成数据分布图,并在图标绘制类库调用相应的函数,从而在浏览器上呈现可视化图形。[6]
数据对比操作可以输出用户信用、电能消耗等对比属性信息,并将对比结果通过柱形图的方式展示。其过程主要是首先输入数据集合名称和属性名称,之后自动形成数据分布图,系统利用图形绘制函数模块生成柱形图后在表示层显示,供用户查阅。
报表主要包括年度报表和月度报表,分别按照年度和月份进行计量,以公司名称、所属行业、供电形式等属性生成,并按照用户制定路径保存,保存成果后用一定的标志区分。在用户需要查看时就可以通过保存路径打开文件。
(5)系统管理部分。
电网用户行为分析系统的系统管理部分的功能主要包括用户的增加、删除、资料修改、密码修改以及系统功能介绍等。用户增加主要是录入用户的账号名称、登陆密码、用户名称、用户性别、用户登陆权限等内容。首先在表示层对用户输入字段进行验证,如果用户输入字段不为空,则判断输入信息合法,此时用户信息可以录入数据库,录入成功后推送成功信息,否则推送错误信息。用户删除是将数据库中存在的用户信息进行删除。首先将需要删除的用户账号在在显示层输入,然后把对应的数据库中的封装信息传送到删除策略中,操作合法性通过后,则执行删除数据库中用户信息操作,操作成功后推送成功信息,否则推送错误信息。修改用户资料,需要输入用户账号、名称、用户权限等信息,操作合法性判断通过以后,在数据库中执行对应的修改操作,修改成功后推送成功信息,否则推送错误信息。
用户密码修改需要对用户账号、原始密码、新密码以及新密码确认输入,在系统内部对原始密码和新密码以及新密码和确认密码进行一致性检验,如果新密码和原始密码一致,则应提示用户,新密码和确认密码一致,则可执行密码合法性判断,如果密码合法则可将新密码保存在数据库中,并推送成功信息,否则推送错误信息。
4.用户行为分析系统的测试。
测试服务器的CPU采用intel core i7处理器,操作系统采用win7旗舰版,数据平台采用MySQL5.1,采用Java语言编程。启动系统以后,用户在浏览器上输入系统网址后弹出登陆界面,输入账号信息和登陆密码后,表示层首先验证操作是否为空,通过合法验证后,出现系统主画面,在系统主画面包含了系统不同子功能选项以及当前业务主体显示。首先进行数据采集,进行数据集合的功能列表选择,然后用户可以根据需要执行数据维护和属性查看操作。然后则可以对数据进行下一步处理。用户选择相应算法实现数据集合的归约。在预处理操作完成后,即可进入数据挖掘操作,系统生成用户信用等级报表,同时用户在选取需要统计的属性后还可以以饼状图的形式呈现,如图3.3所示。
图3.3数据分布饼状图
五结论。
电网用户行为分析系统只是电力公司数据分析中的一个子系统,具有较强的实用性和专业性。该系统针对电网公司用户行为探索用户需求,完成了用户细分、信用等级划分以及信用风险预测等功能,并取得了比较理想的效果。整个系统包含数据信息采集。数据信息预处理、数据挖掘、分析结果以及系统管理几部分,所包含的功能全面,系统模式也比较科学,系统维护性和功能性比较强。但为了便于系统设计和理论研究,系统采用MySOL数据库,在系统长期运行以后,随着数据的大量积累,整个系统可能出现效率降低的现象,因此,数据库可采用Qracle数据库。另外,该系统的使用范围较小,只针对特定企业,如果需要扩大使用范围则需对功能模块进一步优化。
参考文献:
[1] 冯璐,王成文.基于数据挖掘的供电企业客户关系管理系统研究与设计[J].电力信息化
,2007(7): 85-88.
[2] 王伟.基于数据挖掘的图书馆用户行为分析与偏好研究[J].情报科学,2012,30(3):391-394.
[3] 黄山山.南京电信网厅用户行为分析系统的设计实现与应用.硕士论文.南京理工大学.
11-68.2011.
[4] 中国南方电网数据中心营销域数据挖掘模型实施报告.中国南方电网有限责任公司.2011.
[5] 史忠植.知识发现.北京:清华大学出版社,2002.
[6] 陈京民.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2002:258.
|