资源预览内容
第1页 / 共6页
第2页 / 共6页
第3页 / 共6页
第4页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
基于大数据的用户用电行为分析平台的研究与部署1. 引言随着大数据、云计算、物联网、人工智能等技术的快速发展和应用,智能电网近几年迎来了高速发展期,并且随着新能源和电动汽车等技术的发展,智能电网产生的数据量快速增长1。在传统的电力系统中,电力资源的生产和消费属于两个不同的部门管理,没有得到很好的协调。如果能够协调好电力资源和电力消费数据和管理,将非常有利于提高资源的利用率,从而提高客户的满意度。用户用电行为分析技术,非常好的解决了这个问题。用户用电行为分析是指采用大数据技术,将用户用电数据和用户的用电模式进行关联,从而发现其中的联系。基于用户用电量和用户的用电模式,可以制定出更加合理的电价和相关营销策略,从而提高电力资源利用率和客户的满意度。在设计电力大数据应用平台时,需要考虑电力系统自身的特点。电力系统具有用户群体庞大、用户用电数据类型多样的特点,决定了电力大数据平台需要较高的存储容量。另外,电力数据受经济环境、人口迁移、窃电行为等因素影响较快,对电力大数据平台的性能提出了较高的要求。所以,电力大数据应用平台与其他大数据应用平台最大区别在于平台的容量更大、计算性能要求更高。已有研究提出了各种基于大数据的解决方案,主要成果包括生产控制系统、电力经营系统、电力营销系统、状态检测系统、 风险评估系统等平台应用系统2 3 4。但是,大部分研究主要集中于发电、变电、输电、调度等智能电网的应用环节5。同时,已有研究大部分基于离线数据分析,或者批处理技术,这些解决方案的分析结果一般会有延迟,不能很好的适用于用户用电行为分析6。为解决上述问题,本文首先设计了专门针对用电行为分析的基于大数据的平台,该平台包括数据表现层、数据分析层、存储计算层、数据来源层,能够更好的解决用电行为分析中的问题。其次,研究了平台中使用的数据处理的关键技术,并实现和部署了大数据平台。经过半年多的试运行,相比于已有系统,本文提出的大数据分析平台拥有更好的使用体验和更加便捷的使用效果。2. 平台架构基于对已有研究成果的分析可知,为了更好的支撑用户用电行为分析业务,本文提出的用电行为分析的基于大数据的平台,需要支撑现有的用电行为分析的主要业务。所以,需要对各个电力公司的现有相关业务进行调研和分析。例如,通过调研可知,大部分电力公司提供的用电行为分析业务,都能够结合专家预测、机器学习等模型进行集中分析,建立实时判断电力资源生产状况、电力资源质量问题发现与预警、用户用电量远程监测、用电安全形势预测评估等。为了支撑好现有的和未来可能具有的用电行为分析业务,确保平台的便利性和易用性,本文提出的平台架构如下图 1 所示,具体包括数据表现层、数据分析层、存储计算层、数据来源层。其中,数据表现层主要用于实现数据的展现,具体包括图表呈现、数据监控、报表推送、查询服务等功能。数据分析层主要用于用户用电数据和电力资源数据的分析,包括元数据的存储,数据挖掘工具的支撑。存储计算层主要用于数据的存储和计算;数据存储方面,采用分布式的架构,可以实现海量数据的实时存储;在数据的计算方面,可以实现批量数据计算、流式计算。数据来源层用于实时获取智能电表、智能用电设备功率等数据,包括结构化数据、非结构化数据。Figure 1. Platform for user behavior analysis platform based on big data图 1. 基于大数据的用户用电行为分析平台架构3. 数据处理的关键技术本文提出的基于大数据的用电行为分析平台,可用于基于大数据挖掘和分析的电力资源生产、消费及突发事件的全过程管控,实现电力资源安全生产和消费环境的“透明化”,在电力资源灾害的早期发现与预防领域也有较大的应用价值。数据挖掘和分析的一般过程为抽取数据、净化数据、数据引擎、算法引擎、运行挖掘算法、分析结果等。下面对本文提出的大数据用电行为分析平台中的关键技术进行研究,以确保平台的高可靠、高扩展、高存取性能,从而实现更好的大数据平台服务模式。3.1. 数据的存储数据的存储方面,平台根据具体应用场景的需要,既支持传统关系型数据库,也支持内存数据库、分布式数据库、NoSQL 数据库等新型数据库。其中,内存数据库主要用于 OLTP 事务处理类型的业务中, 包括 TimesTen、SolidDB 等数据库;海量存储系统主要用于 OLAP 分析型的业务中,包括 DHSS、Teradata 等数据库;NoSQL 数据系统主要用于互联网类型的业务中,包括 HBase、BigTable 等数据库。3.2. 数据预处理中心数据预处理中心方面,业务网关将原始数据收集上来后,通过 ESB 传给数据预处理中心。数据预处理中心的主要工作是对各种不同来源的数据进行数据融合,提高数据质量,提高可靠性、准确性和一致性。 弥补感知采集技术中的缺陷,减轻各个传感器故障的影响。由于传感器和技术的限制,有些信息无法直接 由传感器测出,但通过数据融合可以做到。有效减少数据量,减轻后续处理和存储负担,提高效率。数据预处理中心首先对不同来源的数据做时间和空间的对准,然后对数据进行清洗和整理。其中使用的处理算法主要包括数据整合算法、数据抽样算法、数据归一化算法、数据离散化算法、数据属性算法、数据区间化算法、缺失值处理算法、行内去重算法、数据修改算法、数据统计算法。3.3. 挖掘与分析挖掘与分析方面,对数据进行面向主题的、一般性的和挖掘性的分析,获得特征信息,它包括电力信息整合、分析和度量,也包括电力资源专题的分析与管理,还包括电力资源管理与决策支持。通用的数据挖掘算法分为基于统计学习的算法、基于机器学习的算法和基于数据库技术的算法。1) 基于统计学习的算法:包括回归分析、判别分析、聚类分析、主成分分析、相关分析、分类算法等算法。 分类算法包括决策树算法、KNN 算法、朴素贝叶斯算法;聚类算法包括 K-means 聚类算法、CLAR ANS 算法、DBSC AN 算法;2) 基于机器学习的算法:包括决策树、SVM、关联规则、遗传算法、贝叶斯学习、KNN、神经网络等算法。关联规则包括 Apriori 算法、FP-growth 算法、WFP 算法;3) 基于数据库技术的算法:包括多维分析、OLAP 技术、多属性归纳等算法。另外,还提供了大量智能电网特有的挖掘分析算法,如基于非参数回归的故障预测模型、矿工群体行为模型、多目标粒子群优化算法、模糊控制算法等。这些算法以服务的形式对外开放,开发者可以根据具体问题的需要选择合适的服务,完成具体应用的开发。3.4. 数据应用数据应用方面,数据挖掘技术在用户用电行为分析的应用路线为:选择数据挖掘算法、数据建模、模型验证、知识可视化和应用。例如,应用于用户消费模式识别时,可以实现电力资源的精细化管理、用户操作行为识别、操作行为分析、技术学习培训、故障诊断等。4. 大数据平台体系架构的实现与性能分析4.1. 架构实现为了实现用电行为分析平台,并确保平台的标准化、可扩展性,大数据平台组成如下图 2 所示,主要包括统一数据采集层、平台中使用的大数据基础服务组件、平台中使用的大数据应用框架组件、统一服务层。Figure 2. Implementation of big data platform architecture图 2. 大数据平台体系架构的实现统一数据采集层采用 FTP、socket、数据接口等,实现智能电网中智能用电设备的数据采集。平台中使用的大数据基础服务组件包括:HDFS、YARN、HBase 等。HDFS 实现分布式文件的存储。YARN 实现资源的动态管理,为上层应用提供可靠的资源。HBase 提供高性能的列式数据存储功能。平台中使用的大数据应用框架组件:Spark、Kafka 等。其中,Spark 用于实现流计算、机器学习、sql、图计算等能力。Kafka 用于实现消息队列的订阅、发布。统一服务层主要是为用电行为分析的相关人员提供接口,方便资源的使用和管理。对外提供资源的方式包括 application、web service、FTP、KAFKA、MQ 等多种形式。4.2. 主要功能基于大数据的用户用电行为分析平台主要包括添加租户、给租户分配资源、租户运行任务三个功能。添加租户的界面如图 3 所示,主要信息包括租户类型、租户名称、租户密码、租户组、队列、hdfs数据根路径等信息,其中租户类型分为普通用户和高级用户,hdfs 数据根路径用于定义存储该租户所有数据文件的 hdfs 路径。给租户分配资源的界面如图 4 所示,图的左边显示了集群存储资源、集群计算资源的总容量、已使用量、剩余容量等数据信息,图的右边显示了租户可以申请的资源类型,包括 HDFS 资源、YARN 资源、HIVE 资源、HBASE 资源等四种类型。租户运行任务的界面如图 5 所示,租户使用该功能执行特定程序。其中,任务信息主要包括项目名称、系统名称、流程标识、执行周期、时间偏移量、使用的队列,这些关键信息决定了当前任务执行的时间,以及执行任务时可以使用的资源。Figure 3. Add tenants图 3. 添加租户Figure 4. Tenant resource application图 4. 租户资源申请Figure 5. Tenants perform tasks图 5. 租户执行任务4.3. 性能分析为了验证基于大数据的用户用电行为分析平台的性能,本小节分析了传统平台和本文平台下用户用电行为分析的测试程序。该程序使用客户类型、负荷量、天气情况、日期类型、电价等用户用电特征, 对用户用电模式进行识别。传统平台下,程序的接口数据处理包括单个文件处理、全部文件关联处理两部分,其中单个文件大小最大约 500 G,最小约 300 G。全部数据总量约 12 T (全月数据)。每个文件处理时间 2 小时(每天数据),全部文件、文件关联总共耗时约 69 小时。使用本文提出的基于大数据的用户用电行为分析平台处理数据时,包括数据预处理、数据合并、规则运算三个过程。其中,数据预处理约 4 小时、数据合并约 5 小时、规则运算约 2 小时。所以,本文平台在 11 个小时完成用户用电模式分析程序。本文提出的基于大数据的用户用电行为分析平台的运行效率较高。5. 总结在智能电网大发展的时代,通过用户用电行为分析技术,可以基于用户用电量和用户的用电模式, 制定出更加合理的电价和相关营销策略,从而提高资源利用率和客户的满意度。为解决这个问题,本文首先设计了专门针对用电行为分析的基于大数据的平台,该平台包括数据表现层、数据分析层、存储计算层、数据来源层,能够更好的解决用电行为分析中的问题。其次,详细介绍了平台中使用的数据处理的关键技术。最后,介绍了大数据平台体系架构的实现。相比于已有系统,对于技术研发人员和产品开发人员,具有更好的使用体验和更加便捷的使用效果。
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号