4页 电力系统数据集成平台设计方案
VIP专享
电子设计工程
Electronic Design Engineering
第28卷
Vol.28
第14期
No.14
2020年7月
Jul. 2020
收稿日期:2019-11-01 稿件编号:201911002
基金项目:中国南方电网科技项目(037800HK42180048)
作者简介:江 疆(1982—),男,湖北黄石人,博士,工程师。研究方向:控制科学与工程。
数据共享是指对来自不同数据源的异构数据进
行 逻 辑 和 物 理 层 面 的 集 中 存 储 ,并 且 实 现 统 一 访
问。通过实现数据共享,能够更有效地实现资源集
中管控,显著提升数据的利用效率。随着我国智能
电网的迅速发展,生产运营过程中的海量异构数据
资源规模增长趋势呈指数级发展,但是在数据共享
方面却存在着诸多问题,如数据异构问题、数据存储
问题、数据挖掘问题等[1-3]。因此,文中对我国电力企
业数据共享存在的问题展开研究,通过构建一个统
一、高校的数据集成平台,旨在帮助电力企业有效实
现高质量的数据共享,为电力企业提高管理和服务
水平提供有力的数据支持。
基于大数据的电力系统数据集成管理平台设计
江 疆 1,梁盈威 2,彭泽武 2,冯歆尧 2,谢瀚阳 2
(1. 广东电网有限责任公司 广东 广州 510000;2. 广东电网有限责任公司 信息中心,广东 广州 510000)
摘要:针对当前电力数据海量异构和共享度不高的问题,结合 Hadoop 和电力企业数据共享的必要
性,提出一种基于 Hadoop 的数据集成管理平台。为实现该平台,首先利用 HDFS 分布式文件系统
对元数据进行管理,以提高海量数据的集成管理效率;采用 HBase 的数据共享模式,提高数据共享
度;最后针对传统 Apriori 算法的问题,对 Apriori 算法进行改进,具体则是引入 MapRduce 并行化处
理框架对算法进行设计,以提高 Apriori 算法运算效率,进而达到提高电力元数据挖掘效率。最后
搭建 Hadoop 平台,验证上述平台在对海量电力元数据挖掘中的效率。
关键词:Hadoop 架构;元数据;集成管理;Apriori 算法
中图分类号:TN98 文献标识码:A文章编号:1674-6236(2020)14-0163-04
DOI:10.14022/j.issn1674-6236.2020.14.036
Design of power system data integration management platform based on large data
JIANG Jiang1,LIANG Ying⁃wei2,PENG Ze⁃wu2,FENG Xin⁃yao2,XIE Yu⁃yang2
(1. Guangdong Power Grid Co.,Ltd.,Guangzhou 510000,China;2. Information Center,Guangdong
Power Grid Co.,Ltd.,Guangzhou 510000,China)
Abstract: Aiming at the problem of massive heterogeneous power data and low sharing degree,
combining the necessity of data sharing between Hadoop and power enterprises,a data integrated
management platform based on Hadoop is proposed. In order to realize the platform,firstly,the HDFS
distributed file system is used to manage the metadata,so as to improve the integrated management
efficiency of massive data;the HBase data sharing mode is used to improve the data sharing degree;
finally,the Apriori algorithm is improved for the problems of traditional Apriori algorithm,specifically,
the maprduce parallel processing framework is introduced to design the algorithm,so as to improve the
aprior. I algorithm operation efficiency,and then to improve the efficiency of power metadata mining.
Finally,the Hadoop platform is built to verify the efficiency of the above platform in the massive power
metadata mining.
Key words: Hadoop architecture;metadata;integrated management;Apriori algorithm
--163
《电子设计工程》2020年第 14期
1数据共享平台
1.1 平台整体架构设计
文中针对前文中所分析总结出的四点问题,同
时依据我国国家电网公司的信息化建设思路,提出
一种基于 Hadoop 架构的数据共享平台,其整体架构
如图 1所示[4-6]。
从图 1中可以看到,该平台由数据源层、数据集
图1基于 Hadoop架构的电力企业数据共享平台
成层 、数据 仓库层、数 据集 市层 以及 数据应用层 构
成,能 够为 各相关业务 系统 提供 数据 接入、数据集
成、数据共享、数据挖掘分析等功能。
1.2 元数据管理方案设计
在本文构建的电力企业数据共享模型中,采用
基于 HDFS 分布式文件系统的元数据管理方案,如
图2所示[7-9]。
图2基于 HDFS的电力元数据管理方案
从图 2可以看到该管理方案采用了镜像文件+
操作日志文件动态集成方式。通过上述方法,就能
够 在 系 统 故 障 时 依 靠 次 元 数 据 节 点 Secondary
NameNode 的文件来实现数据恢复[10]。
1.3 数据共享模式
根 据 图 1所 示 的 整 体 架 构 方 案 ,基 于 开 源 的
Hadoop 框架的数据仓库层负责实现对不同业务系
统的异构数据进行共享交换,所采用的数据共享模
式主要通过 HBase 作为数据共享的桥梁,建立全局
与节点间的虚拟映射关系,以多种集成技术来实现
数据的集中管控和高度共享,如图 3所示[11-12]。
2 Apriori 算法的并行化设计
在上述共享的基础上,针对当前海量数据处理
效率低的问题,结合大数据中的并行化处理技术,提
出一种基于并行化改进的 Apriori 算法,以提高数据
处理的效率。
2.1 Apriori 算法改进
研究认为传统的 Apriori 算法在寻找强关联规则
的过程中,存在扫描次数多,以及数据库容量过大的
问题。对此,为解决这个问题,提出采用 Boole 矩阵
对算法进行改进。
扫 描 事 务 数 据 库 ,将 其 转 换 为 0-1 的Boole
矩 阵 。
Dmn =
ì
í
î
ï
ï
ï
ï
ü
ý
þ
ï
ï
ï
ï
D1
D2
...
Dm
(1)
--164
摘要:
展开>>
收起<<
电子设计工程ElectronicDesignEngineering第28卷Vol.28第14期No.142020年7月Jul.2020收稿日期:2019-11-01稿件编号:201911002基金项目:中国南方电网科技项目(037800HK42180048)作者简介:江疆(1982—),男,湖北黄石人,博士,工程师。研究方向:控制科学与工程。数据共享是指对来自不同数据源的异构数据进行逻辑和物理层面的集中存储,并且实现统一访问。通过实现数据共享,能够更有效地实现资源集中管控,显著提升数据的利用效率。随着我国智能电网的迅速发展,生产运营过程中的海量异构数据资源规模增长趋势呈指数级发展,但是在数据共...
声明:菜根智库所有资料均为用户上传分享,仅供参考学习使用,版权归原作者所有。若侵犯到您的权益,请告知我们处理!任何个人或组织,在未征得本平台同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。
相关推荐
-
腾讯研究院:工业大模型应用报告VIP专免
2025-04-04 159 -
阿里云:大模型典型示范应用案例集VIP专免
2025-04-04 150 -
AI+Agent创新10大前沿方向与落地实践-杨永强中盛VIP专免
2025-04-08 141 -
2025年智能分析Agent白皮书VIP专免
2025-05-24 159 -
2025年AI落地应用最新工具集
2025-07-12 139 -
智能体落地最佳实践白皮书 2025VIP专免
2025-07-28 134 -
华为重磅!智能世界2035-134页VIP专免
2025-09-19 989 -
腾讯云2025企业级智能体产业落地研究报告-从场景试点到规模化应用实践105页VIP专免
2025-09-23 139 -
DeepSeek给我们带来的创业机会VIP专免
2025-12-27 120 -
腾讯云中小企业AI实战指南
2026-01-23 133
作者:海阔天空
分类:数字化
价格:免费
属性:4 页
大小:1.57MB
格式:PDF
时间:2024-02-27

