2页 高校数据集成平台设计方案
VIP专享
第19 期
2020 年10 月无线互联科技·软件透视 No. 19
October, 2020
基金项目:2018 年度湖南省教育厅科学研究项目;项目名称:基于 Hadoop 和MPP 混合模式的高校数据仓库构建及应用研究;项目编号:
18C1528。 2018 年度湖南铁道职业技术学院校级课题;项目名称:基于 ETL 高校数据仓库的构建及应用研究;项目编号:K201823。
作者简介:张军(1984—),男,河南信阳人,讲师,硕士;研究方向:数据挖掘,数据库技术。
高校异构系统数据集成平台的构建研究
张 军,王芬芬
(湖南铁道职业技术学院,湖南 株洲 412001)
摘 要:针对高校当前异构数据环境所带来的数据冗余、不一致、共享困难等问题,文章分析高校各业务系统所存在
的数据壁垒,从信息标准的建立、数据清洗规则与数据 ETL 过程等方面介绍了数据集成的过程,设计了基于 ODI 的
数据交换与流转的数据集成方案,采用虚拟视图和中间库的方式降低了数据集成过程中的耦合性,提高了数据集成
平台的灵活性和扩展性。
关键词:数据集成;数据共享;ODI
0 引言
信息技术高速发展,大数据时代已经来临,高校的
信息化建设也经历了多年的发展,在高校数字化校园的
建设过程中[1] ,校内各业务职能部门在不同时期都建
设相关的业务系统来满足本部门的业务需求。同时,学
校为满足信息化教学的需求,也建设了一批教学相关的
学习平台。这些系统功能各异,系统间相互独立,采用
不同的技术方案,所产生数据的组织结构和存储方式也
大有不同,数据间的壁垒已经严重影响了数据的流动与
共享,各系统数据存在大量的冗余与不一致[2] 。当前,
高校对数据的整合共享越来越重视,很多学校都在建立
大数据平台,但在实际的情况中,各业务系统归属不同
的部门,系统分散,部门间的业务联动性较差,数据的源
头不统一,缺少专门对数据管理进行监督和控制的组
织,针对数据的共享和整合缺乏全局的规划。这些因素
都大大制约了数据共享流动的范围以及数据共享的实
效性等方面。
除上述问题外,在高校数据集成平台的建设中,还
应解决数据的全生命周期的管理,就是学校数据的产
生、使用、维护、备份到过时被销毁的数据生命周期管理
规范和流程还不完善[3] ;同时缺乏统一的校级数据质
量管理流程体系,跨部门的数据质量沟通机制不完善,
严重影响了数据质量。基于上述背景,本文从数据标准
的建立、数据清洗规则与数据 ETL 过程等方面构建一
套完整的数据集成方案。
1 相关技术
数据集成主要是将不同业务系统中所产生的不同
格式、不同类型、不同性质的数据进行统一和集中管理
的过程,数据集成是一个逐渐完善的过程,旨在为用户
提供完整的、准确的数据共享服务。目前,数据集成的
相关的技术已经比较成熟,在具体实施过程中,因为各
个业务系统数据的组织结构和选用的数据库都不尽相
同,数据的内容、数据的格式以及数据的质量也各自不
同。所以,数据集成首先要解决的问题就是不同业务系
统所产生的异构数据源的整合,数据整合的主要是数据
的抽取、转换、加 载 的 过程,就是数 据 ETL ( Extract,
Transform,Load)过程[4] 。
ETL 是数据集成中最主要的一个环节,主要解决异
构数据源的整合问题,通过抽取、转换和加载过程,将分
散的、不一致的、冗余的业务系统源数据按照事先定义
的数据标准进行整合。首先,根据需求在源业务系统数
据库中建立源数据视图。然后,与源数据库建立连接,
抽取源数据库中的源数据视图到中间表中,在抽取的过
程中依据既定的数据清洗规则对源视图中的数据进行
清洗转换,使抽取的源数据符号制定的数据标准。最
后,将转换后的数据存储至共享数据中心中,存储方式
有全量和增量两种方式,数据 ETL 模型如图 1所示。
图1 数据 ETL 模型
2 平台构建
2. 1 信息标准建立
建立信息标准主要是保证数据在采集、清洗、转换
与流转的过程中有统一规范,保证数据的一致和准确,
最大范围的实现数据的共享。高校信息标准的制定应
充分参考国家已有的教育信息化标准或相关的行业标
准,同时根据高校自身的特点,信息标准应具有实用性、
易扩展性和易操作性。
2. 2 数据清洗
数据清洗就是利用相关技术依据规则将数据转换
为满足质量要求的规范化数据,其目的就是保证数据的
一致性,确保数据的参照完整性和精确性,数据清洗的
—26—
第19 期
2020 年10 月无线互联科技
Wireless Internet Technology
No. 19
October, 2020
摘要:
展开>>
收起<<
CCk6IeLCee
声明:菜根智库所有资料均为用户上传分享,仅供参考学习使用,版权归原作者所有。若侵犯到您的权益,请告知我们处理!任何个人或组织,在未征得本平台同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。
相关推荐
-
腾讯研究院:工业大模型应用报告VIP专免
2025-04-04 159 -
阿里云:大模型典型示范应用案例集VIP专免
2025-04-04 150 -
AI+Agent创新10大前沿方向与落地实践-杨永强中盛VIP专免
2025-04-08 141 -
2025年智能分析Agent白皮书VIP专免
2025-05-24 159 -
2025年AI落地应用最新工具集
2025-07-12 139 -
智能体落地最佳实践白皮书 2025VIP专免
2025-07-28 134 -
华为重磅!智能世界2035-134页VIP专免
2025-09-19 988 -
腾讯云2025企业级智能体产业落地研究报告-从场景试点到规模化应用实践105页VIP专免
2025-09-23 139 -
DeepSeek给我们带来的创业机会VIP专免
2025-12-27 120 -
腾讯云中小企业AI实战指南
2026-01-23 133
作者:海阔天空
分类:数字化
价格:免费
属性:2 页
大小:639.19KB
格式:PDF
时间:2024-02-27

