五个篇章讲明白大数据平台如何从0到1搭建
VIP免费
欢迎关注微信公众号:数据社,获取更多大数据资料!
篇章一:如何从0到1搭建大数据平台
大数据时代这个词被提出已有10年了吧,越来越多的企业已经完成了大数据平台的搭建。随着移动互联
网和物联网的爆发,大数据价值在越来越多的场景中被挖掘,随着大家都在使用欧冠大数据,大数据平
台的搭建门槛也越来越低。借助开源的力量,任何有基础研发能力的组织完全可以搭建自己的大数据平
台。但是对于没有了解过大数据平台、数据仓库、数据挖掘概念的同学可能还是无法顺利完成搭建,因
为你去百度查的时候会发现太多的东西,和架构,你不知道如何去选择。今天给大家分享下大数据平台
是怎么玩的。
00 架构总览
通常大数据平台的架构如上,从外部采集数据到数据处理,数据显现,应用等模块。
01 数据采集
无论上层采用何种的大规模数据计算引擎,底层的数据存储系统基本还是以HDFS为主。
HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管
理的基础。具备高容错性、高可靠、高吞吐等特点。
HDFS存储的是一个个的文本,而我们在做分析统计时,结构化会方便需要。因此,在HDFS的基础上,
会使用Hive来将数据文件映射为结构化的表结构,以便后续对数据进行类SQL的查询和管理。
03 数据处理
数据处理就是我们常说的ETL。在这部分,我们需要三样东西:计算引擎、调度系统、元数据管理。
对于大规模的非实时数据计算来讲,目前一样采用Hive和spark引擎。Hive是基于MapReduce的架构,
稳定可靠,但是计算速度较慢;Spark则是基于内存型的计算,一般认为比MapReduce的速度快很多,
但是其对内存性能的要求较高,且存在内存溢出的风险。Spark同时兼容hive数据源。
从稳定的角度考虑,一般建议以Hive作为日常ETL的主要计算引擎,特别是对于一些实时要求不高的数
据。Spark等其他引擎根据场景搭配使用。
实时计算引擎方面,目前大体经过了三代,依次是:storm、spark streaming、Flink。Flink已被阿里
收购,大厂一直在推,社区活跃度很好,国内也有很多资源。
调度系统上,建议采用轻量级的Azkaban,Azkaban是由Linkedin开源的一个批量工作流任务调度器。
https://azkaban.github.io/
一般需要自己开发一套元数据管理系统,用来规划数据仓库和ETL流程中的元数据。元数据分为业务元
数据和技术元数据。
业务元数据,主要用于支撑数据服务平台Web UI上面的各种业务条件选项,比如,常用的有如下
一些:移动设备机型、品牌、运营商、网络、价格范围、设备物理特性、应用名称等。这些元数
据,有些来自于基础数据部门提供的标准库,比如品牌、价格范围等,可以从对应的数据表中同步
或直接读取;而有些具有时间含义的元数据,需要每天通过ETL处理生成,比如应用信息。为支撑
应用计算使用,被存储在MySQL数据库中;而对于填充页面上对应的条件选择的数据,则使用
标签: #大数据
摘要:
展开>>
收起<<
欢迎关注微信公众号:数据社,获取更多大数据资料!篇章一:如何从0到1搭建大数据平台大数据时代这个词被提出已有10年了吧,越来越多的企业已经完成了大数据平台的搭建。随着移动互联网和物联网的爆发,大数据价值在越来越多的场景中被挖掘,随着大家都在使用欧冠大数据,大数据平台的搭建门槛也越来越低。借助开源的力量,任何有基础研发能力的组织完全可以搭建自己的大数据平台。但是对于没有了解过大数据平台、数据仓库、数据挖掘概念的同学可能还是无法顺利完成搭建,因为你去百度查的时候会发现太多的东西,和架构,你不知道如何去选择。今天给大家分享下大数据平台是怎么玩的。00架构总览通常大数据平台的架构如上,从外部采集数据到...
声明:菜根智库所有资料均为用户上传分享,仅供参考学习使用,版权归原作者所有。若侵犯到您的权益,请告知我们处理!任何个人或组织,在未征得本平台同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。
相关推荐
-
2024年智能穿戴设备海外市场报告 -可穿戴设备新风潮 解码智能穿戴出海的“Glowtime'VIP专享
2024-10-06 209 -
2024中国物联网产业创新白皮书VIP专享
2024-10-06 218 -
艾瑞咨询:2024年教育智能硬件市场与用户洞察报告
2024-10-12 204 -
6G无源物联网定位技术白皮书
2024-10-17 166 -
国外雷达探测感知领域年度发展白皮书-91页VIP专享
2024-10-20 193 -
深圳“208”之智能传感器产业前景机遇与技术趋势探析VIP专享
2024-11-10 217 -
2024先进感知新技术及新应用白皮书VIP专享
2024-12-16 247 -
射频识别(RFID)技术与标准化蓝皮书(2023)VIP专享
2024-12-16 215 -
[物联网]【精品】华为云联万物,智创未来(IoT平台)
2024-12-22 214 -
面向万物互联的蜂窝无源物联网技术白皮书(2025)
2025-07-26 145

