20201220
大数据 | 大数据基础--系统之大数据计算系统概述
亲爱的读者朋友大家晚上好,从今天开始,每周一晚上会介绍大数据 系统 相关的知识。今天就先从概述讲起~~
Q&A
什么是计算系统?
- 计算(机)系统指的是:完整的、正在工作的计算机,包括计算机以及完成某项计算任务所需要的软件和周边设备
- 作为一个系统,最重要特点是:所有部件都潜在和其他部件通信,也就是交互
大数据对计算系统的要求是什么?
还要先从大数据的四个性质说起
- 规模大
- 生成速度快
- 类型繁多
- 价值密度低
针对大数据的不同的性质我们对计算系统提出了不同的要求,使用下面的这张图可以很好的概括:
大数据计算系统的层次是什么?
从软件到硬件,计算系统大致分为三个层次:硬件系统、操作系统、应用软件
最顶层的应用软件调用计算框架,计算框架执行计算任务,接用操作系统提供的接口实现存储管理和计算资源管理,存储管理和计算资源的调度接用硬件层接口实现。大致的层次结构如下所示:
其中的关键点
- 面向数据密集型计算的硬件系统:高性能计算、计算和多级存储性能的配合
- 面向大数据的操作系统:大规模存储管理、计算和存储耦合计算的支持
- 大数据计算框架:便利的大数据编程接口、计算任务执行、存储管理等
- 大数据管理系统:大规模数据的存储和查询
- 面向大数据的编译器:面向大数据的代码生成(分布式、大规模输入)、面向 大数据的代码优化(优化任务执行、优化数据分布、减少数据重分布)
现在的(大数据)计算系统有哪些?
- 背后的大数据计算系统--Hadoop是一个开源的、可靠的、可扩展的分布式并行计算框架,主要包括以下内容
- MapReduce – 离线大数据分析计算引擎
- HDFS – 分布式文件系统
- YARN– 任务执行调度资源管理框架
- Hbase – NoSQL数据库
- Hive – 分布式数据仓库
HADOOP历史
- Hadoop之父--Doug Cutting
总结
Hadoop也将会是接下来要介绍的重点内容,下一次我就会从大数据计算框架(便利的大数据编程接口、计算任务执行、存储管理等)开始了,敬请期待~~