20201227

Posted on 2021-06-13 Edited on 2021-06-14

大数据 | 大数据基础--系统之大数据计算框架概述

亲爱的读者朋友大家晚上好，上次我们介绍了大数据计算系统的概述。今天就要开始讲计算框架了~

对大数据的处理无法由单台计算机完成时，需要由多台机器共同承担计算任务。

例如：假设有一个巨大的2维数据需要处理(比如求每个元素的开立方)，其中对每个元素的处理是相同的,并且数据元素间不存在数据依赖关系,可以考虑不同的划分方法将其划分为子数组,由一组处理器并行处理。

主节点也就是Master：负责划分和分配任务；工作节点也就是worker：负责数据块计算，也就是执行子任务。

在分布式环境中进行大数据并行处理，除了访问存储系统，还涉及计算任务的分工，计算负荷的分配，计算机间的数据迁移等工作，并且要考虑计算机或网络发生故障时的数据安全，情况复杂。
对开发人员的挑战：编程难度大、调试难度大。
对系统设计人员的挑战：系统设计需要考虑的因素多。
对系统运维人员的挑战：运维工具缺少，容易积累错误。

从很多很多销售记录中统计各种商品销售额，一台机器无法处理，需要许多台计算机一起来统计。

需要解决的问题：

问题一：如何为每台机器分配任务，是先按商品种类对销售记录分组，不同机器处理不同商品种类的销售记录，还是随机向各台机器分发一部分销售记录进行统计，最后把各台机器的统计结果按商品种类合并？

问题二：上述两种方式都涉及数据的排序问题，应选择哪种排序算法？应该在哪台机器上执行排序过程？

问题三：如何定义每台机器处理的数据从哪里来，处理结果到哪里去？数据是主动发送，还是接收方申请时才发送？如果是主动发送，接收方处理不过来怎么办？如果是申请时才发送，那发送方应该保存数据多久？

问题四：会不会任务分配不均，有的机器很快就处理完了，有的机器一直忙着？甚至，闲着的机器需要等忙着的机器处理完后才能开始执行？

问题五：如果增加一台机器，它能不能减轻其他机器的负荷，从而缩短任务执行时间？

问题六：如果一台机器挂了，它没有完成的任务该交给谁？会不会遗漏统计或重复统计？

问题七：统计过程中，机器之间如何协调，是否需要专门的一台机器指挥调度其他机器？如果这台机器挂了呢？

问题八：如果销售记录在源源不断地增加，统计还没执行完新记录又来了，如何保证统计结果的准确性？能不能保证结果是实时更新的？再次统计时能不能避免大量重复计算？

问题九：能不能让用户执行一个语句就可以得到结果？

如果不涉及上面提出的第8、9两个问题，则属于批处理框架。批处理框架重点关心数据处理的吞吐量，又可分为非迭代式和迭代式两类，迭代式包括 DAG（有向无环图）、图计算等模型
若针对第8个问题提出来应对方案，则分两种情况：如果重点关心处理的实时性，则属于流计算框架；如果侧重于避免重复计算，则属于增量计算框架
如果重点关注的是第9个问题，则属于交互式分析框架

下一次就从Hadoop作为第一个计算框架的例子开始分析，敬请期待~~