20210131

Posted on 2021-06-13 Edited on 2021-06-14

大数据 | 大数据基础--系统之大数据实时计算框架

亲爱的读者朋友大家晚上好，前两次计划讲解的批处理框架Spark&Hyracks已经分析完了，从这一次开始我们来共同学习一下实时计算框架storm、spark streaming等。

也称即时计算，是受到“实时约束”的计算机硬件和计算机软件系统
实时约束是从事件发生到系统回应之间的最长时间限制。实时程序必须保证在严格的时间限制内响应。
最重要的需求是能够实时响应计算结果，一般要求为秒级以内。
实时计算可以分为以下两种应用场景：
- 连续计算：主要用于流式数据处理。数据流是一系列数据记录的集合体。常见的数据流如网站的访问 PV/UV、点击、搜索关键字。
- 实时分析：用于特定场合下的数据分析处理。当数据量很大，将部分计算或全部计算过程推迟到查询阶段进行，但要求能够实时响应。

流计算：实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值的信息。Hadoop处理得太慢，所以不合适。

流计算特点

流计算秉承一个基本理念，即数据的价值随着时间的流逝而降低，如用户点击流。因此，当事件出现时就应该立即进行处理，而不是缓存起来进行批量处理。为了及时处理流数据，就需要一个低延迟、可扩展、高可靠的处理引擎
对于一个流计算系统来说，它应达到如下需求：
- 高性能：处理大数据的基本要求，如每秒处理几十万条数据
- 海量式：支持TB级甚至是PB级的数据规模
- 实时性：保证较低的延迟时间，达到秒级别，甚至是毫秒级别
- 分布式：支持大数据的基本架构，必须能够平滑扩展
- 易用性：能够快速进行开发和部署
- 可靠性：能可靠地处理流数据

1612105483636

数据流处理--可用来实时处理新数据和更新数据库，兼具容错性和可扩展性。
连续计算--可进行连续查询并把结果即时反馈给客户端。例如：把Twitter上的热门话题发送到浏览器中。
分布式远程程序调用可用来并行处理密集查询。其拓扑结构是一个等待调用信息的分布函数，当它收到一条调用信息后，会对查询进行计算，并返回查询结果。例如：可以做并行搜索或者处理大集合的数据。

编程模型简单：类似于MapReduce降低了并行批处理复杂性，Storm降低了进行实时处理的复杂性。

可以使用各种编程语言：可以在Storm之上使用各种编程语言。默认支持Clojure、Java、Ruby和Python。要增加对其他语言的支持，只需实现一个简单的Storm通信协议即可。

容错性：Storm会管理工作进程和节点的故障。

水平扩展：计算是在多个线程、进程和服务器之间并行进行的。

可靠的消息处理：Storm保证每个消息至少能得到一次完整处理。任务失败时，它会负责从消息源重试消息。

快速：系统的设计保证了消息能得到快速的处理。

本地模式：可以在处理过程中完全模拟Storm集群，可以快速进行开发和单元测试。

Spark Streaming是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。
Spark Streaming支持从多种数据源获取数据，包括 Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及 TCP sockets。
从数据源获取数据之后，可以使用诸如map、 reduce、join等高级函数进行复杂算法的处理。
最后还可以将处理结果存储到文件系统，数据库。

Spark Streaming可整合多种输入数据源，如Kafka、Flume、 HDFS，甚至是普通的TCP套接字。经处理后的数据可存储至文件系统、数据库，或显示在仪表盘里。

1612106353368

以上就是大数据实时计算框架的简介以及两个具体的实现的简介，下次我将会从对这个计算任务的抽象、计算框架的API等对这两个实现框架进行介绍，敬请期待~