article20201025

Posted on 2021-06-13 Edited on 2021-06-14

大数据 | 大数据基础--算法之并行计算算法：基本问题（一）

亲爱的读者朋友大家晚上好，从今天开始我们来介绍并行算法。

并行算法一般基于一定的框架进行计算，常用的计算框架主要有PRAM模型，BSP（Bulk Synch Parallel）模型，MapReduce模型。我们主要分析MR模型，这里将的是理论的分析模型，具体的实现计算平台，比如hadoop等在后面会进行分析。

MapReduce

使用MR模型进行计算有几个要点：

下面我们来看一些具体的问题实例，这些例子都是可以并行的，当然实现的逻辑不止一种，有多种可能性，这里只是给出一种方法。

定义：给定一组文档，统计每一个单词出现在哪些文件中

Map函数：\(<docID,content> \rightarrow <word,docID>\)，在map函数处理的时候对content进行拆分，并将分出来的word都转换成word加上对应的docID输出。
Reduce函数：\(<word,docID> \rightarrow <word,list\ of\ docID>\)，map函数结束之后，shuffle会自动将key相同的键值对输出到一个机器上，我们直接对这个批次中的数据规整到一起即可。

定义：给定一组文档，统计每一个单词出现的次数

定义：给定行号和相应的文档内容，统计指定单词出现的位置（*行号）

以上就是并行计算的简单介绍，下次我们会继续应用这个计算框架解决一些更具挑战性的问题，敬请期待。