article20201129

大数据 | 大数据基础--算法之外存模型算法:外存排序

亲爱的读者朋友大家晚上好,上次我们简单介绍了外存模型以及一些基本问题,这次我们来介绍外存模型下的排序算法。

外存模型

到目前为止,按照存储模型,我们学过的算法模型应该分为两种:一种是\(RAM\)模型,也就是我们常用的算法的设计模型,另一种是\(I/O\)模型,内存比数据量小,外存是无限的。

外存访问与内存访问有一些差异:

  • 与外存相比,内存的速度更快
  • 外存的连续访问比随机访问代价小,也就是说:以块\((block)\)为单位访问,而不是\(elemen\ wise\)

\(I/O\)模型中,内存的大小为\(M\),页面大小为\(B\),外存大小无限,页面大小为\(B\)

外存排序问题

考虑外存排序算法的时候要与外存模型紧密地结合起来。

算法

  • 给定\(N\)个数据,将其分成大小为\(O(M)\)的组
  • 每一组数据可以在内存排序
  • 将每一组数据从外存读进来需要\(O(M/B)\)\(I/O\)
  • 对所有分组进行以上操作,于是每个分组内部都是已经排好序的数据
  • 对这些排好序的分组进行多路归并排序
  • 每次可以归并\(O(M/B)\)个分组

过程解释

首先需要明白的一点是从外存向内存转移数据的时候,一次只能转移\(B\)的数据量。于是,要想一次把内存读慢,相应的\(I/O\)次数就是\(O(M/B)\)。另外进行多路归并排序时,至多可以归并多少分组。从每个分组读出来一个页面,然后进行排序,所以这里跟每个分组的大小没有关系,只跟内存的大小有关,所以是\(O(M/B)\)

图示

1606612390645

评价

我们来对上述算法的\(I/O\)代价进行简单的分析:首先时间复杂度分为两个部分,一个是分组内排序,另一个是分组间归并排序。对于分组内排序,只需要将每个分组的数据读入内存即可,这部分对应的时间复杂度为\(O(N/B)\)。对于归并排序,相应的时间代价应该是每一趟归并的开销之和,而每一趟归并都需要把所有数据都导入到内存中一次,这个时间代价为\(O(N/B)\),因此我们只需要计算处进行归并的趟数即可。如图所示,归并的趟数可以表示为\(O(log_{M/B}\frac{N}{B})\)。综上所述:总的时间开销为:\(O(N/B \cdot log_{M/B}\frac{N}{B})\)

总结

以上就是关于外村模型下对数据进行排序问题的解决方案。下次我们会对\(list\ ranking\)算法进行分析,敬请期待~