分布式计算MapReduce

论坛 期权论坛 脚本     
匿名技术用户   2020-12-23 06:47   11   0

MapReduce 分布式计算模型
分布式计算技术研究如何把一个非常巨大的计算能力才能解决的问题分解成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到的最终结果
1.分布式计算的复杂性
数据的分布式存储
数据的并行计算
中间计算结果的存储
并行计算结果的高效汇总
并行计算的错误处理
集群负载均衡
【流计算】-实时计算,不是离线计算--Apache Storm

MapReduce
1. MapReduce包含2部分内容,编程模型+相关实现
1. 编程模式:用于封装分步式计算的逻辑,由开发者提供
2. 相关实现:用于在集群上实现MapReduce计算任务,代码复杂,由平台提供,将并发、容错、数据分布式、负载均衡隐藏在一个库中
2. 编程模型核心由2个函数构成
1. map():封装了在所有数据(以文本的一行为单位)上进行并行计算的逻辑
2. reduce():封装了对map()计算结果进行汇总的逻辑
3. MapReduce非常适合进行大量数据的离线计算,但是不适合进行迭代计算。后者是数据挖掘的常用计算方式。该部分功能已经被Spark所取代。

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:7942463
帖子:1588486
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP