加入收藏 | 设为首页 | 会员中心 | 我要投稿 武汉站长网 (https://www.027zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据关键技术——MapReduce

发布时间:2022-11-19 16:00:39 所属栏目:大数据 来源:互联网
导读:
传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理,并且数据处理方法是以处理器为中心,处理的大多是结构化数据。

随着互联网

640?wx_fmt=png

传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理,并且数据处理方法是以处理器为中心,处理的大多是结构化数据。

640?wx_fmt=jpeg

随着互联网的发展,数据来源日渐丰富且数据类型多样,除了结构化数据,非结构化的数据大量浮现。随即面临的问题便是存储和分析挖掘的数据量变大,对数据展现的要求要高,并且很看重数据处理的高效性和可用性。

640?wx_fmt=jpeg

大环境的驱使下,大数据的基本处理流程应用而生,与传统数据处理流程相比,主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各个处理环节中都可以采用MapReduce等方式进行并行处理。

640?wx_fmt=jpeg

大数据的并行处理利器——MapReduce

大数据可以通过MapReduce这一并行处理技术来提高数据的处理速度。MapReduce的设计初衷是通过大量廉价服务器实现大数据并行处理,对数据一致性要求不高,其突出优势是具有扩展性和可用性,特别适用于海量的结构化、半结构化及非结构化数据的混合处理。

MapReduce将传统的查询、分解及数据分析进行分布式处理,将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。作为一个简化的并行处理的编程模型,MapReduce还降低了开发并行应用的门槛。

640?wx_fmt=jpeg

MapReduce是一套软件框架大数据关键技术,包括Map(映射)和Reduce(化简)两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。

MapReduce的工作原理其实是先分后合的数据处理方式。Map即“分解”,把海量数据分割成了若干部分,分给多台处理器并行处理;Reduce即“合并”,把各台处理器处理后的结果进行汇总操作以得到最终结果。如右图所示,如果采用MapReduce来统计不同几何形状的数量,它会先把任务分配到两个节点,由两个节点分别并行统计,然后再把它们的结果汇总,得到最终的计算结果。

640?wx_fmt=jpeg

MapReduce适合进行数据分析、日志分析、商业智能分析、客户营销、大规模索引等业务,并具有非常明显的效果。通过结合MapReduce技术进行实时分析,某家电公司的信用计算时间从33小时缩短到8秒,而MKI的基因分析时间从数天缩短到20分钟。

说到这里,再看一看MapReduce与传统的分布式并行计算环境MPI到底有何不同?MapReduce在其设计目的、使用方式以及对文件系统的支持等方面与MPI都有很大的差异,使其能够更加适应大数据环境下的处理需求。

640?wx_fmt=jpeg

除了以上提到的MapReduce技术,想要成为大数据行业的资深人员,以下这些都是必备知识:

Java SE、Linux、Hadoop集群、Storm实时流式计算,新一代计算引擎Flink Spark内存计算架构,最好还要有:项目架构(数据抓取、存储、计算处理、可视化)完整系统、阿里云电商项目实训。

640?wx_fmt=jpeg

(编辑:武汉站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!