首页 理论教育 Hadoop发展简史

Hadoop发展简史

时间:2023-06-28 理论教育 版权反馈
【摘要】:Hadoop这个名称是由它的创始人Doug Cutting命名,来源于Doug Cutting儿子的棕黄色大象玩具,它的发音是:“hdu:p”。图5-1Hadoop图标Hadoop起源于2002年Doug Cutting和Mike Cafarella开发的Apache Nutch项目。截至2016年年初,Apache Hadoop版本分为两代。第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0。第二代Hadoop包含2个版本,分别是0.23.x和2.x。相比之下,Hadoop 2.0功能更加强大、扩展性更好并且能够支持多种计算框架。Hadoop的版本如表5-1所示。

Hadoop发展简史

Hadoop这个名称是由它的创始人Doug Cutting命名,来源于Doug Cutting儿子的棕黄色大象玩具,它的发音是:“hædu:p”。Hadoop的图标如图5-1所示。

图5-1 Hadoop图标

Hadoop起源于2002年Doug Cutting和Mike Cafarella开发的Apache Nutch项目。Nutch项目是一个开源的网络搜索引擎,Doug Cutting主要负责开发的是大范围文本搜索库。随着互联网的飞速发展,Nutch项目组意识到其构架无法扩展到拥有数十亿网页的网络,随后在2003年和2004年Google先后推出了两个支持搜索引擎而开发的软件平台。这两个平台一个是谷歌文件系统(GFS),用于存储不同设备所产生的海量数据;另一个是MapReduce,它运行在GFS之上,负责分布式大规模数据的计算。基于这两个平台,在2006年年初,Doug Cutting和Mike Cafarella从Nutch项目转移出来一个独立的模块,称为Hadoop。(www.xing528.com)

截至2016年年初,Apache Hadoop版本分为两代。第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0。第一代Hadoop包含3个版本,分别是0.20.x,0.21.x和0.22.x。第二代Hadoop包含2个版本,分别是0.23.x和2.x。其中,第一代Hadoop由一个分布式文件系统HDFS和一个离线计算框架MapReduce组成;第二代Hadoop则包含一个支持NameNode横向扩展的HDFS,一个资源管理系统Yarn和一个运行在Yarn上的离线计算框架MapReduce。相比之下,Hadoop 2.0功能更加强大、扩展性更好并且能够支持多种计算框架。目前,最新的版本是2016年年初发布的Hadoop 2.7.2。Hadoop的版本如表5-1所示。

表5-1 Hadoop的版本

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈