首页 理论教育 云计算应用实践:Hadoop简介

云计算应用实践:Hadoop简介

时间:2023-11-20 理论教育 版权反馈
【摘要】:最初,Hadoop是为一个开源的网络搜索引擎而开发的文本搜索库。首先来回顾一下Nutch的发展状况,以便对Hadoop的前身有更多的了解。大约在同一时间,Hadoop的主要设计者加入雅虎,雅虎如获至宝,专门提供一个团队和相关的资源要将Hadoop发展成一个可在网络上运行的系统。在2008年2月,雅虎宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。根据它的设计目的再加上我们的分析,现在大致可以认为Hadoop要解决的问题与大量文件有关。

云计算应用实践:Hadoop简介

最初,Hadoop是为一个开源的网络索引擎(Apache Nutch)而开发的文本搜索库。首先来回顾一下Nutch的发展状况,以便对Hadoop的前身有更多的了解。Nutch项目开始于2002年,它最初就是一个抓取工具加一个搜索工具。但开发人员很快就意识到,他们的这个架构无法处理数十亿的网页搜索工作。

紧接着2003年,搜索巨擘Google的研究人员发表了一篇描述Google分布式文件系统(Google File System,简称GFS)的文章。文中提到的GFS或类似的东西,恰恰可以解决他们在网络抓取和索引过程中产生的大量文件的存储需求。具体而言,GFS会节省管理所花的时间,如管理存储节点。

2004年,Nutch的设计者们开始开发一个开放源代码的分布式文件系统(NDFS),也就是后来耳熟能详的HDFS的前身。就在NDFS开发的时候,Google又发表了一篇文章,向全世界介绍了MapReduce这一分布式计算框架。于是,幸运的Nutch开发人员在2005年又在Nutch上增加了一个可工作的MapReduce计算框架,同时将所有主要的Nutch算法移植到使用MapReduce和NDFS的架构里来运行。之后,开发人员觉得Nutch中的NDFS和MapRe-duce实现的应用不光可以应用在搜索领域,在2006年2月,他们从Nutch转移出来成为一个独立的Lucene子项目,就是现在流行的开源云计算平台Hadoop。

大约在同一时间,Hadoop的主要设计者加入雅虎,雅虎如获至宝,专门提供一个团队和相关的资源要将Hadoop发展成一个可在网络上运行的系统。在2008年2月,雅虎宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。至此,Hadoop这个词在业界迅速升温,当大家提到云计算的时候就会自然而然地想起这个词(Hadoop这个词源自其主要设计者的儿子给一个玩具小象起的名字,这个玩具小象也成为了Hadoop的标志)。(www.xing528.com)

现在,我们来通过前面的描述分析一下Hadoop。首先,它是为搜索引擎设计的,而具体的主要工作是在一大堆文件中查找关键字。它的HDFS主要是做文件相关的工作,而Ma-pReduce作为一个框架,可以把算法集成在上面。

根据它的设计目的再加上我们的分析,现在大致可以认为Hadoop要解决的问题与大量文件有关。下面依然通过例子来证实我们的想法。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈