首页 理论教育 如何搭建Hadoop平台?

如何搭建Hadoop平台?

时间:2023-06-28 理论教育 版权反馈
【摘要】:Hadoop平台本身的开发基于Java语言,最早是为了在Linux平台上使用而开发的。③为Hadoop集群创建访问账号Hadoop,创建访问组Hadoop,创建用户目录,把账号、组和用户目录绑定。只要下面3个系统进程出现,Second ary NameNode,JobTracker,NameNode,则表示Hadoop启动成功。最后,完成Hadoop的分步式安装,环境搭建成功。启动Hadoop前,需要先格式化

如何搭建Hadoop平台?

Hadoop平台本身的开发基于Java语言,最早是为了在Linux平台上使用而开发的。虽然它在Windows下也可以安装并良好运行,但在Windows下安装Hadoop稍微复杂,必须首先模拟Linux环境才可以。下面分别介绍在Linux下和Windows下Hadoop平台的搭建。

5.3.1.1 Linux下Hadoop平台的搭建

Hadoop平台的搭建过程较为复杂,需要配置的软、硬件环节较多。搭建过程大体分为3个步骤(以1台NameNode节点、4台DataNode节点为例)。

(1)Hadoop环境准备。

①首先环境准备,选择适合的Linux操作系统,例如Linux Ubuntu操作系统12.04的64位版本。JDK下载网址:http://www.oracle.com/technetwork/java/javase/downloads/index.html。

②将这5台机器配置成一样的环境并作为虚拟机,通过内网的一个DNS服务器,指定5台虚拟机所对应的域名。

③为Hadoop集群创建访问账号Hadoop,创建访问组Hadoop,创建用户目录,把账号、组和用户目录绑定。

④为Hadoop的HDFS创建存储位置,比如:/hadoop/conan/data0,给Hadoop用户权限。

⑤设置SSH自动登录,使得5台虚拟机都有SSH自动登录配置。

至此,环境准备完成。

(2)Hadoop完全分步式集群搭建。

①首先在NameNode节点上下载Hadoop。

②修改Hadoop配置文件hadoop-env.sh,hdfs-site.xml,core-site.xml,mapred-site.xml,设置Master和Slaves节点。

③把配置好的NameNode节点,用scp命令复制到其他4台虚拟机同样的目录位置。

④启动NameNode节点,第一次启动时要先进行格式化,命令:bin/hadoop namenode-format。

⑤启动Hadoop,命令:bin/start-all.sh。

输入jps命令,可以看到所有Java的系统进程。只要下面3个系统进程出现,Second ary NameNode,JobTracker,NameNode,则表示Hadoop启动成功。

通过命令:netstat-nl,可以检查系统打开的端口。其中包括HDFS的9000,JobTracker的9001,NameNode的web监控的50070,MapReduce的web监控的50030。

其他的节点的测试检查与上述方法相同。(www.xing528.com)

(3)HDFS测试。Hadoop环境启动成功,可以进行一下HDFS的简单测试。

①在HDFS上面创建一个目录,命令:bin/hadoop fs-mkdir/test。

②复制一个本地文件到HDFS文件系统中,命令:bin/hadoop fs-copyFormLocal README.txt/test。

③查看刚刚上传的文件,命令:bin/hadoop fs-ls/test。

最后,完成Hadoop的分步式安装,环境搭建成功。

5.3.1.2 Windows下Hadoop平台的搭建

(1)Hadoop环境准备。

①安装JDK1.6或更高版本。官网下载JDK,安装时注意路径名中尽量不要存在空格,例如:Programe Files,否则在配置Hadoop的配置文件时会找不到JDK。

②安装Cygwin。Cygwin是Windows平台下模拟Unix环境的工具,需要在安装Cygwin的基础上安装Hadoop,下载网址:http://www.cygwin.com/,根据操作系统的需要下载32位或64的安装文件。

③配置环境变量。在“我的电脑”上点击右键,选择菜单中的“属性”,点击属性对话框上的高级页签,点击“环境变量按钮,在系统变量列表里双击“Path”变量,在变量值后输入安装的Cygwin的bin目录,例如:D:\hadoop\cygwin64\bin。

④安装sshd服务。双击桌面上的Cygwin图标,启动Cygwin,执行ssh-hostconfig-y命令。执行后,会提示输入密码,否则会退出该配置,此时输入密码和确认密码,回车。最后出现Host configuration finished.Have fun!表示安装成功。此时输入net start sshd,启动服务或者在系统的服务里找到并启动Cygwin sshd服务。如果使用的是Win8操作系统,启动Cygwin时,需要以管理员身份运行,否则会因为权限问题,提示“发生系统错误5”。

⑤配置SSH免密码登录。执行ssh-keygen命令生成密钥文件,输入:sshkeygen-t dsa-P’’-f~/.ssh/id_dsa,注意-t-P-f参数区分大小写。其中sshkeygen是生成密钥命令;-t表示指定生成的密钥类型(dsa,rsa);-P表示提供的密语;-f指定生成的密钥文件。执行此命令后,在Cygwin\home\用户名路径下面会生成.ssh文件夹,可以通过命令ls-a/home/用户名查看,ssh-version命令查看版本。然后执行exit命令,退出Cygwin窗口。

至此,环境准备完成。

(2)Hadoop完全分步式集群搭建。Hadoop官网下载http://hadoop.apache.org/releases.html。把Hadoop压缩包解压到/home/用户名目录下,文件夹名称更改为hadoop。

①单机模式配置方式。单机模式不需要配置,这种方式下,Hadoop被认为是一个单独的Java进程,这种方式经常用来调试。

②伪分布模式。可以把伪分布模式看作是只有一个节点的集群,在这个集群中,这个节点既是Master,也是Slave;既是NameNode,也是DataNode;既是Job-Tracker,也是TaskTracker。这种模式下修改几个配置文件即可。配置hadoop-env.sh,记事本打开改文件,设置Java_home的值为JDK的安装路径。

③Hadoop测试。启动Hadoop前,需要先格式化Hadoop的文件系统HDFS,执行命令:bin/hadoop namenode-format。接下来,验证是否安装成功。打开浏览器,分别输入网址:http://localhost:50030,如果能够正常浏览,说明安装成功。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈