首页 理论教育 如何安装和搭建Hadoop分布式集群?

如何安装和搭建Hadoop分布式集群?

时间:2023-06-20 理论教育 版权反馈
【摘要】:进入SparkWorker1、SparkWorker2检查Hadoop的文件内容。此时Wadoop分布式集群搭建完成。

如何安装和搭建Hadoop分布式集群?

1.安装Hadoop

(1)下载Hadoop(笔者使用的版本是hadoop-2.4.1),并解压到自己创建的目录下。

(2)在/hadoop-2.4.1/etc/hadoop/hadoop-env.sh文件中配置JDK的安装信息,配置内容如下:

(3)为了方便我们开机启动后也可以立即使用Hadoop的bin目录下的相关命令,可以把hadoop的bin目录配置到“~/.bashrc”文件中,修改后的文件内容为:

保存并退出,使用source~/.bashrc命令使配置信息生效。

2.配置Hadoop分布式集群

(1)在/etc/hostname文件中修改主机名,并在/etc/hosts文件中配置主机名和IP地址的对应关系。可以在命令终端使用ifconfig命令查看当前机器的IP地址。在这里考虑到我们最终是为了构建Spark集群,所以三台机器的主机名定为:SparkMaster、SparkWorker1 SparkWorker2。如果修改完三台机器各自的/etc/hostname文件后,主机的名字没有生效,重新启动系统后就可以了。

(2)在hadoop的目录下用mkdir命令创建namenode和datanode目录:tmp、hdfs、hdfs/ data、hdfs/name。

(3)修改SparkMaster的配置文件

1)修改core-site.xml文件,修改后的内容为:

2)修改mapred-site.xml文件,修改后的内容为:(www.xing528.com)

3)修改hdfs-site.xml文件,把“dfs.replication”的值设为2,这样数据就会有两份副本。修改后的内容为:

4)修改masters和slaves文件的内容,在masters文件里,把“localhost”改为“Spark-Master”,slaves文件的内容修改后为:

(4)将SparkMaster结点上Hadoop的所有文件通过pssh复制到另外两个结点上去。在终端输入命令:./pssh-h host.txt-r/usr/local/hadoop。

(5)进入SparkWorker1、SparkWorker2检查Hadoop的文件内容。

3.测试Hadoop分布式集群

(1)在SparkMaster结点格式化集群的文件系统,在命令终端输入:hadoop namenode-format

(2)启动Hadoop集群,进入Hadoop的sbin目录,然后在shell命令终端输入:./start-all.sh命令,可以看到SparkMaster、SparkWork1以及SparkWorker2全部已经启动。

(3)通过JPS命令查看一下各个结点的进程信息:

在SparkMaster结点出现了进程ID为4433的NameNode,SparkWorker1结点出现了进程ID为2444的DataNode,以及SparkWorker2结点出现了进程ID为2193的DataNode。此时Wadoop分布式集群搭建完成。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈