首页 理论教育 Hive的安装和配置方法详解

Hive的安装和配置方法详解

时间:2023-07-02 理论教育 版权反馈
【摘要】:下面分别介绍Hive的3种模式下的安装步骤。如果见到下面的提示,说明Hive已经安装成功了。1)在进行Hive的远程模式安装之前,先登录MySQL查看已有的数据库的信息。因为我们使用MySQL作为元数据数据库,所以还需要把MySQL的驱动放到Hive安装目录下的lib子目录中。

Hive的安装和配置方法详解

要安装Hive,首先要去Hive的官网(hive.apache.org)下载安装包(本书选择Hive-1.2.1版本)。在这里要说明一下,官网上的安装包不带基于Web的图形化的查询工具,如果需要的话,可以自行下载源码包,自己编译打包,生成基于Web的图形化查询工具,然后进行部署。这个时候就可以使用Web的管理工具来查询数据仓库中的数据了。

我们知道Hive是运行在Hadoop之上的,所以在安装Hive之前,我们要先安装好Ha-doop环境,Hadoop可以是单机环境,也可以是伪分布环境,还可以是集群环境,我们采用的是Hadoop-2.6.0版的集群环境。

下面介绍Hive的安装模式,Hive有3种安装模式,分别是嵌入模式、本地模式、远程模式。

(1)嵌入模式安装

在这种模式下,Hive的元数据信息被存储在Hive自带的Derby数据库中。Hive的嵌入模式有很大的局限,在同一时间,Hive只允许创建一个连接,这意味着,这个时候只能有一个人可以操作Hive,这种模式一般只适用于做演示使用。

(2)本地模式安装

实际上本地模式和嵌入模式很相似,这个时候Hive的元数据存储在本地另外的数据库当中,通常我们使用MySQL作为Hive的元数据数据库。在这种模式下,允许多个用户同时连接,这种模式一般用在我们的开发和测试中。

(3)远程模式安装

一般生产环境采用的都是远程模式,在远程模式下,Hive和元数据数据库MySQL(一般是MySQL,本书中同样采用的是MySQL,如果不做特殊的说明,本章所有的元数据数据库都指的是MySQL数据库)运行在不同的机器上,且操作系统也可能不一样。在这种模式下,Hive允许多用户同时连接。

下面分别介绍Hive的3种模式下的安装步骤。

安装环境说明:

●操作系统:Ubuntu14.04 LTS。

●软件版本:apache-hive-1.2.1-bin.tar.gz。

●Hadoop:hadoop-2.6.0集群模式。

1.Hive的嵌入模式安装步骤

1)解压安装包,并且将安装包复制到指定的目录,假设为:/opt/software。

tar-zxvf apache-hive-1.2.1-bin.tar.gz-C/opt/software

解压后进入到该目录中,可以看到下列子目录:

bin examples lib NOTICE RELEASE_NOTES.txt

conf hcatalog LICENSE README.txt scripts

简单介绍一下Hive的目录结构。

●bin目录:存放的是一些可执行文件,比如Hive常用的一些指令等。

●conf目录:存放的是Hive的配置文件,比如Hive的元数据存储信息等的配置,都在这个文件目录中。

●examples目录:存放Hive官方提供的一些案例程序。

●lib目录:存放Hive的一些JAR包,通过这些JAR包,我们就可以调用Hive的指令来执行操作了。

2)将Hive安装目录下的lib目录中的jline-2.12.jar文件复制到Hadoop安装目录下的share/hadoop/yarn/lib目录中,否则在启动Hive的时候会报错。

cp jline-2.12.jar/opt/software/hadoop-2.6.0/share/hadoop/yarn/lib

3)到Hive安装目录下的bin目录中,执行./hive命令启动Hive,在启动Hive的同时,Hive会自动创建一个Derby数据库作为元数据存储介质,至此,Hive的嵌入模式安装完成。如果见到下面的提示,说明Hive已经安装成功了。

接下来可以试试Hive是否能够正常使用。如下所示,使用SHOW DATABASES查询数据库。

hive>SHOW DATABASES;

OK

Default

Time taken:1.58 seconds,Fetched:1 row(s)

hive>

现在也可以输入其他的命令,就像操作数据库一样,可以创建表、插入数据、删除数据等。

2.Hive的本地模式和远程模式安装

由于Hive的本地模式和远程模式非常相似,所以这里就介绍Hive的远程模式安装。远程模式安装意味着Hive的元数据存储在远程机器上,远程机器可以是Linux系统,也可以是Windows系统。这个根据实际生产环境所决定。

在本章中,我们使用MySQL作为Hive的元数据数据库,远程机器操作系统是Ubun-tu14.04LTS版。关于MySQL的安装,可以参考本章的第1.3.2小节

下面将分为两个阶段进行安装工作。

第一阶段:进行与MySQL相关的准备工作。

1)在进行Hive的远程模式安装之前,先登录MySQL查看已有的数据库的信息。

结果显示,登录MySQL数据库查询到已有四个数据库,分别为:information_schema、hive、mysql、performance_schema。(www.xing528.com)

2)创建元数据信息库。

在上面列表中,如果发现名称为Hive的数据库不存在,那么可以手动新建一个名为hive的数据库,用来存储Hive数据仓库中的元数据信息(当然也可以不手动创建它,因为Hive的相应配置可以支持自动创建元数据信息库)。

下面先手工新建一个名称为hive的数据库:

mysql>CREATE DATABASE hive;

Query OK,1 row affected(0.00 sec)

这个时候我们已经成功地创建了数据库,目前里面暂时是空的。

mysql>USE hive;

Database changed

mysql>SHOW TABLES;

Empty set(0.00 sec)

3)MySQL驱动程序准备。

因为我们使用MySQL作为元数据数据库,所以还需要把MySQL的驱动放到Hive安装目录下的lib子目录中。MySQL驱动程序可以去官网上下载,我们选择的是mysql-connector-java-5.1.39-bin.jar这个文件包。检查该包是否存在于lib目录中:

如上所示,查询到mysql-connector-java-5.1.39-bin.jar已位于lib目录之下。

4)MySQL的访问账号配置。

因为我们是使用root账号来做演示的,所以需要让root账号可以被远程连接,同时删除所有的匿名用户。下面是具体的操作步骤:

当提示是否修改root密码时,由于已经设置好了,所以这里选择n。接下来会显示下面这个提示界面:

询问是否删除匿名用户,这里选择Y确认,之后的每一次询问都选择Y。

5)给root用户授权,使root用户可以被远程连接。

授权成功后更新权限。

mysql>FLUSH PRIVILEGES;

Query OK,0 rows affected(0.00 sec)

6)查看user表中的所有用户信息,结果如下所示,查询出了root、debian-sys-maint用户以及相应的主机名、地址

第二阶段:MySQL准备工作完毕,进入Hive远程模式安装环节。

1)首先,解压Hive的安装包到指定目录下。

tar-zxvf apache-hive-1.2.1-bin.tar.gz-C/opt/software

这样就将Hive的安装目录解压并复制到了/opt/software目录下了。然后,进入Hive安装目录下的conf目录。

2)查看Hive的conf目录。

进入conf目录后,我们可以看到6个默认的配置信息文件,是Hive配置文件的模板。分别为:日志配置文件(beeline-log4j.properties.template、hive-log4j.properties.template、hive-exec-log4j.properties.template),Hive缺省配置文件(hive-default.xml.template),Hive环境配置文件(hive-env.sh.template),以及项目依赖项配置文件(ivysettings.xml)。

3)配置hive-site.xml。

在Hive的conf目录下创建hive-site.xml(可以参考hive-default.xml.template文件创建,也可以自己手动新建一个hive-site.xml文件),命令如下。

vi hive-site.xml

然后在该文件中输入以下内容:

这样,就完成了hive-site.xml的配置。

4)验证Hive是否安装成功。

进入Hive的bin目录,启动Hive,命令如下:

./hive

执行完上面的指令后,如果在SHELL中看到如下提示,那么就表示已经安装成功了:

这个时候可以去MySQL中查看数据库列表,发现存在了一个名为hive的数据库:

然后可以查看该数据库中有哪些表。

从上面的信息中可以看到,Hive已经在MySQL中创建了用来存储元数据信息的相关表。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈