首页 理论教育 分布式SQL引擎——提升数据处理效率的利器

分布式SQL引擎——提升数据处理效率的利器

时间:2023-06-21 理论教育 版权反馈
【摘要】:Spark SQL也可以作为分布式查询引擎使用JDBC/ODBC或命令行界面。Spark SQL还支持直接运行SQL查询的接口,而不需要编写任何代码,以下为两个分布式SQL查询工具。但Spark SQL CLI不能与Thrift JDBC Server交互。在Spark目录下,执行命令“./bin/spark-sql”,即可运行Spark SQL CLI。

分布式SQL引擎——提升数据处理效率的利器

Spark SQL也可以作为分布式查询引擎使用JDBC/ODBC或命令行界面。Spark SQL还支持直接运行SQL查询的接口,而不需要编写任何代码,以下为两个分布式SQL查询工具。

1.运行Thrift JDBC Server

Thrift JDBC Server使用的是Hive 0.12的HiveServer2来实现的,能够使用Spark或者Hive 0.12版本的beeline脚本与JDBC Server进行交互。在Spark目录下,执行命令“./sbin/start-thriftserver.sh”,以运行JDBC Server,这样就构建了一个可以提供数据进行交互的服务器。

Thrift JDBC Server默认监听端口是10000。通过设置HIVE_SERVER2_THRIFT_PORT和HIVE_SERVER2_THRIFT_BIND_HOST环境变量的值,可以自定义主机名和端口号。运行命令“./sbin/start-thriftserver.sh-help”,可以获得所有参数的完整列表说明。设置好JDBC Server之后,就可以在beeline客户端上通过命令“./bin/beeline”测试Thrift JDBC Server了。测试过程中,需要使用命令“beeline>!connect jdbc:hive2://localhost:10000”,这样就能在beeline中连接到JDBC Server了。

连接上Beeline之后,会要求输入用户名和密码。在非安全模式下,密码为空,只需输入用户名。在安全模式下,请参考beeline文档的说明进行操作。(www.xing528.com)

只需要将hive-site.xml文件放在conf目录下,即可完成Hive的配置,也可以使用Hive中自带的beeline脚本。

2.运行Spark SQL CLI

Spark SQL CLI是一个便捷的工具,它以本地模式运行Hive Metastore服务,执行从命令行中输入的查询语句。但Spark SQL CLI不能与Thrift JDBC Server交互。在Spark目录下,执行命令“./bin/spark-sql”,即可运行Spark SQL CLI。只需要将hive-site.xml文件放在conf目录下,即可完成Hive的配置,也可以运行命令“./bin/spark-sql--help”,获得所有参数的完整列表说明。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈