如何正确安装SparkSQL？

时间：2023-07-02 理论教育版权反馈

【摘要】：要使用Spark SQL，必须要安装Spark。Spark有两种运行模式，一种是Spark on Yarn，另一种是Standalone模式。配置系统环境变量输入vim命令，编辑系统的环境变量文件～/.bashrc：Shell：vim～/.bashrc在环境变量中加入以下配置项：●设置Spark的环境变量SPARK_HOME。启动Spark集群Spark已经安装完成，输入start-all.sh命令启动Spark集群：cd$SPARK_HOME/sbin./start-all.shSpark集群启动验证输入jps命令，Master主机上会显示master进程。说明已经成功安装好了Spark。

如何正确安装SparkSQL？

要使用Spark SQL，必须要安装Spark。Spark有两种运行模式，一种是Spark on Yarn，另一种是Standalone模式。本章将带领大家完成Spark的Standalone模式的安装。

Spark目前的运行环境只能是Linux，本书中的运行环境如下：

●Linux使用的是Ubuntu14.04 LTS。

●Spark为1.6.3版本。

●Hadoop是2.6.0版本。

简要说一下Spark的安装步骤，首先需要一个Linux环境，同时已经安装了Hadoop，然后去Spark官网（http：//spark.apache.org/）下载Spark安装包，将它解压并进行配置。

注意，本章中所有安装配置都是最小化运行配置。

1.Spark软件包解压

tar-zxvf spark-1.6.3-bin-hadoop2.6.gz

解压完成后查看Spark下的子目录：

hadoop@hadoop：/opt/software/spark-1.6.3-bin-hadoop2.6$ls

bin conf ec2 lib licenses pythonREADME.mdsbin

CHANGES.txt data examples LICENSE NOTICE R RELEASE

上面的内容就是Spark下的子目录，其中bin和sbin目录中存放Spark的基本命令，例如启动集群、启动spark-sql等，conf目录存放Spark的配置文件。

2.Spark的配置

（1）配置spark-env.sh配置文件

进入Spark的配置目录：

cd spark-1.6.3-bin-hadoop2.6/conf

输入vim命令，编辑spark-env.sh文件：

vim spark-env.sh

在spark-env.sh配置文件中加入以下配置项，设置JAVA、SCALA、HADOOP、HA-DOOP_CONF的环境变量：

SPARK_MASTER_IP设置Master结点地址、SPARK_WORKER_MEMORY设置Worker结点内存大小、SPARK_EXCUTOR_MEMORY设置EXCUTOR的内存大小、SPARK_DRIVER_MEMORY设置DRIVER的内存大小、SPARK_WORK_CORES设置Worker的内核数。

（2）配置系统环境变量

输入vim命令，编辑系统的环境变量文件～/.bashrc：

Shell：vim～/.bashrc

在环境变量中加入以下配置项：

●设置Spark的环境变量SPARK_HOME。

●设置PATH环境变量，将SPARK的bin，sbin目录加入PATH中。(www.xing528.com)

（3）环境变量生效

在命令行输入source～/.bashrc，使修改的～/.bashrc配置文件生效。

source～/.bashrc

（4）配置spark-default.conf文件

输入mv命令，将spark-default.conf.template模板更名为spark-default.conf文件名。

输入vim命令，编辑spark-default.conf配置文件。

mv spark-default.conf.template spark-default.conf

vim spark-default.conf

在spark-default.conf配置文件中加入以下配置项：

●spark.excutor.extraJavaOptions，配置Excutor的JVM选项，输出GC的详细日志；-Dkey=value方式指定系统属性：例如Dnumbers的值可以设置为＂one two three＂。

●spark.eventLog.enabled设置为true：启动事件日志，记录Spark事件日志。

●spark.event-Log.dir，配置事件日志的目录。

●spark.yarn.historyServer.address，设置historyServer的地址及端口。

●spark.history.fs.logDirectory，设置历史应用程序的日志目录URL。

（5）配置slaves文件

在slaves配置文件中加入worker结点的hostname主机名：

●使用Vim编辑slaves配置文件。

●slaves文件的每一行配置为worker结点的主机名，每行配置一个结点。

（6）启动Spark集群

Spark已经安装完成，输入start-all.sh命令启动Spark集群：

cd$SPARK_HOME/sbin

./start-all.sh

（7）Spark集群启动验证

输入jps命令，Master主机上会显示master进程。

输入jps命令，在worker结点上会显示worker进程。

说明已经成功安装好了Spark。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

研究成果

注意事项

解决方案

计算方法

发展趋势

中国古代

社会主义

心理健康

控制系统

建筑工程

经济发展

传统文化

民事诉讼

中国传统

程序设计

轨道交通

解决方法

工程施工

研究结果

建设工程

文史资料

持续发展

计算机网

使用方法

如何正确安装SparkSQL？

相关推荐

如何正确安装SparkSQL？

有关Spark SQL大数据实例开发教程的文章

相关推荐