在前面3篇文章中,完成了基础环境的安装以及Hadoop的安装配置基础以及scala、spark的安装配置。本文将介绍SparkR和Zeppelin的安装配置。
3.10 R安装
安装R的原因是Spark安装后直接启动SparkR会报错,且在zeppelin中支持sparkR接口,为了在zeppelin中使用R,故提前安装。
需要在3台服务器上都安装 R。首先通过sftp将下载下来的 R源码 包上传到Master,
将R压缩包 R-3.2.1.tar.gz 移动到/usr/local/program/目录下,并解压缩。
3.10.1安装依赖
yum
install
gcc
yum
install
gcc-c++
yum
install
gcc-gfortran
yum
install
pcre-devel
yum
install
tcl-devel
yum
install
zlib-devel
yum
install
bzip2
-devel
yum
install
libX11-devel
yum
install
readline-devel
#否则报”–with-readline=yes (default) and headers/libs are not available”错误
yum
install
libXt-devel
#否则报”configure: error: –with-x=yes (default) and X11 headers/libs are not available”错误
yum
install
tk-devel
yum
install
tetex-latex
yum -y install libcurl libcurl-devel
3.10.2 编译
进入/usr/local/program/R-3.2.1/ 目录下,执行
./configure
make && make install
进行编译
3.10.3 安装rJava
安装R成功后输入 R 进入r界面执行
install.packages("rJava")
3.10.4 启动sparkR
cd /usr/local/program/spark-1.6.0-bin-hadoop2.6/bin
执行启动sparkR
./sparkR
见到如下界面即安装成功。
另外想要在zeppelin中执行R,还需要在sparkr shell中执行
install.packages('knitr', dependencies = TRUE)
3.11 PostgreSQL【此部分由其它同事负责,写的可能不够详细】
在3台机器上任意一台安装即可,下载PostgreSQL源码,然后解压缩,进入configure,执行make && make install 完成。
3.12 zeppelin
zeppelin因本身是个比较新的软件,官方文档不严谨及应用范围不是很广,直接导致了安装过程中踩过很多坑,
因对zeppelin的源码包编译时各种报错,改成了二进制包安装。 在3台机器上任意一台安装即可
3.12.1 首先在官网上下载了zeppelin0.6.2版本的二进制包,通过sftp上传到slave02上并在/usr/local/program/下解压缩,
cd /usr/local/program/zeppelin-0.6.2-bin-all/conf
cp zeppelin-env.sh.template zeppelin-env.sh
cp zeppelin-site.xml.template zeppelin-site.xml
vi zeppelin-env.sh
export JAVA_HOME=/usr/local/program/jdk1.7.0_80/
export SPARK_HOME=/usr/local/program/spark-1.6.0-bin-hadoop2.6
export HADOOP_CONF_DIR=/usr/local/program/hadoop-2.6.3/etc/hadoop
export HADOOP_HOME=/usr/local/program/hadoop-2.6.3
export MASTER=yarn-client
export ZEPPELIN_JAVA_OPTS="-Dmaster=yarn-client -Dspark.yarn.jar=/usr/local/program/zeppelin-0.6.2-bin-all/interpreter/spark/zeppelin-spark_2.11-0.6.2.jar"
export ZEPPELIN_LOG_DIR=/var/log/zeppelin
export ZEPPELIN_PID_DIR=/var/run/zeppelin
export ZEPPELIN_WAR_TEMPDIR=/var/tmp/zeppelin
创建对应目录
mkdir /var/log/zeppelin
mkdir /var/run/zeppelin
mkdir /var/tmp/zeppelin
vi zeppelin-site.xml 并修改zeppelin.server.addr及端口号
<property>
<name>zeppelin.server.addr</name>
<value>192.168.50.229</value>
<description>Server address</description>
</property>
<property>
<name>zeppelin.server.port</name>
<value>9090</value>
<description>Server port.</description>
</property>
3.12.1 启动zeppelin及配置
cd /usr/local/program/zeppelin-0.6.2-bin-all/bin/
./zeppelin-daemon.sh start
打开页面验证是否成功
http://192.168.50.229:9090/#/
并配置接口相关参数,配置完成后通过右上角restart 按钮生效。
3.12.2测试zeppelin使用
1、postgresql
2、R
3、scala
总结文档写的比较仓促,如果有问题还可以留言讨论。
参考:
http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503864.html
http://blog.sina.com.cn/s/blog_4077692e0100qjkp.html
http://blog.csdn.net/yizheyouye/article/details/50492989
http://blog.csdn.net/xubo245/article/details/51195287
http://www.aboutyun.com/thread-14545-1-1.html
http://www.bihell.com/2016/08/31/Zeppelin-Setup/