zeppelin安装以及执行spark-sql

本文介绍了zeppelin在spark环境下的安装,并以图文的方式介绍如何执行spark代码

前言

zeppelin是一个web版的ide,支持直接执行代码,数据可视化,兼容多种数据组件。本文基于centos7,JDK8环境安装zeppelin,版本为0.8.2,并且以执行spark代码作为目标

下载编译后的zeppelin包

zeppelin官网下载地址
这里可以选择 all interpreters,Interpreters是zeppelin中类似插件的意思,比如spark,flink,hbase等都属于插件,这里选择all interpreters的意思是把zeppelin支持的所有插件都一次性下载下来,当前整个压缩包会比较大,1GB左右

配置坏境

解压后,在conf目录下,修改配置文件,有两个配置是最重要的

1
2
mv zeppelin-env.sh.template zeppelin-env.sh
mv zeppelin-site.xml.template zeppelin-site.xml

改完名后,先配置zeppelin-env.sh,由于目的是spark,需要配置的环境如下

1
2
3
4
5
6
JAVA_HOME
SPARK_HOME
SPARK_APP_NAME
# 把hive的配置路径写在ZEPPELIN_INTP_CLASSPATH_OVERRIDES
ZEPPELIN_INTP_CLASSPATH_OVERRIDES
HADOOP_CONF_DIR

启动

1
2
./bin/zeppelin-daemon.sh start
./bin/zeppelin-daemon.sh stop

操作界面

默认端口是8080,可以在zeppelin-env.sh改

  1. 创建新节点
    创建新节点
    选择spark作为interpreter

  2. 进入节点,写spark sql代码
    写spark sql代码
    如果进入节点后的页面很乱,可以都点各个tab右上角的设置,remove掉。
    代码写好后,点运行即可

  3. 修改spark配置
    修改spark配置
    找到spark相关配置,自定义修改,和spark原生的配置一样,改完后保存,并且停止当前正在执行的spark任务

  4. 小技巧
    小技巧
    Zeppelin也支持纯sql的形式,参考上图,限制是执行流程必须自上而下,不然会找不到表

  5. 账号限制
    zeppelin默认是允许所有人登陆使用,也就是anonymous账户,如果需要进行账号管理,需要修改zeppelin的配置,两个步骤

  • 禁止anonymous用户登陆

    1
    2
    3
    4
    5
    <property>
    <name>zeppelin.anonymous.allowed</name>
    <value>false</value>
    <description>Anonymous user allowed by default</description>
    </property>
  • 开启shiro安全认证
    在conf目录下将mv shiro.ini.template shiro.ini,zeppelin默认给了3个user账号,我们可以把admin的账号打开

    1
    2
    3
    4
    admin = password1, admin
    user1 = password2, role1, role2
    user2 = password3, role3
    user3 = password4, role2

修改完成后重启zeppelin,就可以登陆了

总结

Zeppelin整个安装流程比较简单,如果有其他个性化配置或者依赖需求,可以参考官网文档
zeppelin对spark插件的介绍

ulysses wechat
订阅+