前言
YARN 是在Hadoop 2.0 中引入的集群管理器,它可以让多种数据处理框架运行在一个共享的资源池上,并且通常安装在与Hadoop 文件系统(简称HDFS)相同的物理节点上。在这样配置的YARN 集群上运行Spark 是很有意义的,它可以让Spark 在存储数据的物理节点上运行,以快速访问HDFS 中的数据。
1、配置
1.1 配置HADOOP_CONF_DIR
1 | vim /etc/profile |
1 | export HADOOP_CONF_DIR=/opt/hadoop-2.7.5/etc/hadoop |
1 | source /etc/profile |