2018-06-17发表2024-05-06更新技术学习

分布式平台搭建

搭建Hadoop

以下操作皆基于Ubuntu 16.04 32位环境 & Hadoop 2.7.3版本

单节点环境

首先安装相关的准备环境

$ sudo apt update
$ sudo apt install -y default-jdk
$ sudo apt install -y vim
$ sudo apt install -y openssh-server

配置JAVA_HOME
- 一般来说Ubuntu平台上通过default-jdk安装的java位置在/usr/lib/jvm/default-jdk目录
- 在/etc/profile中添加下边两行内容并保存退出
  1
  2
  export JAVA_HOME=/usr/lib/jvm/default-java
  export PATH=$PATH:$JAVA_HOME/bin

添加用户和用户组

1
2
3

$ sudo addgroup hadoop
$ sudo adduser --ingroup hadoop hduser
$ sudo usermod -a -G sudo hduser

配置 SSH
- 切换到hduser，并执行以下操作
  1
  2
  $ ssh-keygen -t rsa -P ""
  $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
- 之后尝试使用下边的命令连接本机，这个操作也会将本机加入到known hosts里
  1
  $ ssh localhost

安装Hadoop

下载hadoop-2.7.3.tar.gz，以下假定工作目录为/home/hduser

1
2
3

$ tar -zxvf hadoop-2.7.3.tar.gz
$ mv hadoop-2.7.3/ hadoop/
$ sudo chown -R hduser:hadoop hadoop

编辑bash配置

打开.bashrc，加入以下内容（也可以修改/etc/profile，但是使用.bashrc更加灵活）

1
2
3

export JAVA_HOME=/usr/lib/jvm/default-java
export HADOOP_HOME=/home/hduser/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

配置Hadoop（不同版本的hadoop的配置方案会有不同，配置之前记得要确定版本）

修改~/hadoop/etc/hadoop/hadoop-env.sh，在文件中添加下边的内容
1
export JAVA_HOME=/usr/lib/jvm/default-java
修改~/hadoop/etc/hadoop/yarn-env.sh，在文件中添加下边的内容
1
export JAVA_HOME=/usr/lib/jvm/default-java

修改~/hadoop/etc/hadoop/core-site.xml

执行以下命令

1
2
3

$ sudo mkdir -p /home/hduser/tmp
$ sudo chown hduser:hadoop /home/hduser/tmp
$ sudo chmod 750 /home/hduser/tmp

在core-site.xml添加以下内容（各个属性的内容可以按照实际情况修改）

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
    </property>
<property>
        <name>hadoop.tmp.dir</name>
        <value>file:/home/hduser/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>hadoop.proxyuser.hduser.hosts</name>
    <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.hduser.groups</name>
        <value>*</value>
    </property>
</configuration>

修改~/hadoop/etc/hadoop/hdfs-site.xml，添加以下内容（各个属性的内容可以按照实际情况修改）

执行以下命令

$ sudo mkdir -p /home/hduser/dfs/name
$ sudo chown hduser:hadoop /home/hduser/dfs/name
$ sudo chmod 750 /home/hduser/dfs/name
$ sudo mkdir -p /home/hduser/dfs/data
$ sudo chown hduser:hadoop /home/hduser/dfs/data
$ sudo chmod 750 /home/hduser/dfs/data

在hdfs-site.xml中添加以下内容

<configuration>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master:9001</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/hduser/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/hduser/dfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
</configuration>

修改~/hadoop/etc/hadoop/mapred-site.xml，添加以下内容（各个属性的内容可以按照实际情况修改）

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>master:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master:19888</value>
    </property>
</configuration>

修改~/hadoop/etc/hadoop/yarn-site.xml（各个属性的内容可以按照实际情况修改）

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value> master:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value> master:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value> master:8031</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value> master:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value> master:8088</value>
    </property>
</configuration>

格式化Namenode
- 进入~/hadoop/bin目录下，执行以下操作
  1
  $ ./hdfs namenode –format
启动hadoop
- 在~/hadoop/sbin执行以下命令
  1
  2
  $ ./start-dfs.sh
  $ ./start-yarn.sh
- 之后通过jps命令可以看到以下结果，说明启动成功
  1
  2
  3
  4
  13058 Jps
  13026 NodeManager
  12916 ResourceManager
  12169 DataNode

集群环境

此处默认master和slave已经按照单机节点配置完成

设置网络
- 我的例子是一台master一台slave，分别确定两者的ip，然后在两台机器的/etc/hosts中写入以下内容
  1
  2
  192.168.0.1 master
  192.168.0.2 slave
配置ssh免密登录
- 在master上执行以下命令
  1
  $ ssh-copy-id -i ~/.ssh/id_rsa.pub hduser@slave
- 在slave上执行以下命令
  1
  $ ssh-copy-id -i ~/.ssh/id_rsa.pub hduser@master
- 之后两方互相登录测试一下是否可以免密登录
配置~/hadoop/etc/hadoop/slaves
- 在master机器的slaves文件中添加以下内容
  1
  2
  master
  slave
格式化Namenode
- 进入master的~/hadoop/bin目录下，执行以下操作
  1
  $ ./hdfs namenode –format

启动hadoop

在master的~/hadoop/sbin执行以下命令
1
2
$ ./start-dfs.sh
$ ./start-yarn.sh

之后通过jps命令可以看到以下结果，说明启动成功

master中

4048	Jps
3899	ResourceManager
4013	NodeManager
3726	SecondaryNameNode
3423	NameNode
3535	DataNode

slave中

1
2
3

2754	DataNode
3012	Jps
2903	NodeManager

搭建Spark

Spark平台

下载Spark
- 在这里下载和hadoop版本对应的spark，假定工作目录为/home/hduser
- 进行如下操作解压压缩包（每个节点都要进行）
  1
  $ tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz
配置~/.bashrc文件
- 在.bashrc文件中添加以下内容（每个节点都要添加）
  1
  2
  export SPARK_HOME=/home/hduser/spark
  export PATH=$PATH:$SPARK_HOME/bin
配置~/spark/conf/slaves文件
- 在两个节点的salves文件中添加以下内容
  1
  2
  master
  slave
启动Spark
- 在master的~/spark/sbin中执行以下命令
  1
  ./start-all.sh
- 在master中执行jps，发现以下结果说明spark运行成功
  1
  2
  3
  4
  5
  6
  5257 Worker
  5177 Master
  3726 SecondaryNameNode
  5326 Jps
  3432 NameNode
  3535 DataNode
- 在slave中执行jsp，发现一下结果说明spark运行成功
  1
  2
  3
  2754 DataNode
  3717 Worker
  3771 Jps

配置Scala

下载Scala
- 在这里相应版本的scala压缩包，假定工作目录为/home/hduser
- 进行如下操作解压压缩包（只需要在master进行）
  1
  $ tar -zxvf scala-2.12.6.tgz
配置~/.bashrc文件
- 在.bashrc文件中添加以下内容（只需要在master在master上执行以下命令）
  1
  2
  export SCALA_HOME=/home/hduser/scala
  export PATH=$PATH:$SCALA_HOME/bin

配置 Eclipse

安装Eclipse
- 在master上执行以下命令
  1
  $ sudo apt install eclipse-platform
安装Eclipse插件