分布式平台搭建

搭建Hadoop

以下操作皆基于Ubuntu 16.04 32位环境 & Hadoop 2.7.3版本

单节点环境

  • 首先安装相关的准备环境

    1
    2
    3
    4
    $ sudo apt update
    $ sudo apt install -y default-jdk
    $ sudo apt install -y vim
    $ sudo apt install -y openssh-server
  • 配置JAVA_HOME

    • 一般来说Ubuntu平台上通过default-jdk安装的java位置在/usr/lib/jvm/default-jdk目录
    • /etc/profile中添加下边两行内容并保存退出
      1
      2
      export JAVA_HOME=/usr/lib/jvm/default-java
      export PATH=$PATH:$JAVA_HOME/bin
  • 添加用户和用户组

    1
    2
    3
    $ sudo addgroup hadoop
    $ sudo adduser --ingroup hadoop hduser
    $ sudo usermod -a -G sudo hduser
  • 配置 SSH

    • 切换到hduser,并执行以下操作

      1
      2
      $ ssh-keygen -t rsa -P ""
      $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
    • 之后尝试使用下边的命令连接本机,这个操作也会将本机加入到known hosts里

      1
      $ ssh localhost
  • 安装Hadoop

    • 下载hadoop-2.7.3.tar.gz,以下假定工作目录为/home/hduser

      1
      2
      3
      $ tar -zxvf hadoop-2.7.3.tar.gz
      $ mv hadoop-2.7.3/ hadoop/
      $ sudo chown -R hduser:hadoop hadoop
  • 编辑bash配置

    • 打开.bashrc,加入以下内容(也可以修改/etc/profile,但是使用.bashrc更加灵活)

      1
      2
      3
      export JAVA_HOME=/usr/lib/jvm/default-java
      export HADOOP_HOME=/home/hduser/hadoop
      export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
  • 配置Hadoop(不同版本的hadoop的配置方案会有不同,配置之前记得要确定版本)

    • 修改~/hadoop/etc/hadoop/hadoop-env.sh,在文件中添加下边的内容

      1
      export JAVA_HOME=/usr/lib/jvm/default-java
    • 修改~/hadoop/etc/hadoop/yarn-env.sh,在文件中添加下边的内容

      1
      export JAVA_HOME=/usr/lib/jvm/default-java
    • 修改~/hadoop/etc/hadoop/core-site.xml

      • 执行以下命令

        1
        2
        3
        $ sudo mkdir -p /home/hduser/tmp
        $ sudo chown hduser:hadoop /home/hduser/tmp
        $ sudo chmod 750 /home/hduser/tmp
      • 在core-site.xml添加以下内容(各个属性的内容可以按照实际情况修改)

        1
        2
        3
        4
        5
        6
        7
        8
        9
        10
        11
        12
        13
        14
        15
        16
        17
        18
        19
        20
        21
        22
        23
        <configuration>
        <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
        </property>
        <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
        </property>
        <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/home/hduser/tmp</value>
        <description>Abase for other temporary directories.</description>
        </property>
        <property>
        <name>hadoop.proxyuser.hduser.hosts</name>
        <value>*</value>
        </property>
        <property>
        <name>hadoop.proxyuser.hduser.groups</name>
        <value>*</value>
        </property>
        </configuration>
    • 修改~/hadoop/etc/hadoop/hdfs-site.xml,添加以下内容(各个属性的内容可以按照实际情况修改)

      • 执行以下命令

        1
        2
        3
        4
        5
        6
        $ sudo mkdir -p /home/hduser/dfs/name
        $ sudo chown hduser:hadoop /home/hduser/dfs/name
        $ sudo chmod 750 /home/hduser/dfs/name
        $ sudo mkdir -p /home/hduser/dfs/data
        $ sudo chown hduser:hadoop /home/hduser/dfs/data
        $ sudo chmod 750 /home/hduser/dfs/data
      • 在hdfs-site.xml中添加以下内容

        1
        2
        3
        4
        5
        6
        7
        8
        9
        10
        11
        12
        13
        14
        15
        16
        17
        18
        19
        20
        21
        22
        <configuration>
        <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master:9001</value>
        </property>
        <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/hduser/dfs/name</value>
        </property>
        <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/hduser/dfs/data</value>
        </property>
        <property>
        <name>dfs.replication</name>
        <value>3</value>
        </property>
        <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
        </property>
        </configuration>
    • 修改~/hadoop/etc/hadoop/mapred-site.xml,添加以下内容(各个属性的内容可以按照实际情况修改)

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      <configuration>
      <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
      </property>
      <property>
      <name>mapreduce.jobhistory.address</name>
      <value>master:10020</value>
      </property>
      <property>
      <name>mapreduce.jobhistory.webapp.address</name>
      <value>master:19888</value>
      </property>
      </configuration>
    • 修改~/hadoop/etc/hadoop/yarn-site.xml(各个属性的内容可以按照实际情况修改)

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      22
      23
      24
      25
      26
      27
      28
      29
      30
      <configuration>
      <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
      </property>
      <property>
      <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
      <value>org.apache.hadoop.mapred.ShuffleHandler</value>
      </property>
      <property>
      <name>yarn.resourcemanager.address</name>
      <value> master:8032</value>
      </property>
      <property>
      <name>yarn.resourcemanager.scheduler.address</name>
      <value> master:8030</value>
      </property>
      <property>
      <name>yarn.resourcemanager.resource-tracker.address</name>
      <value> master:8031</value>
      </property>
      <property>
      <name>yarn.resourcemanager.admin.address</name>
      <value> master:8033</value>
      </property>
      <property>
      <name>yarn.resourcemanager.webapp.address</name>
      <value> master:8088</value>
      </property>
      </configuration>
  • 格式化Namenode

    • 进入~/hadoop/bin目录下,执行以下操作

      1
      $ ./hdfs namenode –format
  • 启动hadoop

    • ~/hadoop/sbin执行以下命令

      1
      2
      $ ./start-dfs.sh
      $ ./start-yarn.sh
    • 之后通过jps命令可以看到以下结果,说明启动成功

      1
      2
      3
      4
      13058	Jps
      13026 NodeManager
      12916 ResourceManager
      12169 DataNode

集群环境

此处默认master和slave已经按照单机节点配置完成

  • 设置网络

    • 我的例子是一台master一台slave,分别确定两者的ip,然后在两台机器的/etc/hosts中写入以下内容

      1
      2
      192.168.0.1    master
      192.168.0.2 slave
  • 配置ssh免密登录

    • 在master上执行以下命令

      1
      $ ssh-copy-id -i ~/.ssh/id_rsa.pub hduser@slave
    • 在slave上执行以下命令

      1
      $ ssh-copy-id -i ~/.ssh/id_rsa.pub hduser@master
    • 之后两方互相登录测试一下是否可以免密登录

  • 配置~/hadoop/etc/hadoop/slaves

    • 在master机器的slaves文件中添加以下内容

      1
      2
      master
      slave
  • 格式化Namenode

    • 进入master的~/hadoop/bin目录下,执行以下操作

      1
      $ ./hdfs namenode –format
  • 启动hadoop

    • 在master的~/hadoop/sbin执行以下命令

      1
      2
      $ ./start-dfs.sh
      $ ./start-yarn.sh
    • 之后通过jps命令可以看到以下结果,说明启动成功

      • master中

        1
        2
        3
        4
        5
        6
        4048	Jps
        3899 ResourceManager
        4013 NodeManager
        3726 SecondaryNameNode
        3423 NameNode
        3535 DataNode
      • slave中

        1
        2
        3
        2754	DataNode
        3012 Jps
        2903 NodeManager

搭建Spark

Spark平台

  • 下载Spark

    • 这里下载和hadoop版本对应的spark,假定工作目录为/home/hduser

    • 进行如下操作解压压缩包(每个节点都要进行)

      1
      $ tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz
  • 配置~/.bashrc文件

    • 在.bashrc文件中添加以下内容(每个节点都要添加)

      1
      2
      export SPARK_HOME=/home/hduser/spark
      export PATH=$PATH:$SPARK_HOME/bin
  • 配置~/spark/conf/slaves文件

    • 在两个节点的salves文件中添加以下内容

      1
      2
      master
      slave
  • 启动Spark

    • 在master的~/spark/sbin中执行以下命令

      1
      ./start-all.sh
    • 在master中执行jps,发现以下结果说明spark运行成功

      1
      2
      3
      4
      5
      6
      5257	Worker
      5177 Master
      3726 SecondaryNameNode
      5326 Jps
      3432 NameNode
      3535 DataNode
    • 在slave中执行jsp,发现一下结果说明spark运行成功

      1
      2
      3
      2754	DataNode
      3717 Worker
      3771 Jps

配置Scala

  • 下载Scala

    • 这里相应版本的scala压缩包,假定工作目录为/home/hduser

    • 进行如下操作解压压缩包(只需要在master进行)

      1
      $ tar -zxvf scala-2.12.6.tgz
  • 配置~/.bashrc文件

    • 在.bashrc文件中添加以下内容(只需要在master在master上执行以下命令)

      1
      2
      export SCALA_HOME=/home/hduser/scala
      export PATH=$PATH:$SCALA_HOME/bin

配置 Eclipse

  • 安装Eclipse

    • 在master上执行以下命令

      1
      $ sudo apt install eclipse-platform
  • 安装Eclipse插件

参考资料

  1. 在Ubuntu上搭建单节点Hadoop
  2. 在Ubuntu上搭建Hadoop集群