安装 Hadoop 集群

官方文档: http://hadoop.apache.org/docs/stable/
Server 1: 192.168.56.200 (NameNode + DataNode)
Server 2: 192.168.56.201 (DataNode)

  1)安装JDK
    ~#tar xzf jdk-8u112-linux-x64.tar.gz
    ~#mv jdk1.8.0_112/ /srv/
    ~#echo "JAVA_HOME=/srv/jdk1.8.0_112" >> /etc/environment
    ~#vim /etc/profile #在 export PATH 之前添加下行
      pathmunge $JAVA_HOME/bin
    ~#reboot
    ~#java -version
  2)修改主机名
    ~#vim /etc/hosts #添加以下两行
      192.168.56.200 node200
      192.168.56.201 node201
    ~#hostnamectl set-hostname node200
  3)创建 hadoop 存储目录
    ~#mkdir /data/dfs/name #NameNode使用的目录
    ~#mkdir /data/dfs/data #DataNode使用的目录
  4)安装 Hadoop 集群
    ~#tar xzf hadoop-2.7.3.tar.gz
    ~#mv hadoop-2.7.3 /srv/
    ~#cd /srv/hadoop-2.7.3/etc/hadoop/
    ~#vim core-site.xml #修改为如下配置
      <configuration>
        <property>
          <name>fs.defaultFS</name>
          <value>hdfs://node200:9000</value>
        </property>
      </configuration>
    ~#vim hdfs-site.xml #修改为如下配置
      <configuration>
        <property>
           <name>dfs.replication</name>
           <value>1</value>
        </property>
        <property>
          <name>dfs.namenode.name.dir</name>
          <value>/data/dfs/name</value>
        </property>
        <property>
          <name>dfs.datanode.data.dir</name>
          <value>/data/dfs/data</value>
        </property>
      </configuration>
    ~#vim slaves #修改为如下配置(每行一个data节点的主机名)
      node200
      node201
  5)在 201 机器上重复以上1、2、3三个步骤(以下一处不同的地方)
    hostnamectl set-hostname node201
  6)从 node200 复制 Hadoop 到 node201 ,无需修改任何配置
    ~#scp -r /srv/spark-2.0.2-bin-hadoop2.7 root@node201:/srv/
  7)分别在每个节点设置环境变量
    ~#echo "HADOOP_PREFIX=/srv/hadoop-2.7.3" >> /etc/environment
    ~#reboot
  8)格式化 NameNode 存储目录
    ~#/srv/hadoop-2.7.3/bin/hdfs namenode -format
  9)启动 Hadoop 集群,NameNode 和 DataNode 节点均使用 NameNode 节点(node200)的脚本启动
    配置SSH免密登录(node200->node200, node200->node201)
    ~#ssh-keygen
    ~#ssh-copy-id root@node200
    ~#ssh-copy-id root@node201
    启动 NameNode、DataNode
    ~#/srv/hadoop-2.7.3/sbin/start-dfs.sh #试验环境使用 Spark 进行计算,此处仅启动 hdfs 服务
    使用浏览器访问 http://192.168.56.200:50070/ #查看 Hadoop 集群状态

发表评论

电子邮件地址不会被公开。 必填项已用*标注