Hadoop-HDFS HA集群搭建（zookeeper）

HA集群概念

流程：
基础设施
ssh免密：
1）启动start-dfs.sh脚本的机器需要将公钥分发给别的节点
2）在HA模式下，每一个NN身边会启动ZKFC，
ZKFC会用免密的方式控制自己和其他NN节点的NN状态
应用搭建
HA 依赖 ZK 搭建ZK集群
修改hadoop的配置文件，并集群同步
初始化启动
1）先启动JN hadoop-daemon.sh start journalnode
2）选择一个NN 做格式化：hdfs namenode -format <只有第一次搭建做，以后不用做>
3)启动这个格式化的NN ，以备另外一台同步 hadoop-daemon.sh start namenode
4)在另外一台机器中： hdfs namenode -bootstrapStandby
5)格式化zk： hdfs zkfc -formatZK <只有第一次搭建做，以后不用做>
6) start-dfs.sh

搭建步骤

ssh免密

（谁写入了我的公钥，我就可以免密登录谁）
吧node02公钥添加给自己，添加给node01
node02:

	cd ~/.ssh
	ssh-keygen -t dsa -P '' -f ./id_dsa
	cat id_dsa.pub >> authorized_keys
	scp ./id_dsa.pub  node01:`pwd`/node02.pub

node01:

cd ~/.ssh
cat node02.pub >> authorized_keys

zookeeper 集群搭建部署2,3,4

node02:

解压zookeep

tar xf zook....tar.gz

吧zookeep放在/opt目录下

mv zoo...    /opt/bigdata

进入zookeep的conf目录

cd /opt/bigdata/zoo..../conf

吧修改zoo_sample.cfg变为正确的配置文件

cp zoo_sample.cfg  zoo.cfg

编辑zoo.cfg,把数据存储路径放在稳定的目录下

vi zoo.cfg

				datadir=/var/bigdata/hadoop/zk
				server.1=node02:2888:3888
				server.2=node03:2888:3888
				server.3=node04:2888:3888

需要在Hadoop目录下新建zk/myid文件，写入权重1
mkdir /var/bigdata/hadoop/zk

echo 1 >  /var/bigdata/hadoop/zk/myid

编辑环境变量
vi /etc/profile

export ZOOKEEPER_HOME=/opt/bigdata/zookeeper-3.4.6
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZOOKEEPER_HOME/bin

刷新环境变量

source /etc/profile

cd /opt/bigdata
scp -r ./zookeeper-3.4.6  node03:`pwd`
scp -r ./zookeeper-3.4.6  node04:`pwd`

node03:

mkdir /var/bigdata/hadoop/zk
			echo 2 >  /var/bigdata/hadoop/zk/myid
			*环境变量
			source /etc/profile
		node04:
			mkdir /var/bigdata/hadoop/zk
			echo 3 >  /var/bigdata/hadoop/zk/myid
			*环境变量
			 source /etc/profile

node02~node04:

zkServer.sh start

1 zookeeper启动：
zkServer.sh start

2 查看状态：
zkServer.sh status

3 停止：
zkServer.sh stop

node01

core-site.xml

<property>
	  <name>fs.defaultFS</name>
	  <value>hdfs://mycluster</value>
	</property>

	 <property>
	   <name>ha.zookeeper.quorum</name>
	   <value>node02:2181,node03:2181,node04:2181</value>
	 </property>

hdfs-site.xml

#以下是  一对多，逻辑到物理节点的映射
		<property>
		  <name>dfs.nameservices</name>
		  <value>mycluster</value>
		</property>
		<property>
		  <name>dfs.ha.namenodes.mycluster</name>
		  <value>nn1,nn2</value>
		</property>
		<property>
		  <name>dfs.namenode.rpc-address.mycluster.nn1</name>
		  <value>node01:8020</value>
		</property>
		<property>
		  <name>dfs.namenode.rpc-address.mycluster.nn2</name>
		  <value>node02:8020</value>
		</property>
		<property>
		  <name>dfs.namenode.http-address.mycluster.nn1</name>
		  <value>node01:50070</value>
		</property>
		<property>
		  <name>dfs.namenode.http-address.mycluster.nn2</name>
		  <value>node02:50070</value>
		</property>

		#以下是JN在哪里启动，数据存那个磁盘
		<property>
		  <name>dfs.namenode.shared.edits.dir</name>
		  <value>qjournal://node01:8485;node02:8485;node03:8485/mycluster</value>
		</property>
		<property>
		  <name>dfs.journalnode.edits.dir</name>
		  <value>/var/bigdata/hadoop/ha/dfs/jn</value>
		</property>
		
		#HA角色切换的代理类和实现方法，我们用的ssh免密
		<property>
		  <name>dfs.client.failover.proxy.provider.mycluster</name>
		  <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
		</property>
		<property>
		  <name>dfs.ha.fencing.methods</name>
		  <value>sshfence</value>
		</property>
		<property>
		  <name>dfs.ha.fencing.ssh.private-key-files</name>
		  <value>/root/.ssh/id_dsa</value>
		</property>
		
		#开启自动化： 启动zkfc
		 <property>
		   <name>dfs.ha.automatic-failover.enabled</name>
		   <value>true</value>
		 </property>

分发

给每一台都分发

初始化：

	1）先启动JN   hadoop-daemon.sh start journalnode 
	2）选择一个NN 做格式化：hdfs namenode -format   <只有第一次搭建做，以后不用做>
	3)启动这个格式化的NN ，以备另外一台同步  hadoop-daemon.sh start namenode 
	4)在另外一台机器中： hdfs namenode -bootstrapStandby
	5)格式化zk：   hdfs zkfc  -formatZK     <只有第一次搭建做，以后不用做>
	6) start-dfs.sh

使用验证：
1）去看jn的日志和目录变化：
2）node04
zkCli.sh
ls /
启动之后可以看到锁：
get /hadoop-ha/mycluster/ActiveStandbyElectorLock
3）杀死namenode 杀死zkfc
kill -9 xxx
a)杀死active NN
b)杀死active NN身边的zkfc
c)shutdown activeNN 主机的网卡： ifconfig eth0 down
2节点一直阻塞降级
如果恢复1上的网卡 ifconfig eth0 up
最终 2编程active