hadoop---HDFS核心概念以及HDFS Java Api的使用

HDFS概念和存储机制：

   概念: 分布式文件系统，主要是文件系统。
   存储机制：将文件切分称指定大小的数据块（默认128MB）并以多副本的方式存储在多台服务器上。 
           （默认3份）数据的切分，多副本，容错等操作对用户来说是透明的。用户操作对象还是文件。

hdfs存储概念图

   文件part-0被切分为2个数据块编号为1、3，而1、3分别有2个副本。
   文件part-1被且分为3个数据块编号为2、4、5。而3个数据块都有3个副本。
        
   replication factor：副本系数、副本因子
   All blocks in a file except the last block are the same size

HDFS架构：

        1 Master 带 N个slaves（HDFS/YARN/HBASE都是采用这种方式）
        一个文件会被拆分为多个Block：例如blocksize: 128M，则130M的文件会被拆分为两个Block：128M和2M
        namenode：Master
           职责描述: 
               1）对客户端去年供求的响应
               2）负责元数据（文本的名称，副本数、Block存放的DN）的管理
               3）对hdfs文件或者文件夹操作，比如打开，关闭，重命名等。
                 
        datanode：slaves
           职责描述：
               1）存储用户的文件对应的数据块（Block）
               2）要定期向NameNode发送心跳心跳信息，汇报借点本身及其所有的block信息，健康状况等。
               3）对block进行操作，比如对block创建，删除，以及副本的操作。

 A typical deployment has a dedicated machine that runs only the NameNode software. 
 Each of the other machines in the cluster runs one instance of the DataNode software.
 NameNode+N个DataNode

HDFS 文件读写流程：

 写文件流程：
     1、client发起请求，比如存储200M的文件（客户端根据配置文件，应该知道默认一个block的大小（一般为64M或者128M）和副本数（一般为3））。
     客户端首先将文件分为两个部分一个128M，另一个72M。
     client  divide block

    2、客户端请求发送到namenode，先存储第一个128M的文件，namenode接收到请求，。
 经过计算，namenode告诉客户端，可以存储在datanode1 ，datanode2，datanode3（顺序固定）上。

    3、客户端将存储请求发送到datanode1上，datanode1存储好后，由datanode1发送到datanode2上，datanode2存储好后，由datanode2发送到datanode3上。


    4、3个客户端存储好后都向namenode发送存储成功DONE的信息。

    5、namenode存储元数据，也就是文件的存储信息（副本数，在哪些datanode上之类的）

    6、namenode告诉客户端第一个block已经存储完成，开始存储第二个。

    7、存储完成后断开链接。

   流程总结：
   client----->namenode------>client----->datanode1--->datanode2---->datanode3----done-->namenode---->client---重复过程，知道block存储完成。


  读流程：

      1、client发起读请求。发送filename到namenode

      2、namenode返回该文件的元数据，各个block所对应的datanode

      3、client发送请求到最近的datanode上获取block信息

      4、将所有block信息拼接，输出数据。

      5、断开连接。

      client---->namenode---->client---->datanode----->client

HDFS shell：

操作：ls, get, mkdir, rm, rmdir,  put, text, cat, cp,find,  moveFromLocal, moveToLocal......
命令（command）:
    hdfs dfs -ls /
    hdfs dfs -mkdir /test
    hdfs dfs -rmdir /test
    ......

HDFS Java Api:

Java API 操作HDFS文件：
    1）IDEA + Maven 创建Java 工程（安装Maven此处不做详细说明）
    2）添加HDFS相关依赖
    3）开发Java API操作HDFS文件

     1、打开IDEA，create project，创建Maven工程

创建Maven工程

2、写入GroupId 和 Artifacld，点击确认下一步

image.png

3、选择安装好的Maven路径，点击确认下一步

选择Maven库

4、更新Maven依赖，文件内容如下：

<project xmlns="http://maven.apache.org/POM/4.0.0" 
 xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
 xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 
 http://maven.apache.org/xsd/maven-4.0.0.xsd">
 <modelVersion>4.0.0</modelVersion>

 <groupId>com.lu.hadoop</groupId>
 <artifactId>hadoop-train1</artifactId>
 <version>1.0-SNAPSHOT</version>
 <packaging>jar</packaging>

 <name>hadoop-train1</name>
 <url>http://maven.apache.org</url>

 <properties>
   <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
   <hadoop.version>2.6.0-cdh5.7.0</hadoop.version>
 </properties>

 <repositories>
   <repository>
     <id>cloudera</id>
     <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
   </repository>
 </repositories>

 <dependencies>
   <!--添加hadoop依赖-->
   <dependency>
     <groupId>org.apache.hadoop</groupId>
     <artifactId>hadoop-client</artifactId>
     <version>${hadoop.version}</version>
   </dependency>
<!--添加单元测试的依赖-->
   <dependency>
     <groupId>junit</groupId>
     <artifactId>junit</artifactId>
     <version>4.10</version>
     <scope>test</scope>
   </dependency>
 </dependencies>
</project>

API：（在单元测试类中进行API操作）

public static final String HDFS_PATH = "hdfs://hadoop1:8020";//hdfsURI路径
FileSystem fileSystem = null;//hdfs文件系统API
Configuration configuration = null;//配置

@Before
public void setUp() throws Exception{
    configuration = new Configuration();
    fileSystem = FileSystem.get(new URI(HDFS_PATH),configuration,"root");
    System.out.println("HDFSApp:setUp");
}

/**
 * 打印
 * */
@Test
public void cat() throws IOException {

    FSDataInputStream inputStream = fileSystem.open(new Path("/hdfs_api/test/a"));
    IOUtils.copyBytes(inputStream,System.out,1024);
    inputStream.close();

}

/**
 * 创建文件夹
 * */
@Test
public void mkdir() throws IOException {
    fileSystem.mkdirs(new Path("/hdfs_api/test"));
}

/**
 * 创建文件
 * */
@Test
public void create() throws IOException {
    FSDataOutputStream fsDataOutputStream = fileSystem.create(new Path("/hdfs_api/test/a"));
    fsDataOutputStream.write("aaaaa".getBytes());
    fsDataOutputStream.flush();
    fsDataOutputStream.close();
}

/**
 * 重命名
 * */
@Test
public void rename() throws IOException {
    Path oldPath = new Path("/hdfs_api/test/a");
    Path newPath = new Path("/hdfs_api/test/test1");
    fileSystem.rename(oldPath,newPath);
}

/**
 * 上传本地文件到hdfs
 * */
@Test
public void copyFromLocal() throws IOException {
    Path src = new Path("D:\\sampledb.sql");
    Path dest = new Path("/hdfs_api/test/");
    fileSystem.copyFromLocalFile(src,dest);
}

/**
 * 上传本地文件到hdfs,进度条
 * */
@Test
public void copyFromLocalWithProcess() throws IOException {
    FileInputStream fileInputStream = new FileInputStream("D:\\Download\\ideaIU-2017.3.5.tar.gz");
    InputStream in = new BufferedInputStream(fileInputStream);

    FSDataOutputStream outputStream = fileSystem.create(
            new Path("/hdfs_api/test/idea.tar.gz"), new Progressable() {
                public void progress() {
                    System.out.print(".");
                }
            });
    IOUtils.copyBytes(in,outputStream,4096);

}

@Test
public void copyToLocalFile() throws IOException {
    Path src = new Path("/hdfs_api/test/test1");
    Path dest = new Path("D:\\test1");
    fileSystem.copyToLocalFile(false,src,dest,true);
}

@Test
public void listFile() throws IOException {
    FileStatus[] fileStatuses = fileSystem.listStatus(new Path("/hdfs_api/test/test1"));
    for(FileStatus fileStatus : fileStatuses){
        String directory = fileStatus.isDirectory() ? "DIR" : "FILE";
        short replication = fileStatus.getReplication();
        long len = fileStatus.getLen();
        String path = fileStatus.getPath().toString();
        System.out.println(directory + "\t" + replication + "\t" + len + "\t" + path);
    }

}

@After
public void tearDown() throws Exception {
    configuration = null;
    fileSystem = null;
    System.out.println("HDFSApp:tearDown");
}

--------------------------------------华丽的分割线----------------------------------------over~~~~------

【H5】盘点HTML5新特性

html5总的来说比html4多了十个新特性，但其不支持ie8及ie8以下版本的浏览器文章目录

【数据库原理 • 一】数据库系统概念

前言数据库技术是计算机科学技术中发展最快，应用最广的技术之一，它是专门研究如何科学的组织和存储数据，如何高效地获取和处理数据的技术。它已成为各行各业存储数据、管理信息、共享资源和决策支持的最先进，最常用的技术。

Angular 中级

目录（6 - 12 章）

Flink 内核原理与实现-时间与窗口

一、时间类型事件时间：指时间发生的时间，一旦确定之后再也不会改变。处理时间：指消息被计算引擎处理的时间，以各个计算节点的本地时间为准。摄取时间：指事件进去流处理系统的时间，对于一个事件来说，使用其被读取的那一刻时间戳。

【团购-HeaderView Objective-C语言】

一、那么，我们看上面这个东西，这就是我们保存在HeaderView里面的一个东西吧，

LeetCode题库 53最大子序和（java）

给定一个整数数组 nums ，找到一个具有最大和的连续子数组（子数组最少包含一个元素），返回其最大和。示例: 输入: [-2,1,-3,4,-1,2,1,-5,4] 输出: 6 解释: 连续子数组 [4,-1,2,1] 的和最大，为 6。

Flink非对齐checkpoint原理（Flink Unaligned Checkpoint）

【linux】图像处理linux下开发命令

1.使用Pip更新Pytorch和torchvision # 更新pytorch和torchvision安装包

计算总分和平均分

小明本学期共有5门课程，分别是英语、语文、数学、历史和音乐。5科的期中考试成绩分别是86分、74分、92分、77分、82分，期末考试成绩分别是81分、87分、90分、62分、88分。已知期中和期末考试成绩分别占总成绩的30%和70%。定义相应的变量存放各科成绩，并计算出小明5门课程的总分和平

服务器，socket服务。

服务器：万维网内的某一socket协议接口管理中心，之所以说管理中心是因为所有的协议都在socket为基础扩展而来的。socket服务就是服务于因特网内不同电脑间通讯而存在的。常用的有http协议，tcp协议，udp协议，websocket协议；只不过请求协议标准不同而已，电