linux部署分布式文件系统hadoop_Linux笔记

linux部署分布式文件系统hadoop

作者：shevechco 日期：2017-07-03 分类：Linux笔记浏览：1212次评论：0条

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。

HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算

安装hadoop我们首先需要安装jdk

mkdir /usr/java
tar -zxvf jdk-7u60-linux-i586.tar.gz -C /usr/java

将java添加到环境变量中

vim /etc/profile

在文件的末尾添加如下内容

export JAVA_HOME=/usr/java/jdk1.7.0_60
export PATH=$PATH:$JAVA_HOME/bin

使配置生效

source /etc/profile

三、安装hadoop

下载hadoop

https://archive.apache.org/dist/

https://archive.apache.org/dist/hadoop/core/hadoop-2.2.0/

本次下载的是： hadoop-2.2.0.tar.gz

1.上传hadoop包，我这里使用FileZilla上传到 linux下root 目录下

2.解压hadoop包

mkdir /ittest
tar -zxvf hadoop-2.2.0.tar.gz -C /ittest

3.配置hadoop伪分布式（要修改etc/下的4个文件）

第一个：hadoop-env.sh

vim hadoop-env.sh
export JAVA_HOME=/usr/java/jdk1.7.0_60

第二个：core-site.xml

<configuration>
    <!-- 用来指定hdfs的老大（NameNode）的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://ittest01:9000</value>
    </property>
    <!-- 用来指定Hadoop运行时产生文件的存放目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/ittest/hadoop-2.2.0/tmp</value>
    </property>
</configuration>

第三个：hdfs-site.xml

<configuration>
    <!-- 指定HDFS保存数据副本数量 --> 
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

第四个：mapred-site.xml (需要从此文件复制mapred-site.xml.template)

<configuration>
    <!-- 告诉hadoop以后MR运行在yarn上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

第五个：yarn-site.xml

<configuration>
    <!-- NodeManager获取数据的方式是shuffle-->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
     </property>
     <!-- 指定YARN的老大（resourcemanager）的地址 -->
     <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>ittest01</value>
     </property>
</configuration>

4.将Hadoop添加到环境变量中

vim /etc/profile
export JAVA_HOME=/usr/java/jdk1.7.0_60
export HADOOP_HOME=/ittest/hadoop-2.2.0
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

使配置生效

source /etc/profile

5.初始化HDFS（格式化文件系统，此步类似刚买U盘需要格式化）

hdfs namenode -format

6.启动文HDFS和YARN

start-dfs.sh
start-yarn.sh

启动好了以后我们可以在可浏览器进行查看，是否搭建成功

http://192.168.8.88:50070 ( hdfs管理界面)
http://192.168.8.88:8088 （yarn管理界面）

在这个文件中添加linux主机名和IP的映射关系

c:\Windows\System32\drivers\etc

在末尾，添加

192.168.8.88     ittest01

四、测试hdfs（主要存储数据，存储海量数据）

1.上传文件

hadoop fs -put /mnt/hgfs/share/jdk-7u60-linux-i586.tar.gz hdfs://ittest01:9000/jdk

2.下载文件

hadoop fs -get hdfs://ittest01:9000/jdk /home/jdk1.7

linux hadoop

转载注明出处：https://sulao.cn/post/407.html

linux部署分布式文件系统hadoop

相关文章