linux部署分布式文件系统hadoop

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。

HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算

安装hadoop我们首先需要安装jdk

mkdir /usr/java
tar -zxvf jdk-7u60-linux-i586.tar.gz -C /usr/java
将java添加到环境变量中
vim /etc/profile
在文件的末尾添加如下内容
export JAVA_HOME=/usr/java/jdk1.7.0_60
export PATH=$PATH:$JAVA_HOME/bin
使配置生效
source /etc/profile
三、安装hadoop
下载hadoop
https://archive.apache.org/dist/
https://archive.apache.org/dist/hadoop/core/hadoop-2.2.0/
本次下载的是: hadoop-2.2.0.tar.gz
1.上传hadoop包,我这里使用FileZilla上传到 linux下root 目录下
2.解压hadoop包
首先在根目录创建一个/ittest 目录
mkdir /ittest
tar -zxvf hadoop-2.2.0.tar.gz -C /ittest
3.配置hadoop伪分布式(要修改etc/下的4个文件)
第一个:hadoop-env.sh
vim hadoop-env.sh
export JAVA_HOME=/usr/java/jdk1.7.0_60
第二个:core-site.xml
<configuration>
    <!-- 用来指定hdfs的老大(NameNode)的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://ittest01:9000</value>
    </property>
    <!-- 用来指定Hadoop运行时产生文件的存放目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/ittest/hadoop-2.2.0/tmp</value>
    </property>
</configuration>
第三个:hdfs-site.xml
<configuration>
    <!-- 指定HDFS保存数据副本数量 --> 
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>
 第四个:mapred-site.xml (需要从此文件复制mapred-site.xml.template)
<configuration>
    <!-- 告诉hadoop以后MR运行在yarn上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>
第五个:yarn-site.xml
<configuration>
    <!-- NodeManager获取数据的方式是shuffle-->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
     </property>
     <!-- 指定YARN的老大(resourcemanager)的地址 -->
     <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>ittest01</value>
     </property>
</configuration>
4.将Hadoop添加到环境变量中
vim /etc/profile
export JAVA_HOME=/usr/java/jdk1.7.0_60
export HADOOP_HOME=/ittest/hadoop-2.2.0
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
使配置生效
source /etc/profile
 5.初始化HDFS(格式化文件系统,此步类似刚买U盘需要格式化)
hdfs namenode -format
6.启动文HDFS和YARN
start-dfs.sh
start-yarn.sh
启动好了以后我们可以在可浏览器进行查看,是否搭建成功
http://192.168.8.88:50070 ( hdfs管理界面)
http://192.168.8.88:8088 (yarn管理界面)
在这个文件中添加linux主机名和IP的映射关系
c:\Windows\System32\drivers\etc
在末尾,添加
192.168.8.88     ittest01
四、测试hdfs(主要存储数据,存储海量数据)
1.上传文件
hadoop fs -put /mnt/hgfs/share/jdk-7u60-linux-i586.tar.gz hdfs://ittest01:9000/jdk
2.下载文件
hadoop fs -get hdfs://ittest01:9000/jdk /home/jdk1.7


内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://sulao.cn/post/407.html

我要评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。