Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。
HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算
安装hadoop我们首先需要安装jdk
mkdir /usr/java tar -zxvf jdk-7u60-linux-i586.tar.gz -C /usr/java将java添加到环境变量中
vim /etc/profile
在文件的末尾添加如下内容
export JAVA_HOME=/usr/java/jdk1.7.0_60 export PATH=$PATH:$JAVA_HOME/bin
使配置生效
source /etc/profile
三、安装hadoop
下载hadoop
本次下载的是: hadoop-2.2.0.tar.gz
1.上传hadoop包,我这里使用FileZilla上传到 linux下root 目录下
2.解压hadoop包
首先在根目录创建一个/ittest 目录
mkdir /ittest tar -zxvf hadoop-2.2.0.tar.gz -C /ittest3.配置hadoop伪分布式(要修改etc/下的4个文件)
第一个:hadoop-env.sh
vim hadoop-env.sh export JAVA_HOME=/usr/java/jdk1.7.0_60第二个:core-site.xml
<configuration> <!-- 用来指定hdfs的老大(NameNode)的地址 --> <property> <name>fs.defaultFS</name> <value>hdfs://ittest01:9000</value> </property> <!-- 用来指定Hadoop运行时产生文件的存放目录 --> <property> <name>hadoop.tmp.dir</name> <value>/ittest/hadoop-2.2.0/tmp</value> </property> </configuration>第三个:hdfs-site.xml
<configuration> <!-- 指定HDFS保存数据副本数量 --> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
<configuration> <!-- 告诉hadoop以后MR运行在yarn上 --> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>第五个:yarn-site.xml
<configuration> <!-- NodeManager获取数据的方式是shuffle--> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!-- 指定YARN的老大(resourcemanager)的地址 --> <property> <name>yarn.resourcemanager.hostname</name> <value>ittest01</value> </property> </configuration>4.将Hadoop添加到环境变量中
vim /etc/profile export JAVA_HOME=/usr/java/jdk1.7.0_60 export HADOOP_HOME=/ittest/hadoop-2.2.0 export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin使配置生效
source /etc/profile
hdfs namenode -format6.启动文HDFS和YARN
start-dfs.sh start-yarn.sh
启动好了以后我们可以在可浏览器进行查看,是否搭建成功
http://192.168.8.88:50070 ( hdfs管理界面) http://192.168.8.88:8088 (yarn管理界面)在这个文件中添加linux主机名和IP的映射关系
c:\Windows\System32\drivers\etc在末尾,添加
192.168.8.88 ittest01四、测试hdfs(主要存储数据,存储海量数据)
1.上传文件
hadoop fs -put /mnt/hgfs/share/jdk-7u60-linux-i586.tar.gz hdfs://ittest01:9000/jdk2.下载文件
hadoop fs -get hdfs://ittest01:9000/jdk /home/jdk1.7