一、大数据的基本概念:
大数据简言之就是处理数据的技术
大数据的特点:1.价值密度低、2.快速化、3.多样化、4.数据量大
分布式:分布式主要是指:多个进程协同在一起完成一个任务,构成了一个整体。
二、分布式的图片:
三、Hadoop安装
1、解压到/soft下
tar -xzvf hadoop-2.7.3.tar.gz -C /soft/ 2、建立符号链接 hadoop ln -s hadoop-2.7.3 hadoop 3、修改环境变量 HADOOP_HOME 注意:bin目录和sbin目录都需要放在PATH下 # hadoop环境变量 export HADOOP_HOME=/soft/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin4、生效环境变量
source /etc/profile 5、验证 hadoop version四、Hadoop的伪分布式的搭建
0、修改hosts文件 /etc/hosts
添加 192.168.159.100 s100 1、修改core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <property> <name>fs.defaultFS</name> <value>hdfs://s100</value> </property></configuration>2、修改hdfs-site.xml
<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <property> <name>dfs.replication</name> <value>1</value> </property></configuration>3、修改mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration> 4、修改yarn-site.xml<?xml version="1.0"?><configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>s100</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property></configuration> 5、修改hadoop-env.sh 将第25行改为 export JAVA_HOME=/soft/jdk 6、修改slaves文件 将localhost改成s100 7、格式化hdfs文件系统 hdfs namenode -format 8、启动hadoop进程 start-all.sh 9、关闭hadoop进程 stop-all.sh