亚博app下载地址 – 最新官网app下载

hadoop安装部署

Published By on 8月 26, 2022

如果要关闭Hadoop集群,可以使用命令:1|stop-all.sh下次启动Hadoop时,无须NameNode的初始化,只需要使用start-dfs.sh命令即可,然后接着使用start-yarn.sh启动Yarn。

而mapreducejob也能顺利完成,没有因为resourcemanager的意外故障而影响运行。

因为hadoop是用Java写的。

这种模式是在一台机器上各个进程上运行Hadoop的各个模块,伪分布式的意思是虽然各个模块是在各个进程上分开运行的,但是只是运行在一个操作系统上的,并不是真正的分布式。

安装不是目的,通过安装认识Hadoop才是目的。

执行:bin/hdfsnamenode-format之后会出现一连串信息,我们不用管他,中途没有出现**ERROR**关键字,我们的集群初始化就算成功了。

执行编辑slaves文件命令:vi/opt/hadoop/hadoop/etc/hadoop/slaves注意:用vi编辑slaves文件,应该根据读者您自己所搭建集群的实际情况进行编辑。

百度云一台服务器。

打开浏览器,输入地址**localhost:50070**!在这里插入图片描述(https://img-blog.csdnimg.cn/20201013162201655.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjE5NDc4MQ==,size_16,color_FFFFFF,t_70pic_center)现在你就走出了Hadoop的新手村。

map和reduce流程开发者自己随意组合,只要各流程的输入输出能衔接上就行。

输入如下命令来检查Hadoop是否可用,成功则会显示Hadoop版本信息$cd/usr/local/hadoop$./bin/hadoopversion**5hadoop集群配置**完成上面的基础为配置hadoop集群的基础。

HDFS原理是把大块数据切碎,每个碎块复制三份,分开放在三个廉价机上,一直保持有三块可用的数据互为备份。

下载hadoop安装包后不用任何设置,默认的就是本地模式。

使用命令`vim/etc/ntp.conf`打开/etc/ntp.conf文件,注释掉以server开头的行,并添加:restrict192.168.128.2mask255.255.255.0nomodifynotrapserver127.127.1.0fudge127.127.1.0stratum10!在这里插入图片描述(https://img-blog.csdnimg.cn/f9e087a82d5d46559f966a044b0f911b.pngpic_center)\u200b(3)在slave中配置NTP,同样修改/etc/ntp.conf文件,注释掉server开头的行,并添加:servermaster!在这里插入图片描述(https://img-blog.csdnimg.cn/dbccda4dcac947199db34934a1a0f8d6.pngpic_center)(4)执行命令`sudosystemctlstopfirewalld.service`永久性关闭防火墙,主节点和从节点都要关闭。

Zookeeper从机制上解决了Leader的单点故障问题,Leader是哪一台机器是不固定的,Leader是选举出来的。

但*配置该系统是非常头疼的,很多人配置过程就放弃了。

例子:hadoopfs-put/home/hduser/file/file1.txt/input2-将本地文件复制到HDFS目录”input2″hadoopfs-put/home/hduser/file/file1.txt/home/hduser/file/file2.txt/input2-将多个本地文件复制到HDFS目录”input2″hadoopfs-put-/input2/file3-从标准输入中读取输入,按Ctrl+C组合键退出并保存到”file3″get-复制HDFS文件到本地系统(外部命令,是put命令的逆操作)语法:hadoopfs-get其中src只能是HDFS文件,localdst只能是本地文件,且同样不受fs.defaultFS属性影响例子:hadoopfs-get/input2/file1.txt/sa/file-将HDFS目录”input2″下的file1.txt文件复制到本地系统目录”sa”下的file文件夹中mv-移动、剪切命令语法:hadoopfs-mvURIURI…:将文件从源路径移动到目标路径,允许多个源路径,目标路径必须是一个目录例子:hadoopfs-mv/input2/file1.txt/input2/file2.txt/user/hadoop/dir1-将HDFS上”input2″文件夹中的file1.txt和file2.txt文件移动到”/user/hadoop/dir1″文件夹中cp-复制命令语法:hadoopfs-cpURIURI…:将文件从源路径复制到目标路径,允许多个源路径,目标路径必须是一个目录例子:hadoopfs-cp/input2/file1.txt/input2/file2.txt/user/hadoop/dir1-将HDFS上”input2″文件夹中的file1.txt和file2.txt文件复制到”/user/hadoop/dir1″文件夹中rm、rmr-删除文件1.rm命令语法:hadoopfs-rmURIURI…删除指定的文件,只删除非空目录和文件例子:hadoopfs-rm/input2/file1.txt-在HDFS中删除input2文件夹下的file1.txt文件2.rmr命令语法:hadoopfs-rmrURIURI…rm的递归版本,整个文件夹及子文件将全部删除例子:hadoopfs-rmr/user/hadoop/dir1-在HDFS中直接删除”/user/hadoop/dir1″路径中dir1文件夹及该文件夹中的子文件test、du、expubge-管理命令1.test命令语法:hadoopfs-test-选项URI选项:-e:检查文件是否存在,如果存在则返回0,不存在返回1;-z:检查文件是否存在内容,有内容返回1,没有内容返回0(检查文件的大小是否是0字节,文件大小是0字节返回0,不是0字节返回1);-d:检查路径是否为目录,如果是则返回1,不是则返回0.例子:hadoopfs-test-e/input2/file1.txt-检查文件是否存在echo$?-“$?”是Linux变量,存储上一条命令的返回值,”echo$?”表示输出命令行返回的数值。

yarn.log-aggregation-enabletrueyarn.log.server.urlhttp://hadoop102:19888/jobhistory/logsyarn.log-aggregation.retain-seconds60480010、分发Hadoopxiaobuding@hadoop102hadoop$xsync/opt/module/hadoop-3.1.3/11、群起集群1)启动集群(1)如果集群是第一次启动,需要在hadoop102节点格式化NameNode(注意格式化之前,一定要先停止上次启动的所有namenode和datanode进程,然后再删除data和log数据)xiaobuding@hadoop102hadoop-3.1.3$bin/hdfsnamenode-format(2)启动HDFSxiaobuding@hadoop102hadoop-3.1.3$sbin/start-dfs.sh(3)在配置了ResourceManager的节点(hadoop103)启动YARNxiaobuding@hadoop103hadoop-3.1.3$sbin/start-yarn.sh(4)Web端查看HDFS的Web页面:http://hadoop102:9870/12、编写hadoop集群常用脚本1)查看三台服务器java进程脚本:jpsallxiaobuding@hadoop102~$cd/home/xiaobuding/binxiaobuding@hadoop102~$vimjpsall然后输入!/bin/bashforhostinhadoop102hadoop103hadoop104doecho===============$host===============ssh$hostjps$@|grep-vJpsdone保存后退出,然后赋予脚本执行权限xiaobuding@hadoop102bin$chmod+xjpsall2)hadoop集群启停脚本(包含hdfs,yarn,historyserver):myhadoop.shxiaobuding@hadoop102~$cd/home/xiaobuding/binxiaobuding@hadoop102~$vimmyhadoop.sh然后输入!/bin/bashif$thenecho”NoArgsInput…”exit;ficase$1in”start”)echo”===================启动hadoop集群===================”echo”—————启动hdfs—————“sshhadoop102″/opt/module/hadoop-3.1.3/sbin/start-dfs.sh”echo”—————启动yarn—————“sshhadoop103″/opt/module/hadoop-3.1.3/sbin/start-yarn.sh”echo”—————启动historyserver—————“sshhadoop102″/opt/module/hadoop-3.1.3/bin/mapred–daemonstarthistoryserver”;;”stop”)echo”===================关闭hadoop集群===================”echo”—————关闭historyserver—————“sshhadoop102″/opt/module/hadoop-3.1.3/bin/mapred–daemonstophistoryserver”echo”—————关闭yarn—————“sshhadoop103″/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh”echo”—————关闭hdfs—————“sshhadoop102″/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh”;;*)echo”InputArgsError…”;;esac保存后退出,然后赋予脚本执行权限xiaobuding@hadoop102bin$chmod+xmyhadoop.sh3)分发/home/xiaobuding/bin目录,保证自定义脚本在三台机器上都可以使用xiaobuding@hadoop102~$xsync/home/xiaobuding/bin/,Hadoop的三种运行模式*单机模式(Standalone,独立或本地模式):安装简单,运行时只启动单个进程,仅调试用途;*伪分布模式(Pseudo-Distributed):在单节点上同时启动namenode、datanode、secondarynamenode、resourcemanager、nodemanager等5个进程,模拟分布式运行的各个节点;*完全分布式模式(Fully-Distributed):正常的Hadoop集群,由多个各司其职的节点构成Hadoop安装步骤1.配置主机名、网络、编辑hosts文件,重启;2.配置免密码登陆,连接其他机器;3.Hadoop安装(下载解压到预定目录下)tar-xzvfhadoop-2.7.7.tar.gz-C目标文件夹/hadoop-2.7.2/4.编辑文件(Hadoop解压目录下etc/hadoop/文件夹)*编辑该目录下hadoop-env.sh、yarn-env.sh文件;*编辑该目录下core-site.xml、hdfs-site.xml和mapred-site.xml、yarn-site.xml四个核心配置文件;5.编辑masters、slaves(或者workers)文件;6.复制hadoop文件夹到其他节点;7.格式化HDFS;8.启动Hadoop预备步骤-集群时钟同步1.crontab-e(vi操作,i插入,ESC,:wq)2.01***/usr/sbin/ntpdatecn.pool.ntp.org/usr/sbin/ntpdatecn.pool.ntp.orStep0:安装jdk1.上传jdk-7u71-linux-x64(压缩文件)到/usr/java;不建议使用高版本JDK,查看Hadoop兼容的JDK版本;2.解压文件(root用户操作);cd/usr/javatar–xzvf/usr/java/jdk-7u71-linux-x64.gz3.修改个人用户配置文件,vim~/.bash_profile,在文件尾部添加(i进入编辑)exportJAVA_HOME=/usr/java/jdk1.7.0_71exportPATH=$JAVA_HOME/bin:$PATH4.保存退出(ESC退出编辑,:wq存盘退出)5.使(用户)配置生效,source~/.bash_profile6.测试,java–versionStep1:网络设置*桥接模式:VMnet0*主机模式:VMnet1*NAT模式:VMnet81.关闭防火墙(root用户)chkconfigiptablesoff(6.x指令)systemctldisablefirewalld(7.x指令)2.修改/etc/sysconfig/network-scripts/相应的网络配置3.修改机器名(root用户)NETWORKING=yesHOSTNAME=hadoop0保存退出,重启终端,测试hostname4.修改/etc/hosts(root用户)5.重启网络服务systemctlrestartnetwork.serviceservicenetworkrestart(6.x)Step2:ssh免密码登录Hadoop运行过程中需要管理远端Hadoop守护进程,启动后,NameNode是通过SSH(SecureShell)来无密码登录启动和停止各个DataNode上的各种守护进程的。

经过以上测试,已经验证YARNHA已经搭建成功。

注意:可能会有些慢,千万不要以为卡掉了,然后强制关机,这是错误的。

Leave a Reply