大数据平台核心技术-实验记录

大数据平台核心技术-实验记录

2024-11-07 23:16

大数据平台核心技术-实验记录

**有问题多尝试解决，可评论留言遇到的问题** **博客表述不清的地方请留言，看到后会更新博客** **本文仅供参考**

学校：许昌学院学院：信息工程学院实验环境：操作系统：Linux (CentOS 6.7) JDK版本：1.8 (8u161) Hadoop版本：2.7.4 虚拟机：VMware Workstation Pro 15.5 参考资料： Hadoop大数据技术原理与应用 linux命令大全（手册）大数据平台核心技术樊志伟

**有问题多尝试解决，可评论留言遇到的问题**

1. 实验目的

熟悉常用Linux操作，学会搭建Hadoop集群，为后续上机实验做准备。

2. 实验环境（推荐）

操作系统：Linux (CentOS 6.7) JDK版本：1.8 (8u161) Hadoop版本：2.7.4

3. 实验内容和要求

（一）熟悉常用Linux操作实验内容使用到的命令(1) 切换到目录 /usr/local (2) 去到目前的上层目录 (3) 回到自己的主文件夹cd: 切换目录(4) 查看目录/usr下所有的文件ls: 查看文件与目录(5) 进入/tmp目录，创建名为a的目录 (6) 创建目录a1/a2/a3/a4mkdir: 新建新目录(7) 将主文件夹下的.bashrc复制到/tmp下，命名为bashrc1 (8) 在/tmp下新建目录test，再复制这个目录到/usrcp: 复制文件或目录(9) 将第7例文件bashrc1移动到目录/usr/test (10) 将第9例test目录重命名为test2mv: 移动文件与目录，或更名(11) 将以上例子中的bashrc1文件删除 (12) 将第10例的test2目录删除rm: 移除文件或目录(13) 查看主文件夹下的.bashrc文件内容cat: 查看文件内容(14) 在/目录下新建目录test，然后打包成test.tar.gz (15) 将第14例文件解压缩到/tmp目录tar: 压缩、解压缩命令（二）搭建Hadoop集群的前期准备实验内容使用到的命令(16) 配置三台虚拟机的网络vi. ifconfig, reboot, ping, service(17) 配置SSH免密码登陆rpm, grep, ssh-keygen, ssh-copy-id, ssh, exit（三）搭建Hadoop集群实验内容使用到的命令(18) 安装并配置指定版本的JDKrz, cd, tar, mv, vi, source(19) 安装并配置Hadoop集群主节点rz, tar, vi(20) 分发Hadoop至子节点并配置scp, source(21) 格式化HDFS，启动Hadoop集群hdfs namenode -format, start-dfs.sh

1. 实验目的

掌握HDFS操作常用的Shell命令；
熟悉HDFS操作常用的Java API；
掌握倒排索引及其MapReduce实现。

2. 实验环境（推荐）

Java开发环境：JDK 1.8 (8u161)
分布式开发环境：Hadoop 2.7.4
集成开发环境：Eclipse或IntelliJ IDEA
项目构建工具：Maven 3.5.4

3. 实验内容和要求

（一）使用Shell命令操作HDFS实验要求其他说明(1) 在HDFS根目录下创建目录：“/学号后两位/test/” (2) 将本地系统中的文本文件复制到第(1)步创建的目录中 (3) 将第(2)步上传的文本文件复制到本地系统需要使用到集群文本文件统一命名为：hdfs_sh.txt，内容随意（二）使用Java API操作HDFS实验要求其他说明(4) 搭建Hadoop HDFS开发环境 (5) 初始化HDFS客户端对象 (6) 在本地创建文本文件并上传到HDFS (7) 从HDFS将第(6)步上传的文件下载到本地需要使用到集群使用Maven 文本文件统一命名为：hdfs_java.txt，内容随意（三）使用MapReduce实现倒排索引实验要求其他说明(8) 收集数据，根据来源将数据存储在多个文本文件中 (9) 编写Map阶段程序代码 (10) 编写Combine阶段程序代码（可选） (11) 编写Reduce阶段程序代码 (12) 实现Driver主驱动程序并测试运行无需使用集群使用Maven 多个数据文件放在同一个文件夹中，文件夹命名为：mrdata

**有问题多尝试解决，可评论留言遇到的问题**

1、安装虚拟机

注意：每台虚拟机的内存需要量力而行，因为一共三台虚拟机加一台主机呢！如：本机共8g内存，那么平均分给4台电脑，每台可设2g内存！

在这里插入图片描述 2、创建工作目录：

mkdir -p /export/data

mkdir -p /export/software

mkdir -p /export/servers

在这里插入图片描述

3、克隆虚拟机在这里插入图片描述

4、Linux网络配置

a>配置VM ware b>配置主机名 :vi /etc/sysconfig/network c>配置IP地址映射: vi /etc/hosts

在这里插入图片描述

5、网络参数配置

a>配置MAC地址 b>配置静态IP c>验证

在这里插入图片描述

6、SSH服务配置

a> 查看是否安装SSH： rpm -qa |grep ssh b>安装SSH: yum install openssh-server c>查看SSH服务是否启动： ps -e | grep sshd

在这里插入图片描述

7、虚拟机免密登录

为什么要免密登录

Hadoop节点众多,所以一般在主节点启动从节点这个时候就需要程序自动在主节点登录到从节点中,如果不能免密就每次都要输入密码,非常麻烦
免密SSH登录的原理

1.需要先在B节点配置A节点的公钥 2. A节点请求B节点要求登录 3. B节点使用A节点的公钥，加密- -段随机文本 4. A节点使用私钥解密，并发回给B节点 5. B节点验证文本是否正确
第一步:三台机器生成公钥与私钥

在三台机器执行以下命令，生成公钥与私钥 ssh -keygen -t rsa 执行该命令之后，按下三个回车即可
第二步:拷贝公钥到同一台机器

三台机器将拷贝公钥到第一台机器三台机器执行命令: ssh-copy-id hadoop01
第三步:复制第一台机器的认证到其他机器

将第一台机器的公钥拷贝到其他机器上在第一天机器上面指向以下命令 scp /root/.ssh/authorized_ keys hadoop02:/root/.ssh

scp /root/.ssh/authorized_ keys hadoop03:/root/.ssh

**有问题多尝试解决，可评论留言遇到的问题**

1、安装文件上传工具

2、JDK安装

下载JDK

https://www.oracle.com/technetwork/java/javase/downloads/index.html

查看当前系统自带jdk并卸载：

注：参考:here

在这里插入图片描述

然后通过 rpm -e --nodeps 后面跟系统自带的jdk名这个命令来删除系统自带的jdk，

在这里插入图片描述

删完之后可以再通过 rpm -qa | grep Java 命令来查询出是否删除掉

安装JDK

配置JDK环境变量

JDK环境验证

3、Hadoop安装:

下载Hadoop安装包

http://archive.apache.org/dist/hadoop/common/

解压安装Hadoop

配置

修改完成之后记得source /etc/profle生效

source /etc/profile

验证Hadoop环境

4、Hadoop集群配置

#进入目录

cd /export/servers/hadoop-2.7.4/etc/hadoop

4.1 配置Hadoop集群主节点

该部分可参考：官方文档

修改hadoop-env.sh

export JAVA_HOME=/export/servers/jdk
修改core-site.xml
修改hdfs-site.xml
修改mapred-site.xml

cp mapred-site.xml.template mapred-site.xml
修改yarn-site.xml
修改slaves文件。打开该配置文件，先删除里面的内容(默认localhost) ，然后配置如下内容。

4.2 将集群主节点的配置文件分发到其他子节点

**有问题多尝试解决，可评论留言遇到的问题**

1、格式化文件系统

初次启动HDFS集群时，必须对主节点进行格式化处理。

格式化文件系统指令如下:

2、启动和关闭Hadoop集群

单节点逐个启动和关闭
- 在主节点上执行指令启动/关闭HDFS NameNode进程;
- 在每个从节点上执行指令启动/关闭HDFS DataNode进程;
- 在主节点上执行指令启动/关闭YARN ResourceManiger进程;
- 在每个从节点上执行指令启动/关闭YARN nodemanager进程;
- 在节点hadoop02执行指令启动/关闭SecondaryNameNode进程。
- 关闭只需将start 换成stop
脚本一键启动和关闭

在主节点hadoop01上执行指令“start-dfs.sh”或“stop-dfs.sh”启动/关闭所有HDFS服务进程；

在主节点hadoop01上执行指令“start-yarn.sh”或“stop-yarn.sh”启动/关闭所有YARN服务进程；

在主节点hadoop01上执行“start-all.sh”或“stop-all.sh”指令，直接启动/关闭整个Hadoop集群服务。

3、通过UI查看Hadoop运行状态

Hadoop集群正常启动后，它默认开放了两个端口50070和8088，分别用于监控HDFS集群和YARN集群。通过UI界面可以方便地进行集群的管理和查看，只需要在本地操作系统的浏览器输入集群服务的IP和对应的端口号即可访问。

在Windows系统下，访问http://hadoop01:8088，查看Yarn集群状态，且从图中可以看出Yarn集群状态显示正常。注：点击左侧Nodes，看到以下页面，一般配置就正确了

**有问题多尝试解决，可评论留言遇到的问题**

Hadoop经典案例——单词统计

打开HDFS的UI界面，查看HDFS中是否有数据文件，默认是没有数据文件。
准备文本文件，在Linux系统上编辑一个文本文件，然后上传至HDFS上。

创建数据存储目录：mkdir -p /export/data

编辑文件：vi word.txt

写入一些单词：

hello itcast

hello itheima

hello Hadoop

在hdfs上创建目录：hadoop fs -mkdir -p /wordcount/input

将文件上传至hdfs 的目录：hadoop fs -put /export/data/word.txt /wordcount/input
运行hadoop-mapreduce-examples-2.7.4.jar包，实现词频统计。

进入：cd /export/servers/hadoop-2.7.4/share/hadoop/mapreduce

执行：hadoop jar hadoop-mapreduce-examples-2.7.4.jar wordcount /wordcount/input /wordcount/output 注：执行该步时出错，（一直为接受状态，没有运行；有大佬请解答！）如下图：（已解决！）成功界面：
查看UI界面，Yarn集群UI界面出现程序运行成功的信息。HDFS集群UI界面出现了结果文件。

**分割线，请保证实验一正确完成词频统计部分** **有问题多尝试解决，可评论留言遇到的问题**

Shell在计算机科学中俗称“壳”，是提供给使用者使用界面的进行与系统交互的软件，通过接收用户输入的命令执行相应的操作，Shell分为图形界面Shell和命令行式Shell。

官方文档：here

上述命令中，“hadoop fs" 是使用面最广，可以操作任何文件系统，如本地系统、HDFS等，“hadoop dfs"则主要针对HDFS文件系统，已经被“Ihdfs dfs"代替。

文件系统(FS) Shell 包含了各种的类shell的命令，可以直接与Hadoop分布式文件系统以及其他文件系统进行交互，如与LocalFS、 HTTPFS、S3 FS 文件系统交互等。通过命令行的方式进行交互，具体操作常用命令，如表下表：

命令参数功能描述-ls查看指定路径的目录结构-du统计目录下所有文件大小-mv移动文件-cp复制文件-rm删除文件/空白文件夹-cat查看文件内容-text源文件输出为文本格式-mkdir创建空白文件夹-put上传文件-help帮助-get下载文件

1、 ls命令 在这里插入图片描述 2、 mkdir命令 3、 put命令 4、 get命令 5、其他命令：here

**该部分大多数问题是因为实验一未正确完成导致** **有问题多尝试解决，可评论留言遇到的问题**

由于Hadoop是使用Java语言编写的，因此可以使用Java API操作Hadoop文件系统。HDFS Shell本质上就是对Java API的应用，通过编程的形式操作HDFS，其核心是使用HDFS提供的Java API构造一个访问客户端对象，然后通过客户端对象对HDFS上的文件进行操作（增、删、改、查）。参考：https://my.oschina.net/u/2371923/blog/2870791

(1) 搭建Hadoop HDFS开发环境

1、win10上搭建hadoop环境