初探MapReduce

2022-12-19 23:40 702人阅读评论(0)

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

MapReduce核心思想
MapReduce编程模型
MapReduce编程实例——词频统计思路
- 1、Map阶段（映射阶段）
- 2、Reduce阶段（归并阶段）
MapReduce编程实例——词频统计实现
- （1）在虚拟机上创建文本文件
- （2）上传文件到HDFS指定目录
创建Maven项目
添加相关依赖
创建日志属性文件
创建词频统计映射器类
Java数据类型与Hadoop数据类型对应关系
创建词频统计驱动器类
运行词频统计驱动器类，查看结果
修改词频统计映射器类
修改词频统计驱动器类
创建词频统计归并器类
修改词频统计驱动器类
运行词频统计驱动器类，查看结果
修改词频统计归并器类
修改词频统计驱动器类
启动词频统计驱动器类，查看结果
采用多个Reduce做合并
- （1）MR默认采用哈希分区HashPartitioner
- （2）修改词频统计驱动器类，设置分区数量

MapReduce核心思想

MapReduce的核心思想是“分而治之”。所谓“分而治之”就是把一个复杂的问题，按照一定的“分解”方法分为等价的规模较小的若干部分，然后逐个解决，分别找出各部分的结果，把各部分的结果组成整个问题的结果，这种思想来源于日常生活与工作时的经验，同样也完全适合技术领域。

MapReduce作为一种分布式计算模型，它主要用于解决海量数据的计算问题。使用MapReduce操作海量数据时，每个MapReduce程序被初始化为一个工作任务，每个工作任务可以分为Map和Reduce两个阶段。

阶段	功能
Map阶段	负责将任务分解，即把复杂的任务分解成若干个“简单的任务”来并行处理，但前提是这些任务没有必然的依赖关系，可以单独执行任务。
Reduce阶段	负责将任务合并，即把Map阶段的结果进行全局汇总。

MapReduce编程模型

MapReduce是一种编程模型，用于处理大规模数据集的并行运算。使用MapReduce执行计算任务的时候，每个任务的执行过程都会被分为两个阶段，分别是Map和Reduce，其中Map阶段用于对原始数据进行处理，Reduce阶段用于对Map阶段的结果进行汇总，得到最终结果。

MapReduce编程实例——词频统计思路

1、Map阶段（映射阶段）

2、Reduce阶段（归并阶段）

MapReduce编程实例——词频统计实现

启动hadoop服务

（1）在虚拟机上创建文本文件

创建wordcount目录，在里面创建words.txt文件

（2）上传文件到HDFS指定目录

创建/wordcount/input目录，执行命令：hdfs dfs -mkdir -p /wordcount/input
将文本文件words.txt，上传到HDFS的/wordcount/input目录

创建Maven项目

添加相关依赖

<dependencies>                                   
    <!--hadoop客户端-->                             
    <dependency>                                 
        <groupId>org.apache.hadoop</groupId>     
        <artifactId>hadoop-client</artifactId>   
        <version>3.3.4</version>                 
    </dependency>                                
    <!--单元测试框架-->                                
    <dependency>                                 
        <groupId>junit</groupId>                 
        <artifactId>junit</artifactId>           
        <version>4.13.2</version>                
    </dependency>                                
</dependencies>

创建日志属性文件

在resources目录里创建log4j.properties文件

log4j.rootLogger=INFO, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/wordcount.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

创建词频统计映射器类

创建net.hw.mr包，在包里创建WordCountMapper类
为了更好理解Mapper类的作用，在map()函数里暂时不进行每行文本分词处理，直接利用context输出key和value。

package net.at.mr;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * 功能：词频统计映射器类
 * 作者：Argonaut
 * 日期：2022年12月07日
 */
public class WordCountMapper extends Mapper<LongWritable, Text, LongWritable, Text> {
   
    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
   
        // 直接将键值对数据传到下一个阶段
        context.write(key, value);
    }
}

Mapper<泛型参数1, 泛型参数2, 泛型参数3, 泛型参数4>参数说明

注意：MR应用，必须有映射器（Mapper），但是归并器（Reducer）可有可无

Java数据类型与Hadoop数据类型对应关系

Hadoop类型数据调用get()方法就可以转换成Java类型数据
Java类型数据通过new XXXWritable(x)方式转换成对应的Hadoop类型数据

创建词频统计驱动器类

在net.hw.mr包里创建WordCountDriver类

package net.at.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.net.URI;

/**
 * 功能：词频统计驱动器类
 * 作者：Argonaut
 * 日期：2022年12月07日
 */
public class WordCountDriver {
   
    public static void main(String[] args) throws Exception {
   
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");

        // 获取作业实例
        Job job = Job.getInstance(conf);
        // 设置作业启动类
        job.setJarByClass(WordCountDriver.class);

        // 设置Mapper类
        job.setMapperClass(WordCountMapper.class);
        // 设置map任务输出键类型
        job.setMapOutputKeyClass(LongWritable.class);
        // 设置map任务输出值类型
        job.setMapOutputValueClass(Text.class);

        // 定义uri字符串
        String uri = "hdfs://master:9000";
        // 创建输入目录
        Path inputPath = new Path(uri + "/wordcount/input");
        // 创建输出目录
        Path outputPath = new Path(uri + "/wordcount/output");

        // 获取文件系统
        FileSystem fs =  FileSystem.get(new URI(uri), conf);
        // 删除输出目录（第二个参数设置是否递归）
        fs.delete(outputPath, true);

        // 给作业添加输入目录（允许多个）
        FileInputFormat.addInputPath(job, inputPath);
        // 给作业设置输出目录（只能一个）
        FileOutputFormat.setOutputPath(job, outputPath);

        // 等待作业完成
        job.waitForCompletion(true);

        // 输出统计结果
        System.out.println("======统计结果======");
        FileStatus[] fileStatuses = fs.listStatus(outputPath);
        for (int i = 1; i < fileStatuses.length; i++) {
   
            // 输出结果文件路径
            System.out.println(fileStatuses[i].getPath());
            // 获取文件系统数据字节输入流
            FSDataInputStream in = fs.open(fileStatuses[i].getPath());
            // 将结果文件显示在控制台
            IOUtils.copyBytes(in, System.out, 4096, false);
        }
    }
}

运行词频统计驱动器类，查看结果

运行报错，提示：Did not find winutils.exe

修改词频统计映射器类

行首数字对于我们做单词统计没有任何用处，只需要拿到每一行内容，按空格拆分成单词，每个单词计数1，因此，WordCoutMapper的输出应该是单词和个数，于是，输出键类型为Text，输出值类型为IntWritable。
将每行按空格拆分成单词数组，输出<单词, 1>的键值对

由于WordCountMapper的输出键值类型发生变化，所以必须告诉WordCountDriver。

修改词频统计驱动器类

修改map任务输出键值类型

创建词频统计归并器类

1.一个类继承Reducer，变成一个Reducer组件类
2. Reducer组件会接收Mapper组件的输出结果
3.第一个泛型对应的是Mapper输出key类型
4.第二个泛型对应的是Mapper输出value类型
5.第三个泛型和第四个泛型是Reducer的输出key类型和输出value类型
6.Reducer组件不能单独存在，但是Mapper组件可以单独存在
7.当引入Reducer组件后，输出结果文件内容就是Reducer的输出key和输出value
8.在net.at.mr包里创建WordCountReducer

package net.at.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

/**
 * 功能：词频统计归并器
 * 作者：Argonaut
 * 日期：2022年12月13日
 */
public class WordCountReducer extends Reducer<Text, IntWritable, Text, Text> {
   
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context)
            throws IOException, InterruptedException {
   
        // 定义整数数组列表
        List<Integer> integers = new ArrayList<>();
        // 遍历输入值迭代器
        for (IntWritable value : values) {
   
            // 将每个值添加到数组列表
            integers.add(value.get()); // 利用get()方法将hadoop数据类型转换成java数据类型
        }
        // 输出新的键值对，注意要将java字符串转换成hadoop的text类型
        context.write(key, new Text(integers.toString()));
    }
}

创建了词频统计归并器之后，我们一定要告知词频统计驱动器类

修改词频统计驱动器类

设置词频统计的Reducer类及其输出键类型和输出值类型（Text，Text）

运行词频统计驱动器类，查看结果

运行WordCountDriver类，查看结果

现在我们需要修改词频统计归并器，将每个键（单词）的值迭代器进行累加，得到每个单词出现的总次数。

修改词频统计归并器类

修改词频统计归并器类

package net.at.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * 功能：词频统计归并器
 * 作者：Argonaut
 * 日期：2022年12月14日
 */
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
   
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context)
            throws IOException, InterruptedException {
   
        // 定义键出现次数
        int count = 0;
        // 遍历输入值迭代器
        for (IntWritable value : values) {
   
            count += value.get(); // 其实针对此案例，可用count++来处理
        }
        // 输出新的键值对，注意要将java的int类型转换成hadoop的IntWritable类型
        context.write(key, new IntWritable(count));
    }
}

由于修改了词频统计归并器的输出值类型（由Text类型改成了IntWritable类型），必须在词频统计驱动器类里进行设置

修改词频统计驱动器类

修改归并任务的输出值类型（IntWritable类型）

启动词频统计驱动器类，查看结果

此时，可以看到每个单词出现的次数

（1）MR框架有两个核心组件，分别是Mapper组件和Reducer组件
（2）写一个类，继承Mapper，则变成了一个Mapper组件类
（3）IntWritable, LongWritable，DoubleWritable, Text，NullWritable都是Hadoop序列化类型
（4）Mapper组件将每行的行首偏移量，作为输入key，通过map()传给程序员
（5）Mapper组件会将每行内容，作为输入value，通过map()传给程序员，重点是获取输入value
（6）Mapper的第一个泛型类型对应的是输入key的类型，第二个泛型类型对应的输入value
（7）MR框架所处理的文件可以是本地文件，也可以是HDFS文件
（8）map()被调用几次，取决于文件的行数
（9）通过context进行结果的输出，以输出key和输出value的形式来输出
（10）输出key是由第三个泛型类型决定，输出value是由第四个泛型类型决定
（11）输出结果文件的数据以及行数取决于context.write()方法
（12）Text => String:  value.toString()
（13）String => Text:  new Text(strVar)
（14）LongWritable => long:  key.get()
（15）long => LongWritable: new LongWritable(longVar)

采用多个Reduce做合并

相同key的键值对必须发送同一分区（一个Reduce任务对应一个分区，然后会生成对应的一个结果文件，有多少个Reduce任务，就会有多少个分区，最终就会产生多少个结果文件），否则同一个key最终会出现在不同的结果文件中，那显然不是我们希望看到的结果。

（1）MR默认采用哈希分区HashPartitioner

Mapper输出key.hashcode & Integer.MAX_ VALUE % Reduce任务数量

（2）修改词频统计驱动器类，设置分区数量

转载：https://blog.csdn.net/Argonaut_/article/details/128319564

查看评论

飞道的博客

飞道的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

初探MapReduce

文章目录

MapReduce核心思想

MapReduce编程模型

MapReduce编程实例——词频统计思路

1、Map阶段（映射阶段）

2、Reduce阶段（归并阶段）

MapReduce编程实例——词频统计实现

（1）在虚拟机上创建文本文件

（2）上传文件到HDFS指定目录

创建Maven项目

添加相关依赖

创建日志属性文件

创建词频统计映射器类

Java数据类型与Hadoop数据类型对应关系

创建词频统计驱动器类

运行词频统计驱动器类，查看结果

修改词频统计映射器类

修改词频统计驱动器类

创建词频统计归并器类

修改词频统计驱动器类

运行词频统计驱动器类，查看结果

修改词频统计归并器类

修改词频统计驱动器类

启动词频统计驱动器类，查看结果

采用多个Reduce做合并

（1）MR默认采用哈希分区HashPartitioner

（2）修改词频统计驱动器类，设置分区数量

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场