请选择 进入手机版 | 继续访问电脑版

MapReduce去重复数据打包服务器运行随堂笔记202111

[复制链接]
余峻 发表于 2021-1-2 17:44:46 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
一、 MapReduce去重复数据

案例:创建一个文件 1.txt
A 1
a 2
b 23
a 2
c 34
输出效果:
A 1
a 2
b 23
c 34
二、 准备工作


  • 1.txt
  • 将1.txt(本地文件)上传到hdfs文件系统中【hafs dfs –put 】
  • 将idea步调打jar包
  • 执行hadoop jar包的下令【hadoop jar jar_name class_name hdfs文件 输出路径】
三、 细节


  • Mavan 本地堆栈

  • Jar包
四、 代码

  1. import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.io.IOException;public class DuplicationMapReduce {  /*     MyMapper class  extends Mapper     MyReducer class  extends Reducer    */    public static class MyMapper extends Mapper {      private static Text line = new Text();    @Override    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {     /* super.map(key, value, context);*/      line = value;      context.write(line,new Text(""));    }  }    public static class MyReducer extends Reducer {      @Override      protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {        /*super.reduce(key, values, context);*/        context.write(key,new Text(""));      }    }    public static void main(String[] args) throws IOException{      Job job = Job.getInstance(new Configuration());      job.setJarByClass(DuplicationMapReduce.class);// className      job.setMapperClass(MyMapper.class);      job.setReducerClass(MyReducer.class);      job.setOutputKeyClass(Text.class);      job.setOutputValueClass(Text.class);      FileInputFormat.setInputPaths(job,new Path(args[0]));      FileOutputFormat.setOutputPath(job,new Path(args[1]));      try{        Boolean result = job.waitForCompletion(true);        System.exit(result?0:1);      }catch(Exception e){        e.printStackTrace();      }    }}
复制代码
五 、上传jar 包


六、 测试


hdfs dfs –put 1.txt /

hadoop jar Projectwx-1.0-SNAPSHOT.jar DuplicationMapReduce /1.txt /2021

hdfs dfs -cat /2021/part-r-00000


来源:https://blog.csdn.net/JsonWuxin/article/details/112061191
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

发布主题

专注素材教程免费分享
全国免费热线电话

18768367769

周一至周日9:00-23:00

反馈建议

27428564@qq.com 在线QQ咨询

扫描二维码关注我们

Powered by Discuz! X3.4© 2001-2013 Comsenz Inc.( 蜀ICP备2021001884号-1 )