Hadoop0.20.2中MapReduce读取gb2312文件出现乱码问题

单位用的是Linux系统的字符编码是gb2312，所以生成的文件都是按照默认编码生成的。给我的文件也都是gb2312的，在hadoop中运行mapreduce出现乱码，在网上查资料说是因为hadoop的文件系统默认用的是utf-8，那么只有两条路可以选，要么改文件的编码格式，要么改在Mapreduce程序中想办法转一下。很显然改文件的编码格式是不现实的，因为客户那边用C++生成的文件千千万万，而且原来的老程序还在不断的生成，要他们改程序涉及到的工作量太大了。所以这能我这边想办法了。

因为Mapreduce涉及到读和写两个操作。首先在Map中读的时候需要使用gb2312的方式去读取文件，然后Reduce中写文件的时候需要以gb2312的方式去写。想想其实如果在Reduce中写的时候不用gb2312的方式去写，那么就用默认的UTF-8去写，原理上只要把这个文件下载下来，拷贝到一个能够识别gb2312文件格式的系统上去，应该看到的不是乱码，这个没有试过。由于操作系统字符编码是gb2312，所以为了生成的文件不是乱码，reduce中写的是时候还是用gb2312的方式去写吧。下面说说具体操作步骤：

1、在Map中以gb2312的方式去读取文件，只需要两行代码转换一下就可以。

String line = value.toString();

line = new String(line .getBytes(), 0, line .length, "gb2312");

2、在reduce中写的时候用gb2312去写，这个时候需要重写一个类，代替原来的TextOutputFormat类。新的类代码如下：

 public class GbkOutputFormat<K, V> extends FileOutputFormat<K, V> {

  protected static class LineRecordWriter<K, V>

    implements RecordWriter<K, V> {

    //写成gbk即可

    private static final String gbk = “gb2312”;

    private static final byte[] newline;

    static {

      try {

        newline = “\n”.getBytes(gbk);

      } catch (UnsupportedEncodingException uee) {

        throw new IllegalArgumentException(“can’t find ” + gbk + ” encoding”);

      }

    }

…

    public LineRecordWriter(DataOutputStream out, String keyValueSeparator) {

      this.out = out;

      try {

        this.keyValueSeparator = keyValueSeparator.getBytes(gbk);

      } catch (UnsupportedEncodingException uee) {

        throw new IllegalArgumentException(“can’t find ” + gbk + ” encoding”);

      }

    }

…

    private void writeObject(Object o) throws IOException {

      if (o instanceof Text) {

             //  Text to = (Text) o;

             //  out.write(to.getBytes(), 0, to.getLength());

            //  } else {

        out.write(o.toString().getBytes(gbk));

      }

    }

 …

}

    然后在mapreduce代码中加入conf1.setOutputFormat(GbkOutputFormat.class)

    即可以gbk格式输出中文。

本文参考：http://blog.csdn.net/zklth/article/details/11829563

Hadoop0.20.2中MapReduce读取gb2312文件出现乱码问题的更多相关文章

关于读取txt文件中文乱码问题
在处理文件的过程中,读取txt文件出现中文乱码.这种情况是由于编码字符不一致导致. public static string ReadFile(string path, string fileName ...
解決BufferedReader读取UTF-8文件中文乱码
解決BufferedReader读取UTF-8文件中文乱码 File rst01 = new File(context.getRealPath("/")+" ...
Python读取 csv文件中文乱码处理
需求:按行解析读取csv文件存入关系型数据库——主要是中文字体解析:遇到的问题:直接解析出来的数据为list形式,而且编码格式为unicode;解决问题:前提了解: 中文编码的规则 —— GB2312 ...
【 D3.js 进阶系列 — 1.2 】读取 CSV 文件时乱码的解决方法
在 D3 中使用 d3.csv 读取 CSV 文件时,有时会出现乱码问题. 怎么解决呢? 1. 乱码问题使用 d3.csv 读取 xxx.csv 文件时.假设 xxx.csv 文件使用的是 UTF- ...
ASP中Utf-8与Gb2312编码转换乱码问题的解决方法页面编码声明
ASP程序在同一个站点中,如果有UTF-8编码的程序,又有GB2312编码的程序时,在浏览UTF-8编码的页面后,再浏览当前网站GB2312的页面,GB2312编码的页面就会出现乱码出现这样的问题是 ...
Java使用ResourceBundle类读取properties文件中文乱码的解决方案
Java使用java.util.ResourceBundle类的方式来读取properties文件时不支持中文,要想支持中文必须将文件设置为ISO-8859-1编码格式,这对于开发工具默认为UTF-8 ...
解決BufferedReader读取UTF-8文件中文乱码(转)
读取txt文件乱码 BufferedReader read = new BufferedReader(new FileReader(new File(filename))); 解决办法: InputS ...
在python中逐行读取大文件
在我们日常工作中,难免会有处理日志文件的时候,当文件小的时候,基本不用当心什么,直接用file.read()或readlines()就可以了,但是如果是将一个10G大小的日志文件读取,即文件大于内存的 ...
【转】MapReduce读取lzo文件
1.读lzo文件需要添加以下代码,并导入lzo相关的jar包 job.setInputFormatClass(LzoTextInputFormat.class); 2.写lzo文件 lzo格式默认是 ...

随机推荐

LTP--linux稳定性测试 linux性能测试 ltp压力测试内核更新稳定性测试
LTP--linux稳定性测试 linux性能测试 ltp压力测试 zhangzj1030关注14人评论33721人阅读2011-12-09 12:07:45 说明:在写这篇文章之前,本人也不曾了 ...
SpringBoot 上传文件如何获取项目工程路径
上传文件时,需要将上传的文件存放于工程路径中,以便前端能够获取文件资源,那如何获取工程路径呢? //获取 SpringBoot 工程中 static 的绝对路径 String serverpath= ...
Serializable_序列化详情
概述 Java 提供了一种对象序列化的机制.用一个字节序列可以表示一个对象,该字节序列包含该对象的数据.对象的类型和对象中存储的属性等信息.字节序列写出到文件之后,相当于文件中持久保存了一个对象的信 ...
Python爬虫-Scrapy框架的工作原理
Scrapy框架工作原理 Scrapy框架架构图 Scrapy框架主要由六大组件组成,分别为: 调度器(Scheduler),下载器(Downler),爬虫(Spiders),中间件(Middwa ...
kubernetes 降本增效标准指南｜理解弹性，应用弹性
弹性伸缩在云计算领域的简述弹性伸缩又称自动伸缩,是云计算场景下一种常见的方法,弹性伸缩可以根据服务器上的负载.按一定的规则.进行弹性的扩缩容服务器. 弹性伸缩在不同场景下的含义: 对于服务运行在自建 ...
Python小白的数学建模课-A1.国赛赛题类型分析
分析赛题类型,才能有的放矢. 评论区留下邮箱地址,送你国奖论文分析『Python小白的数学建模课 @ Youcans』带你从数模小白成为国赛达人. 1. 数模竞赛国赛 A题类型分析年份题目要 ...
centOS 7-Hadoop3.3.0完全分布式部署
本文内容不乏对各大佬的案例借鉴,侵删. 本次实验用到的有虚拟机,Xshell,Hadoop压缩包和jdk压缩包 hadoop111A:192.168.241.111 hadoop222B:192. ...
Go语言基础包之net/http
Go语言基础包之net/http Go语言内置的net/http包十分的优秀,提供了HTTP客户端和服务端的实现. net/http介绍 Go语言内置的net/http包提供了HTTP客户端和服务端的 ...
Step By Step(Lua迭代器和泛型for)
Step By Step(Lua迭代器和泛型for) 1. 迭代器与Closure: 在Lua中,迭代器通常为函数,每调用一次函数,即返回集合中的"下一个"元素.每个迭代器都 ...
java中的Class.forName的作用
Class.forName有什么作用 Class.forName(xxx.xx.xx) 返回的是一个类首先你要明白在java里面任何class都要装载在虚拟机上才能运行.这句话就是装载类用的(和ne ...

Hadoop0.20.2中MapReduce读取gb2312文件出现乱码问题

Hadoop0.20.2中MapReduce读取gb2312文件出现乱码问题的更多相关文章

随机推荐

热门专题