spark 中文编码处理

日志的格式是GBK编码的，而hadoop上的编码是用UTF-8写死的，导致最终输出乱码。

研究了下Java的编码问题。

网上其实对spark输入文件是GBK编码有现成的解决方案，具体代码如下

import org.apache.hadoop.io.LongWritable

import org.apache.hadoop.io.Text

import org.apache.hadoop.mapred.TextInputFormat

rdd = ctx.hadoopFile(file_list, classOf[TextInputFormat],

            classOf[LongWritable], classOf[Text]).map(

            pair => new String(pair._2.getBytes, , pair._2.getLength, "GBK"))

这种想法的来源是基于

public static Text transformTextToUTF8(Text text, String encoding) {

    String value = null;

    try {

    value = new String(text.getBytes(), , text.getLength(), encoding);

    } catch (UnsupportedEncodingException e) {

    e.printStackTrace();

    }

    return new Text(value);

}

但这种方法还有一个问题，

大家都知道gbk是2~3个字节编码的。如果日志中按照直接截断，导致按照gbk读取文件的时候，将后面的分隔符\t一并读取了，导致按照\t split的时候，字段的个数不对（或者说顺序错位了）。

这个时候，需要找到一种单字节的解析方案，即 ISO-8859-1编码。代码如下

rdd = ctx.hadoopFile(file_list, classOf[TextInputFormat],

            classOf[LongWritable], classOf[Text]).map(

            pair => new String(pair._2.getBytes, , pair._2.getLength, "ISO-8859-1"))

但这又带来了一个问题，即输出的结果（按照UTF-8存储）是乱码，不可用。

如果我们换一种思路来考虑这个问题，Java或scala中如何将一个gbk文件转换为UTF8？网上有很多的现成的代码，具体到我们的场景，以行为单位处理的话，示例代码如下

public class Encoding {

    private static String kISOEncoding = "ISO-8859-1";

    private static String kGBKEncoding = "GBK";

    private static String kUTF8Encoding = "UTF-8";

    public static void main(String[] args) throws UnsupportedEncodingException {

        try {

            File out_file = new File(args[1]);

            Writer out = new BufferedWriter(new OutputStreamWriter(

                         new FileOutputStream(out_file), kUTF8Encoding));

            List<String> lines = Files.readAllLines(Paths.get(args[0]), Charset.forName(kGBKEncoding));

            for (String line : lines) {

                out.append(line).append("\n");

            }

            out.flush();

            out.close();

        } catch (IOException e) {

            System.out.println(e);

        }

    }

}

如上的代码给了我们一个启示，即在写入文件的时候，系统自动进行了编码的转换，我们没必要对行进行单独的直接转换处理。

通过查询资料，Java中字符编码是内部编码，即字节流按照编码转化为String。

所谓结合以上两点认识，我们模拟在spark上以ISO-8859-1

打开文件和以UTF-8写入文件的过程，发现只需要将其强制转换为GBK的string即可，最终得到的文件以UTF-8打开不是乱码，具体代码如下。

public class Encoding {

    private static String kISOEncoding = "ISO-8859-1";

    private static String kGBKEncoding = "GBK";

    private static String kUTF8Encoding = "UTF-8";

    public static void main(String[] args) throws UnsupportedEncodingException {

        try {

            File out_file = new File(args[1]);

            Writer out = new BufferedWriter(new OutputStreamWriter(

                         new FileOutputStream(out_file), kUTF8Encoding));

            List<String> lines = Files.readAllLines(Paths.get(args[0]), Charset.forName(kISOEncoding));

            for (String line : lines) {

                String gbk_str = new String(line.getBytes(kISOEncoding), kGBKEncoding);

                out.append(gbk_str).append("\n");

            }

            out.flush();

            out.close();

        } catch (IOException e) {

            System.out.println(e);

        }

    }

}

完美的解决了。。。花费了一个工作日解决才解决的问题，对Java还是不够熟练啊。

总结出来，希望对大家有用。

总结

1. 要举一反三

2. 学会google，最近我就指望着它活着了。

spark 中文编码处理的更多相关文章

基于spark的plsa实现
PLSA.py # coding:utf8 from pyspark import SparkContext from pyspark import RDD import numpy as np fr ...
Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
Spark RDD 核心总结
摘要: 1.RDD的五大属性 1.1 partitions(分区) 1.2 partitioner(分区方法) 1.3 dependencies(依赖关系) 1.4 compute(获取分区迭代列表) ...
spark处理大规模语料库统计词汇
最近迷上了spark,写一个专门处理语料库生成词库的项目拿来练练手, github地址:https://github.com/LiuRoy/spark_splitter.代码实现参考wordmaker ...
Hive on Spark安装配置详解（都是坑啊）
个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介本文主要记录如何安装配置Hive on Sp ...
Spark踩坑记——数据库（Hbase+Mysql）
[TOC] 前言在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值.最近一个实时消费者处理任务,在使用spark streami ...
Spark踩坑记——初试
[TOC] Spark简介整体认识 Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apach ...
Spark读写Hbase的二种方式对比
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处一.传统方式这种方式就是常用的TableInputFormat和TableOutputForm ...
（资源整理）带你入门Spark
一.Spark简介: 以下是百度百科对Spark的介绍: Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方 ...

随机推荐

Java中的深拷贝(深复制)和浅拷贝(浅复制)
深拷贝(深复制)和浅拷贝(浅复制)是两个比较通用的概念,尤其在C++语言中,若不弄懂,则会在delete的时候出问题,但是我们在这幸好用的是Java.虽然java自动管理对象的回收,但对于深拷贝(深复 ...
http://www.cnblogs.com/peida/archive/2013/05/31/3070790.html深入理解Java：SimpleDateFormat安全的时间格式化
http://www.cnblogs.com/peida/archive/2013/05/31/3070790.html
人生苦短之我用Python篇（基础）
Python简介 Python,是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明,第一个公开发行版发行于1991年. Python是纯粹的自由软件, ...
Amazon 发送个人文档无回复
Amazon 个人文档问题注意注意详情见:[使用您的[发送至Kindle]电子邮箱] 重点提示在电子邮件主题中输入"Convert"以将您的文档转换为Kindle格式,然后再 ...
Sphinx 匹配模式
所谓匹配模式就是用户如何根据关键字在索引库中查找相关的记录. SPH_MATCH_ALL, 匹配所有查询分词(默认模式); 如“手机配件”,不匹配 “我有一部手机”,但可以匹配 “手机坏了,需要找配件 ...
Hihocoder 1128 二分·二分查找
二分·二分查找时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 Nettle最近在玩<艦これ>,因此Nettle收集了很多很多的船(这里我们假设Nettle氪 ...
Hibernate HQL查询（2）
hql是面向对象查询,格式:from + 类名 + 类对象 + where + 对象的属性 sql是面向数据库表查询,格式:from + 表名 + where + 表中字段 1.查询一般在Hiber ...
SharedPreference作用及数据操作模式
SharedPreference是Android平台上的一个轻量级的存储类,用来保存应用的一些常用配制,比如Activity状态,Activtiy暂停,将此Activity的状态保存到SharedPr ...
【java规则引擎】drools6.5.0版本api简介
在有些术语使用的时候,我有时候会用KIE项目.KIE引擎或者Drools项目.Drools引擎,大家应该理解KIE是Drools等项目的一个统称,所以在大多数情况下KIE或者特指Drools都是差不多 ...
fn project k8s 集成
具体部署还是比较简单的,以下为官方参考,只是有一个service type 为 loadBlancer 实际使用需要修改为NodePort Prerequisite 1: working Kuber ...

spark 中文编码处理

spark 中文编码处理的更多相关文章

随机推荐

热门专题