Spark读取HDFS文件，文件格式为GB2312，转换为UTF-8

package iie.udps.example.operator.spark;

import scala.Tuple2;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import java.io.UnsupportedEncodingException;

import java.nio.charset.Charset;

import java.util.Arrays;

import java.util.regex.Pattern;

/**

 * 利用Spark框架读取HDFS文件，文件格式为GB2312，转换为UTF-8，实现WordCount示例

 *

 * 执行命令：spark-submit --class iie.hadoop.hcatalog.TextFileSparkTest --master

 * yarn-cluster /tmp/sparkTest.jar hdfs://192.168.8.101/test/words

 * hdfs://192.168.8.101/test/spark/out

 *

 *

 */

public final class SparkChangeTextCharsetTest {

	private static final Pattern SPACE = Pattern.compile(",");

	@SuppressWarnings("serial")

	public static void main(String[] args) throws Exception {

		if (args.length < 2) {

			System.err.println("Usage: JavaWordCount <file>");

			System.exit(1);

		}

		String inputSparkFile = args[0];

		String outputSparkFile = args[1];

		SparkConf sparkConf = new SparkConf().setAppName("SparkWordCount");

		JavaSparkContext ctx = new JavaSparkContext(sparkConf);

		Configuration conf = new Configuration();

		JavaPairRDD<LongWritable, Text> contents = ctx.newAPIHadoopFile(

				inputSparkFile, TextInputFormat.class, LongWritable.class,

				Text.class, conf);

		JavaRDD<String> lines = contents

				.map(new Function<Tuple2<LongWritable, Text>, String>() {

					public String call(Tuple2<LongWritable, Text> x) {

						String lines = null;

						try {

							lines = new String(x._2().getBytes(), 0, x._2()

									.getLength(), "GB2312");

						} catch (UnsupportedEncodingException e) {

							e.printStackTrace();

						}

						return lines;

					}

				});

		// JavaRDD<String> changeLines = lines

		// .filter(new Function<String, Boolean>() {

		// public Boolean call(String s) {

		// return s.contains("234");

		// }

		// });

		 JavaRDD<String> words = lines

		 .flatMap(new FlatMapFunction<String, String>() {

		 @Override

		 public Iterable<String> call(String s) {

		 return Arrays.asList(SPACE.split(s));

		 }

		 });

		 JavaPairRDD<String, Integer> ones = words

		 .mapToPair(new PairFunction<String, String, Integer>() {

		 @Override

		 public Tuple2<String, Integer> call(String s) {

		 return new Tuple2<String, Integer>(s, 1);

		 }

		 });

		 JavaPairRDD<String, Integer> counts = ones

		 .reduceByKey(new Function2<Integer, Integer, Integer>() {

		 @Override

		 public Integer call(Integer i1, Integer i2) {

		 return i1 + i2;

		 }

		 });

		 counts.map(new Function<Tuple2<String, Integer>, String>() {

		 @Override

		 public String call(Tuple2<String, Integer> arg0) throws Exception {

		 return arg0._1.toUpperCase() + ": " + arg0._2;

		 }

		 }).saveAsTextFile(outputSparkFile);

		ctx.stop();

	}

}

Spark读取HDFS文件，文件格式为GB2312，转换为UTF-8的更多相关文章

Spark读取HDFS文件，任务本地化(NODE_LOCAL)
Spark也有数据本地化的概念(Data Locality),这和MapReduce的Local Task差不多,如果读取HDFS文件,Spark则会根据数据的存储位置,分配离数据存储最近的Execu ...
问题记录：spark读取hdfs文件出错
错误信息: scala> val file = sc.textFile("hdfs://kit-b5:9000/input/README.txt") 13/10/29 16: ...
Spark读取HDFS中的Zip文件
1. 任务背景近日有个项目任务,要求读取压缩在Zip中的百科HTML文件,经分析发现,提供的Zip文件有如下特点(=>指代对应解决方案): (1) 压缩为分卷文件 => 只需将解压缩在同 ...
spark读hdfs文件实现wordcount并将结果存回hdfs
package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.spark.SparkConf; imp ...
记录一次读取hdfs文件时出现的问题java.net.ConnectException: Connection refused
公司的hadoop集群是之前的同事搭建的,我(小白一个)在spark shell中读取hdfs上的文件时,执行以下指令 >>> word=sc.textFile("hdfs ...
大数据学习day20-----spark03-----RDD编程实战案例（1 计算订单分类成交金额，2 将订单信息关联分类信息，并将这些数据存入Hbase中，3 使用Spark读取日志文件，根据Ip地址，查询地址对应的位置信息
1 RDD编程实战案例一数据样例字段说明: 其中cid中1代表手机,2代表家具,3代表服装 1.1 计算订单分类成交金额需求:在给定的订单数据,根据订单的分类ID进行聚合,然后管理订单分类名称, ...
Spark设置自定义的InputFormat读取HDFS文件
本文通过MetaWeblog自动发布,原文及更新链接:https://extendswind.top/posts/technical/problem_spark_reading_hdfs_serial ...
spark读取hdfs上的文件和写入数据到hdfs上面
def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.set("spark.master" ...
spark读取本地文件
/** * Read a text file from HDFS, a local file system (available on all nodes), or any * Hadoop-supp ...

随机推荐

Asp.Net MVC EF各版本区别
2009年發行ASP.NET MVC 1.0版 2010年發行ASP.NET MVC 2.0版,VS2010 2011年發行ASP.NET MVC 3.0版+EF4,需要.Net4.0支持,VS2 ...
windows下捕获dump之Google breakpad_client的理解
breakpad是Google开源的一套跨平台工具,用于dump的处理.很全的一套东西,我这里只简单涉及breakpad客户端,不涉及纯文本符号生成,不涉及dump解析. 一.使用最简单的是使用进程 ...
[转]BeginInvoke和EndInvoke方法浅析
开发语言:C#3．0 IDE:Visual Studio 2008 一.C#线程概述在操作系统中一个进程至少要包含一个线程,然后,在某些时候需要在同一个进程中同时执行多项任务,或是为了提 ...
was7中文redhat6上安装出现中文乱码解决方案
转:http://blog.csdn.net/w1985g/article/details/8789378 在rhel-server-6.1-x86_64上安装WebSphere 7时,安装界面出现中 ...
ruby在线学习
http://tryruby.org/ [Heroku空间] 免费ruby空间
Hduacm—5497
#include <cstring> #include <cstdio> #include <iostream> using namespace std; type ...
c++ 普通高精乘
//第一次提交全错了,太过相信自己了. //给我教训是注意循环后变量的值,和pascal不一样. //就不贴错误代码了. //codevs3118 高精度练习之除法 #include<cstdi ...
Android Phonebook编写联系人UI加载及联系人保存流程（五）
2014-01-07 10:46:30 将百度空间里的东西移过来. 在前面的文章中我们分析了UI的加载,其中提到了一个重要的对象:RawContactDeltaList mState,我前面说过这个对 ...
数据结构-Hash表
实现: #ifndef SEPARATE_CHAINING_H #define SEPARATE_CHAINING_H #include <vector> #include <lis ...
js对象的定义及处理
一,概述在Java语言中,我们可以定义自己的类,并根据这些类创建对象来使用,在Javascript中,我们也可以定义自己的类,例如定义User类.Hashtable类等等. 目前在Javascrip ...

Spark读取HDFS文件，文件格式为GB2312，转换为UTF-8

Spark读取HDFS文件，文件格式为GB2312，转换为UTF-8的更多相关文章

随机推荐

热门专题