Spark读取HDFS文件，文件格式为GB2312，转换为UTF-8

package iie.udps.example.operator.spark;

import scala.Tuple2;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import java.io.UnsupportedEncodingException;

import java.nio.charset.Charset;

import java.util.Arrays;

import java.util.regex.Pattern;

/**

 * 利用Spark框架读取HDFS文件，文件格式为GB2312，转换为UTF-8，实现WordCount示例

 *

 * 执行命令：spark-submit --class iie.hadoop.hcatalog.TextFileSparkTest --master

 * yarn-cluster /tmp/sparkTest.jar hdfs://192.168.8.101/test/words

 * hdfs://192.168.8.101/test/spark/out

 *

 *

 */

public final class SparkChangeTextCharsetTest {

	private static final Pattern SPACE = Pattern.compile(",");

	@SuppressWarnings("serial")

	public static void main(String[] args) throws Exception {

		if (args.length < 2) {

			System.err.println("Usage: JavaWordCount <file>");

			System.exit(1);

		}

		String inputSparkFile = args[0];

		String outputSparkFile = args[1];

		SparkConf sparkConf = new SparkConf().setAppName("SparkWordCount");

		JavaSparkContext ctx = new JavaSparkContext(sparkConf);

		Configuration conf = new Configuration();

		JavaPairRDD<LongWritable, Text> contents = ctx.newAPIHadoopFile(

				inputSparkFile, TextInputFormat.class, LongWritable.class,

				Text.class, conf);

		JavaRDD<String> lines = contents

				.map(new Function<Tuple2<LongWritable, Text>, String>() {

					public String call(Tuple2<LongWritable, Text> x) {

						String lines = null;

						try {

							lines = new String(x._2().getBytes(), 0, x._2()

									.getLength(), "GB2312");

						} catch (UnsupportedEncodingException e) {

							e.printStackTrace();

						}

						return lines;

					}

				});

		// JavaRDD<String> changeLines = lines

		// .filter(new Function<String, Boolean>() {

		// public Boolean call(String s) {

		// return s.contains("234");

		// }

		// });

		 JavaRDD<String> words = lines

		 .flatMap(new FlatMapFunction<String, String>() {

		 @Override

		 public Iterable<String> call(String s) {

		 return Arrays.asList(SPACE.split(s));

		 }

		 });

		 JavaPairRDD<String, Integer> ones = words

		 .mapToPair(new PairFunction<String, String, Integer>() {

		 @Override

		 public Tuple2<String, Integer> call(String s) {

		 return new Tuple2<String, Integer>(s, 1);

		 }

		 });

		 JavaPairRDD<String, Integer> counts = ones

		 .reduceByKey(new Function2<Integer, Integer, Integer>() {

		 @Override

		 public Integer call(Integer i1, Integer i2) {

		 return i1 + i2;

		 }

		 });

		 counts.map(new Function<Tuple2<String, Integer>, String>() {

		 @Override

		 public String call(Tuple2<String, Integer> arg0) throws Exception {

		 return arg0._1.toUpperCase() + ": " + arg0._2;

		 }

		 }).saveAsTextFile(outputSparkFile);

		ctx.stop();

	}

}

Spark读取HDFS文件，文件格式为GB2312，转换为UTF-8的更多相关文章

Spark读取HDFS文件，任务本地化(NODE_LOCAL)
Spark也有数据本地化的概念(Data Locality),这和MapReduce的Local Task差不多,如果读取HDFS文件,Spark则会根据数据的存储位置,分配离数据存储最近的Execu ...
问题记录：spark读取hdfs文件出错
错误信息: scala> val file = sc.textFile("hdfs://kit-b5:9000/input/README.txt") 13/10/29 16: ...
Spark读取HDFS中的Zip文件
1. 任务背景近日有个项目任务,要求读取压缩在Zip中的百科HTML文件,经分析发现,提供的Zip文件有如下特点(=>指代对应解决方案): (1) 压缩为分卷文件 => 只需将解压缩在同 ...
spark读hdfs文件实现wordcount并将结果存回hdfs
package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.spark.SparkConf; imp ...
记录一次读取hdfs文件时出现的问题java.net.ConnectException: Connection refused
公司的hadoop集群是之前的同事搭建的,我(小白一个)在spark shell中读取hdfs上的文件时,执行以下指令 >>> word=sc.textFile("hdfs ...
大数据学习day20-----spark03-----RDD编程实战案例（1 计算订单分类成交金额，2 将订单信息关联分类信息，并将这些数据存入Hbase中，3 使用Spark读取日志文件，根据Ip地址，查询地址对应的位置信息
1 RDD编程实战案例一数据样例字段说明: 其中cid中1代表手机,2代表家具,3代表服装 1.1 计算订单分类成交金额需求:在给定的订单数据,根据订单的分类ID进行聚合,然后管理订单分类名称, ...
Spark设置自定义的InputFormat读取HDFS文件
本文通过MetaWeblog自动发布,原文及更新链接:https://extendswind.top/posts/technical/problem_spark_reading_hdfs_serial ...
spark读取hdfs上的文件和写入数据到hdfs上面
def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.set("spark.master" ...
spark读取本地文件
/** * Read a text file from HDFS, a local file system (available on all nodes), or any * Hadoop-supp ...

随机推荐

Chrome plug-in 和Extension
"扩展"和"插件",其实都是软件组件的一种形式,Chrome 只不过是把两种类型的组件分别给与了专有名称,一个叫"扩展",另一个叫" ...
CentOS 常用命令大全（2）
系统 # uname -a # 查看内核/操作系统/CPU信息 # head -n 1 /etc/issue # 查看操作系统版本 # cat /proc/cpuinf ...
尽量少用Include
当我们使用EF写查询,尤其是关联到多个表的时候,我们一般习惯使用include关联,但是过多地使用include会带来性能问题.作为替代方法,可以使用多个toList来代替. 改造前:
HTML 中 META的作用
说明: meta是用来在HTML文档中模拟HTTP协议的响应头报文.meta 标签用于网页的<head>与</head>中,meta 标签的用处很多.meta 的属性有两种:n ...
在ASP.NET MVC中使用CKEditor和CkFinder
在你需要使用editor控件的页面头部添加: <head> ... <script type="text/javascript" src="/ckedi ...
Android统计图表MPAndroidChart.
Android统计图表MPAndroidChart MPAndroidChart是在Android平台上开源的第三方统计图表库,可以绘制样式复杂.丰富的各种统计图表,如一般常见的折线图.饼状图.柱状图 ...
Several ports (8005, 8080, 8009) required by Tomcat v7.0 Server at localhost are already in use.
Several ports (8005, 8080, 8009) required by Tomcat v7.0 Server at localhost are already in use. The ...
用C#操作vss、msbuild、reactor
一.命令行凡是支持命令行的工具,都可以通过cmd.exe操作.如下: var p = new Process(); p.StartInfo.FileName = "cmd.exe" ...
java.lang.ExceptionInInitializerError
java.lang.ExceptionInInitializerError at com.csdhsm.compiler.test.DevTest.testReadInput(DevTest.java ...
Android 动画特效
一.渐变动画 AlphaAnimation aa = new AlphaAnimation(0.3f, 1.0f); // fromAlpha , toAlpha aa.setDuration(200 ...

Spark读取HDFS文件，文件格式为GB2312，转换为UTF-8

Spark读取HDFS文件，文件格式为GB2312，转换为UTF-8的更多相关文章

随机推荐

热门专题