Spark中如何生成Avro文件

研究spark的目的之一就是要取代MR，目前我司MR的一个典型应用场景即为生成Avro文件，然后加载到HIVE表里，所以如何在Spark中生成Avro文件，就是必然之路了。

我本人由于对java不熟，对hadoop的各个框架也知之寥寥，所以耗费了五六天的时间才搞明白怎么在spark中生成avro文件。其中困难有二，一是网上关于spark中生成avro的资料太少，无论官网还是各种论坛，要么没有讯息，要么就是三言两语，对于我这个菜鸟而言，真是要了老命；二是在spark生成avro的代码中，用到了avro框架和hadoop框架的东西，他们自己底层的引用，又有可能和spark的底层引用冲突，虽然最终解决了问题，但是对于问题的直接原因，还么有弄明白。

对于Java的老手，对于hadoop的生态又比较熟悉的人，估计这个课题一天之内就解决了。这里我不怕大家笑话，将目前在本地能跑成功的代码贴出来，还多请指教。还没有提交到集群中去。

1.代码片段

2.pom文件

3.avro格式和文本

1.代码片段

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

import org.apache.spark.rdd._

import org.apache.hadoop.mapreduce.Job

import org.apache.hadoop.io.NullWritable

import org.apache.avro.Schema

import org.apache.avro.mapred.AvroKey

import org.apache.avro.mapreduce.AvroKeyOutputFormat

import org.apache.avro.mapreduce._

object TextTest extends App {

  System.setProperty("hadoop.home.dir", "D:\\bd\\software\\winutils")

  val sparkConf = new SparkConf().setAppName("AvroTest").setMaster("local[4]")

  val sc = new SparkContext(sparkConf)

  //**************************to generate an avro file based on internal java type

  var li = List("A","A","C","B")

  var lip = sc.parallelize(li, 4)

  var liprdd = lip.map { x => (new AvroKey[String](x),NullWritable.get()) }

  var prdd = new PairRDDFunctions(liprdd)

  val schema = Schema.create(Schema.Type.STRING)

  val job1 = Job.getInstance

  AvroJob.setOutputKeySchema(job1, schema)

  prdd.saveAsNewAPIHadoopFile("D:/002", classOf[AvroKey[String]], classOf[NullWritable],

      classOf[AvroKeyOutputFormat[String]], job1.getConfiguration)

  println("job1 done")

  //**************************to generate an avro file based on avro type

  var av = sc.textFile("D://bdp//NewHuman//Users.txt",5)

  var job = Job.getInstance

  AvroJob.setOutputKeySchema(job, User.getClassSchema)

  val avArray = av.map(x => x.split(" "))

  val userP = avArray.map { x => (new AvroKey[User](User.newBuilder().setFavoriteNumber(Integer.parseInt(x(2))).setName(x(0)).setFavoriteColor(x(1)).build()),NullWritable.get()) }

  var avP = new PairRDDFunctions(userP)

   avP.saveAsNewAPIHadoopFile("D:/003", classOf[AvroKey[User]], classOf[NullWritable],

      classOf[AvroKeyOutputFormat[User]], job.getConfiguration)

  println("job2 done")

}

　　代码中演示了两种类型的场景，一种是内存技术的，一种是外部文件。其中需要注意的是，必须要用AvroJob去设定schema，再者就是只有pairRDD才有saveAsNewAPIHadoop方法，所以其他的RDD必须要转成PairRDD。

　　另外，上面代码中的User类是利用avro自动生成的，需要引用进来。

2.pom文件

 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

     xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

     <modelVersion>4.0.0</modelVersion>

     <dependencies>

         <dependency>

             <groupId>jdk.tools</groupId>

             <artifactId>jdk.tools</artifactId>

             <version>1.7.0_67</version>

             <scope>system</scope>

             <systemPath>${JAVA_HOME}/lib/tools.jar</systemPath>

         </dependency>

         <dependency>

         <groupId>com.google.guava</groupId>

         <artifactId>guava</artifactId>

         <version>16.0.1</version>

     </dependency>

         <dependency>

             <groupId>org.apache.spark</groupId>

             <artifactId>spark-core_2.10</artifactId>

             <version>1.2.2</version>

         </dependency>

         <dependency>

             <groupId>org.scala-lang</groupId>

             <artifactId>scala-library</artifactId>

             <version>2.10.4</version>

         </dependency>

         <dependency>

             <groupId>junit</groupId>

             <artifactId>junit</artifactId>

             <version>3.8.1</version>

             <scope>test</scope>

         </dependency>

         <dependency>

             <groupId>org.apache.kafka</groupId>

             <artifactId>kafka_2.10</artifactId>

             <version>0.8.1.1</version>

         </dependency>

         <dependency>

             <groupId>org.apache.spark</groupId>

             <artifactId>spark-streaming_2.10</artifactId>

             <version>1.2.2</version>

         </dependency>

         <dependency>

             <groupId>org.apache.spark</groupId>

             <artifactId>spark-streaming-kafka_2.10</artifactId>

             <version>1.2.2</version>

         </dependency>

         <dependency>

             <groupId>org.apache.avro</groupId>

             <artifactId>avro</artifactId>

             <version>1.7.4</version>

         </dependency>

         <dependency>

             <groupId>org.apache.avro</groupId>

             <artifactId>avro-mapred</artifactId>

             <version>1.7.4</version>

             <classifier>hadoop2</classifier>

         </dependency>

         <dependency>

             <groupId>org.apache.hadoop</groupId>

             <artifactId>hadoop-common</artifactId>

             <version>2.2.0</version>

         </dependency>

         <dependency>

             <groupId>org.apache.hadoop</groupId>

             <artifactId>hadoop-core</artifactId>

             <version>1.0.4</version>

         </dependency>

     </dependencies>

     <repositories>

         <repository>

             <id>scala-tools.org</id>

             <name>Scala-tools Maven2 Repository</name>

             <url>http://scala-tools.org/repo-releases</url>

         </repository>

     </repositories>

     <pluginRepositories>

         <pluginRepository>

             <id>scala-tools.org</id>

             <name>Scala-tools Maven2 Repository</name>

             <url>http://scala-tools.org/repo-releases</url>

         </pluginRepository>

     </pluginRepositories>

     <build>

         <sourceDirectory>src</sourceDirectory>

         <pluginManagement>

             <plugins>

                 <plugin>

                     <groupId>net.alchim31.maven</groupId>

                     <artifactId>maven-scala-plugin</artifactId>

                     <version>3.2.0</version>

                 </plugin>

                 <plugin>

                     <groupId>org.apache.maven.plugins</groupId>

                     <artifactId>maven-compiler-plugin</artifactId>

                     <version>3.1</version>

                 </plugin>

             </plugins>

         </pluginManagement>

         <plugins>

             <plugin>

                 <groupId>org.scala-tools</groupId>

                 <artifactId>maven-scala-plugin</artifactId>

                 <executions>

                     <execution>

                         <id>scala-compile-first</id>

                         <phase>process-resources</phase>

                         <goals>

                             <goal>add-source</goal>

                             <goal>compile</goal>

                         </goals>

                     </execution>

                 </executions>

             </plugin>

         </plugins>

     </build>

 </project>

这个文件中要注意的是dependency的顺序不能变，由于spark和avro的底层的外部引用可能会冲突。

3.avro格式和文本

avro格式为

{"namespace": "example.avro",

 "type": "record",

 "name": "User",

 "fields": [

     {"name": "name", "type": "string"},

     {"name": "favorite_number",  "type": ["int", "null"]},

     {"name": "favorite_color", "type": ["string", "null"]}

 ]

}

测试用例的文本Users.txt

Josh Green 13
Ken Yellow 6
Xiao Orange 8
Gerry Black 12

Spark中如何生成Avro文件的更多相关文章

flask中如何生成迁移文件
在flask网站开发中,如果直接对数据库进行修改的话,风险比较高,最好的是由迁移文件生成,这样确保了数据的误操作. 在Flask中可以使用Flask-Migrate扩展,来实现数据迁移.并且集成到Fl ...
读取Excel二进制写入DB，并从DB中读取生成Excel文件
namespace SendMailSMSService { class Program { static void Main(string[] args) { var connString = Sq ...
使用IO流将数据库中数据生成一个文件，结果使用Notepad++打开部分数据结尾出现NUL
场景描述: 项目中通过java代码中从数据库中查询一系列数据,对数据做相应处理,然后通过字符流将数据写如一个新生成的文件中,将该项目部署在linux服务器上,最后生成的文件拿到本地使用notepad+ ...
Makefile中自动生成头文件依赖
为什么需要自动生成头文件依赖? 编译单个源文件时,需要获取文件中包含的头文件的信息,但是一般的Makefile不会在规则中明确写明文件依赖的头文件,所以单独修改头文件后,不会导致包含头文件的源文件重新 ...
PHP中的生成XML文件的4种方法（转）
<?xml version="1.0" encoding="utf-8"?> <article> <item> <ti ...
PHP中的生成XML文件的4种方法分享
生成如下XML串 Xml代码 <?xml version="1.0" encoding="utf-8"?> <article> < ...
myeclipse中hibernate生成映射文件
在hibernate中,每个数据表对应的其实是一个实体类,每个实体类有一个对应的hbm.xml配置文件匹配,myeclipse中有个MyEclipse Database Explorer视图,它提供了 ...
Linux的环境中如何生成srw-rw---- 的文件权限？
文件属性 d 开头是: 目录文件. l 开头是: 符号链接(指向另一个文件,类似于瘟下的快捷方式). s 开头是: 套接字文件(sock). b 开头是: 块设备文件,二进制文件. c 开头是: 字符 ...
c++中.dll与.lib文件的生成与使用的详解
两种库: • 包含了函数所在的DLL文件和文件中函数位置的信息(入口),代码由运行时加载在进程空间中的DLL提供,称为动态链接库dynamic link library.• 包含函数代码本身,在编译时 ...

随机推荐

<<学会提问>>第一章学习笔记
中国应不应该现在取消死刑? 中医是不是伪科学? 读书无用论? 集体主义和团队精神? 欧洲难民危机,你是支持接收难民,还是反对? 欧洲白左是不是幼稚圣母,抑或是右派种族歧视,顽固保守? 如何看待&quo ...
docker搭建基于percona-xtradb-cluster方案的mysql集群
一.部署环境序号 hostname ip 备注 1 manager107 10.0.3.107 centos7;3.10.0-957.1.3.el7.x86_64 2 worker68 10.0.3 ...
路由器基础配置之广播多路访问链路上的ospf
我们将以上面的拓扑图进行实验,因为是要以不断广播的形式进行ospf,所有中间加了一个集线器,这种ospf和前一种不同,路由器之间会在配置好ospf之后选举出一个老大,DR,一个备份,BDR,而其他路由 ...
【ospf-路由过滤】
Docker（二）：Hello World
Docker 安装这里以CentOS7 为例,其他安装教程可以自行通过其他路径了解. Docker 运行在CentOS7 上要求,系统为64位.系统内核版本为3.10以上. Docker 运行在 C ...
用pathon实现计算器功能
实现计算类似公式的计算器程序1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3* ...
怎么修复网站漏洞骑士cms的漏洞修复方案
骑士CMS是国内公司开发的一套开源人才网站系统,使用PHP语言开发以及mysql数据库的架构,2019年1月份被某安全组织检测出漏洞,目前最新版本4.2存在高危网站漏洞,通杀SQL注入漏洞,利用该网站 ...
R语言绘图：ggplot2绘制ROC
使用ggplot2包绘制ROC曲线 rocplot<- function(pred, truth, ...){ predob<- prediction(pred, truth) #打印AU ...
38-JWT 设计解析及定制
可去官网下载Security项目查看源码只需修改 AddJwtBearer中的行为即可 public void ConfigureServices(IServiceCollection servic ...
LOOP AT SCREEN
用法主に.画面の属性を変更させるために使用する. 照会モードでは入力不可とするが入力可能モードでは入力可能とする.ラジオボタンAが選択された場合はラジオボタンBに関連する項目は非表示とするなど. ...

Spark中如何生成Avro文件

Spark中如何生成Avro文件的更多相关文章

随机推荐

热门专题