Spark读取HDFS中的Zip文件
1. 任务背景
近日有个项目任务,要求读取压缩在Zip中的百科HTML文件,经分析发现,提供的Zip文件有如下特点(=>指代对应解决方案):
(1) 压缩为分卷文件 => 只需将解压缩在同一目录中的一个分卷zip即可解压缩出整个文件
(2) 压缩文件中又包含不同的两个文件夹,且各包含n个小zip文件,小zip文件中包含目录及对应的HTML文本文件
采用第一方案:依次解压缩各小zip文件,存放在一个目录中,然后上传到HDFS中
存在问题:每个小zip都包含上万个小文件,按照第一方案解压缩,耗费的时间太太太多了
(3) 解析的zip存在多文件的情况
(4) 数据总量共计50W
2. 优化方案
直接上传小zip文件,然后让Spark直接从zip文件中读取HTML文本,再使用jsoup解析,并存储至elasticsearch中。
实现过程中有一处需要注意! => 解析zip会遍历的ZipEntry,会识别文件夹和文件夹下的文件,即文件夹和文件在ZipEntry中被当成同类对象来对待。
例1:本地解析zip压缩文件demo
import java.io.{BufferedInputStream, BufferedReader, FileInputStream, InputStreamReader}
import java.util.zip.{ZipFile, ZipInputStream}
import net.sf.json.JSONObject
import org.jsoup.Jsoup
import scala.collection.mutable
object Test {
def testZip(): Unit = {
val baseDir = "part2/"
val path = s"$baseDir\\06.zip"
val zf = new ZipFile(path)
val in = new BufferedInputStream(new FileInputStream(path))
val zin = new ZipInputStream(in)
var zipEn = zin.getNextEntry
var count = 0
try {
while (zipEn != null) {
if (!zipEn.isDirectory) {
val buff = new BufferedReader(new InputStreamReader(zf.getInputStream(zipEn)))
val sb = new StringBuilder()
var line = buff.readLine()
while (line != null) {
count = count + 1
if (line.nonEmpty) {
sb.append(line.trim)
}
line = buff.readLine()
}
val id = zipEn.getName.substring(zipEn.getName.indexOf("/") + 1, zipEn.getName.indexOf("."))
val doc = Jsoup.parse(sb.toString())
val title = doc.select(".lemmaWgt-lemmaTitle-title h1").text()
val sb1 = new mutable.StringBuilder()
val eles = doc.select(".para")
for (i <- 0 until eles.size()) {
sb1.append(eles.get(i).text().trim).append("\t")
}
val json = new JSONObject()
json.put("id", id)
json.put("title", title)
json.put("content", sb1.toString().trim)
println(json)
buff.close()
}
zipEn = zin.getNextEntry
}
zin.closeEntry()
} catch {
case _ =>
}
println(count)
}
}
例2:Spark读取HDFS中的含有多文件的zip文件
def parseBaike(): Unit ={
val baseDir = "/work/ws/temp/baike"
val sc = new SparkContext(new SparkConf().setAppName("parseBaike"))
val rdd = sc.binaryFiles(s"$baseDir/data/*.zip", 40)
.flatMap{
case (zipFilePath: String, content: PortableDataStream) => {
val zis = new ZipInputStream(content.open())
Stream.continually(zis.getNextEntry)
.takeWhile(_ != null)
.flatMap(zipEn => {
if(zipEn.isDirectory) None
else{
// 基于文件名获取百科词条的id信息
val id = zipEn.getName.substring(zipEn.getName.indexOf("/")+1, zipEn.getName.indexOf("."))
val html = scala.io.Source.fromInputStream(zis, "UTF-8").getLines.mkString("")
if(html.nonEmpty){
val doc = Jsoup.parse(html)
// 解析百科中的词条名称
val title = doc.select(".lemmaWgt-lemmaTitle-title h1").text()
// 获取词条HTML中的全部正文内容
val sb = new mutable.StringBuilder()
val eles = doc.select(".para")
for(i <- 0 until eles.size()){
sb.append(eles.get(i).text().trim).append("\t")
}
if(title.trim.nonEmpty && sb.toString.trim.nonEmpty){
val json = new JSONObject()
json.put("id", id)
json.put("title", title)
json.put("content", sb.toString().trim)
Some(json)
}else None
}else None
}
})
}
}
rdd.cache()
rdd.saveAsTextFile(HDFSFileUtil.clean(s"$baseDir/result/json"))
rdd.foreach(f => {
// 保存在Es中
ESHelper.saveToEs("baike", "baike", f, "id")
})
rdd.unpersist()
sc.stop()
}
注意:如上代码仅供参考,并隐去了部分业务相关代码,如HDFS和Es工具类,如若需要,可留言沟通交流!
3. 参考
(1) https://stackoverflow.com/questions/28569788/how-to-open-stream-zip-files-through-spark
Spark读取HDFS中的Zip文件的更多相关文章
- Spark读取HDFS文件,任务本地化(NODE_LOCAL)
Spark也有数据本地化的概念(Data Locality),这和MapReduce的Local Task差不多,如果读取HDFS文件,Spark则会根据数据的存储位置,分配离数据存储最近的Execu ...
- python读取hdfs上的parquet文件方式
在使用python做大数据和机器学习处理过程中,首先需要读取hdfs数据,对于常用格式数据一般比较容易读取,parquet略微特殊.从hdfs上使用python获取parquet格式数据的方法(当然也 ...
- 基于Python——实现解压文件夹中的.zip文件
[背景]当一个文件夹里存好好多.zip文件需要解压时,手动一个个解压再给文件重命名是一件很麻烦的事情,基于此,今天介绍一种使用python实现批量解压文件夹中的压缩文件并给文件重命名的方法—— [代码 ...
- 点滴积累【C#】---C#实现上传word以流形式保存到数据库和读取数据库中的word文件。
本文修改来源:http://www.cnblogs.com/zmgdpg/archive/2005/03/31/129758.html 效果: 数据库: 思路: 首先保存word到数据库:获取上传文件 ...
- Spark读取HDFS文件,文件格式为GB2312,转换为UTF-8
package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.hadoop.conf.Configur ...
- spark读取hdfs上的文件和写入数据到hdfs上面
def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.set("spark.master" ...
- Spark 读取HDFS csv文件并写入hive
package com.grady import org.apache.spark.SparkConf import org.apache.spark.sql.{Row, SaveMode, Spar ...
- Spark读取Hbase中的数据
大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1).调用parallelize函数直接从集合中获取数据,并存入RDD中:Java版本如下: JavaRDD<Inte ...
- spark读取hdfs数据本地性异常
在分布式计算中,为了提高计算速度,数据本地性是其中重要的一环. 不过有时候它同样也会带来一些问题. 一.问题描述 在分布式计算中,大多数情况下要做到移动计算而非移动数据,所以数据本地性尤其重要,因此我 ...
随机推荐
- Git 分支开发规范
您必须知道的 Git 分支开发规范 Git 是目前最流行的源代码管理工具. 为规范开发,保持代码提交记录以及 git 分支结构清晰,方便后续维护,现规范 git 的相关操作. 分支管理 分支命名 ma ...
- UVA10900 So you want to be a 2n-aire?
So you want to be a 2n-aire? PDF 在一个电视娱乐节目中,你一开始有1元钱.主持人会问你n个问题,每次你听到问题后有两个选择:一是放弃回答该问题,退出游戏,拿走奖金:二是 ...
- 自己写的一个用于往文件中插入字符串及空格的bat
@echo off echo pleas input the filename:set /p file= :while rem set j=0 非得写这儿 写下面:check 上面不行 希望大神指点s ...
- 在js中获取 input checkbox里选中的多个值
思路:利用name属性值获取checkbox对象,然后循环判断checked属性(true表示被选中,false表示未选中).下面进行实例演示: 1.html中展示: <input type=& ...
- Java中的集合Collections工具类(六)
操作集合的工具类Collections Java提供了一个操作Set.List和Map等集合的工具类:Collections,该工具类里提供了大量方法对集合元素进行排序.查询和修改等操作,还提供了将集 ...
- BZOJ 3630: [JLOI2014]镜面通道 (网络流 +计算几何)
水能流过的地方光都能达到 呵呵.jpg 那就是裸的最小割(割开上边界和下边界)了- 判矩形和圆相交的时候就用圆心对矩形求一次点到矩形的最近距离(类似KD树的预估函数). CODE #include & ...
- 小tip: 使用SVG寥寥数行实现圆环loading进度效果(转载)
设计师设计了一个图片上传圆环loading进度效果.如下截图: 首先,CSS3是可以实现的,以前写过一篇转大饼的文章:“CSS3实现鸡蛋饼饼状图loading等待转转转”.原理跟这个一模一样,两个半区 ...
- 数据结构实验之链表六:有序链表的建立(SDUT 2121)
#include <bits/stdc++.h> using namespace std; struct node { int data; struct node *next; }; in ...
- kubeadm进行K8S集群部署
环境说明: 节点类型 主机名 管理ip master master 192.168.2.10 nodes node1 192.168.2.1 ...
- FutureTask用法及解析
1 FutureTask概念 FutureTask一个可取消的异步计算,FutureTask 实现了Future的基本方法,提空 start cancel 操作,可以查询计算是否已经完成,并且可以获取 ...