Spark中分布式使用HanLP（1.7.0)分词示例

HanLP分词，如README中所说，如果没有特殊需求，可以通过maven配置，如果要添加自定义词典，需要下载“依赖jar包和用户字典".

分享某大神的示例经验:

是直接"java xf hanlp-1.6.8-sources.jar" 解压源码，把源码加入工程（依赖本地jar包，有些麻烦，有时候到服务器有找不到jar包的情况)

按照文档操作，在Spark中分词，默认找的是本地目录，所以如果是在driver中分词是没有问题的。但是如果要分布式分词，是要把词典目录放在HDFS上面，因为这样每台机器才可以访问到【参考代码】

最好把新增词典放在首位（没有放在首位好像没有生效).第一次使用时,HanLP会把新增txt文件，生成bin文件，这个过程比较慢。但是只需要跑一次，它会把bin文件写到HDFS路径上面，第二次以后速度就快一些了。

注意到issue中说，只可以在mapPartition中使用

参考scala代码

class HadoopFileIoAdapter extends IIOAdapter {

override def create(path: String): java.io.OutputStream = {

val conf: Configuration = new Configuration()

val fs: FileSystem = FileSystem.get(URI.create(path), conf)

fs.create(new Path(path))

}

override def open(path: String): java.io.InputStream = {

val conf: Configuration = new Configuration()

val fs: FileSystem = FileSystem.get(URI.create(path), conf)

fs.open(new Path(path))

}

def myfuncPerPartition_ ( iter : Iterator [String] ) : Iterator[(Int, mutable.Buffer[String])] = {

println("run in partition")

val keyWordNum = 6

HanLP.Config.IOAdapter = new HadoopFileIoAdapter

val ret = iter.filter(_.split(",",2).length==2)

.map(line=>(line.split(",",2)(1).trim.hashCode, HanLP.extractKeyword(line.split(",",2)(0),keyWordNum)

.map(str=>str.filterNot(stopChar.contains(_))).filter(w=>(w.length>1 || ( w.length==1 && white_single_word.contains(w(0))) ))

.filterNot(stopWords.contains(_)).take(keyWordNum).distinct))

ret

}

//调用

raw_data.repartition(100).mapPartitions(myfuncPerPartition_)

Spark中分布式使用HanLP（1.7.0)分词示例的更多相关文章

Hanlp分词1.7版本在Spark中分布式使用记录
新发布1.7.0版本的hanlp自然语言处理工具包差不多已经有半年时间了,最近也是一直在整理这个新版本hanlp分词工具的相关内容.不过按照当前的整理进度,还需要一段时间再给大家详细分享整理的内容.昨 ...
Spark中的编程模型
1. Spark中的基本概念 Application:基于Spark的用户程序,包含了一个driver program和集群中多个executor. Driver Program:运行Applicat ...
Spark MLBase分布式机器学习系统入门：以MLlib实现Kmeans聚类算法
1.什么是MLBaseMLBase是Spark生态圈的一部分,专注于机器学习,包含三个组件:MLlib.MLI.ML Optimizer. ML Optimizer: This layer aims ...
Spark中的键值对操作-scala
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
Spark中的键值对操作
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
spark 中的RDD编程 -以下基于Java api
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ...
5.spark弹性分布式数据集
弹性分布式数据集 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性分布式数据集 ...
解决spark中遇到的数据倾斜问题
一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败. 二. 数据倾斜的原因常见于各种shuffle操作,例如reduceByKey ...
在 Spark 中使用 IPython Notebook
本文是从 IPython Notebook 转化而来,效果没有本来那么好. 主要为体验 IPython Notebook.至于题目,改成<在 IPython Notebook 中使用 Spark ...

随机推荐

cookbook 11.1 在文本控制台中显示进度条
任务: 在进行长时间操作时,向用户显示一个"进度指示条". 解决方案: #coding=utf-8 import sys class progressbar(object): de ...
<% 拼写页面
js中 function udSelect(obj){ var val = $("#"+obj.id).val(); $("select[cd="+obj.id ...
LeetCode 82. 删除排序链表中的重复元素 II（Remove Duplicates from Sorted List II）
题目描述给定一个排序链表,删除所有含有重复数字的节点,只保留原始链表中没有重复出现的数字. 示例 1: 输入: 1->2->3->3->4->4->5 输出: ...
php下intval()和(int)转换使用与区别
没啥区别,一般用(int),另外还有 float, string, array 等 intval()而言,如果参数是字符串,则返回字符串中第一个不是数字的字符之前的数字串所代表的整数值.如果字符串第一 ...
python函数(一)
今天记一下学到的python函数相关知识. 目录: 1.函数简介 2.函数定义 3.函数参数第一部分:函数简介我们在编程过程中往往会碰到这样的事情-----很多地方都用到了相同的一段代码.虽 ...
yum源问题
配置本地yum源 1.使用工具将iso文件上传到操作系统,或者直接挂载iso文件 2.配置yum #cd /etc/yum.repos.d/ 删除多余的repo文件 # vi /etc/yum.rep ...
Request.Params用法,后台接收httpget参数
使用Request.Params["id"]来获取参数是一种比较有效的途径. request.params其实是一个集合,它依次包括request.querystring.requ ...
LC 406. Queue Reconstruction by Height
Suppose you have a random list of people standing in a queue. Each person is described by a pair of ...
GitHub：Youtube
ylbtech-GitHub:Youtube 1.返回顶部 2.返回顶部 3.返回顶部 4.返回顶部 5.返回顶部 1. https://github.com/youtube 2. ...
struts数据回显
数据回显,必须要用struts标签! Action中: // 进入修改页面 public String viewUpdate() { // 模拟一个对象(先获取一个id,再根据id调用service查 ...

Spark中分布式使用HanLP（1.7.0)分词示例

Spark中分布式使用HanLP（1.7.0)分词示例的更多相关文章

随机推荐

热门专题