1.spark mongo 读取

val rdd = MongoSpark.builder().sparkSession(spark).pipeline(Seq(`match`(regex("path", java.util.regex.Pattern compile r.toString)))).build.toRDD()

2.error code 6

在spark读数据时容易遇到，mongos连接池已满，操作被拒绝，需要修改spark中的connectionperhost

lazy val mongo = new MongoClient("192.168.12.161", MongoClientOptions.builder().connectionsPerHost(8).build())

 然后找管理员查看Mongos当前已连接数，在过多时需要进行重启mongos ./bin/mongostat --host 192.168.12.161
PS: 修改MongoDB机器的打开文件数会明显改善此问题出现的频次，甚至不需要修改connectionsPerHost即可解决问题。修改/etc/security/limits.conf中的nofile即可，mongoDB3.4之后的版本连接数默认是65536，不用修改连接数限制。

3.error code -5

driver出现错误，任务终止

Caused by: com.mongodb.MongoCursorNotFoundException: Query failed with error code - and error message 'Cursor 2639909050433532364 not found on server 192.168.12.161:27017' on server 192.168.12.161:

at com.mongodb.operation.QueryHelper.translateCommandException(QueryHelper.java:)

at com.mongodb.operation.QueryBatchCursor.getMore(QueryBatchCursor.java:)

at com.mongodb.operation.QueryBatchCursor.hasNext(QueryBatchCursor.java:)

at com.mongodb.MongoBatchCursorAdapter.hasNext(MongoBatchCursorAdapter.java:)

at scala.collection.convert.Wrappers$JIteratorWrapper.hasNext(Wrappers.scala:)

at scala.collection.Iterator$class.foreach(Iterator.scala:)

at scala.collection.AbstractIterator.foreach(Iterator.scala:)

at org.apache.spark.rdd.RDD$$anonfun$foreach$$$anonfun$apply$.apply(RDD.scala:)

at org.apache.spark.rdd.RDD$$anonfun$foreach$$$anonfun$apply$.apply(RDD.scala:)

at org.apache.spark.SparkContext$$anonfun$runJob$.apply(SparkContext.scala:)

at org.apache.spark.SparkContext$$anonfun$runJob$.apply(SparkContext.scala:)

at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:)

at org.apache.spark.scheduler.Task.run(Task.scala:)

at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:)

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:)

at java.lang.Thread.run(Thread.java:)



cursor超时，按照官方说法为cursor10分钟未使用,查看spark日志发现是第433个分片出现错误

17/07/17 19:37:31 ERROR Executor: Exception in task 433.0 in stage 0.0 (TID 433)

com.mongodb.MongoCursorNotFoundException: Query failed with error code -5 and error message 'Cursor 2639909048849185072 not found on server 192.168.12.161:27017' on server 192.168.12.161:27017



可以看到是19：37出现的错误，这个task启动时间为：

17/07/17 19:14:23 INFO CoarseGrainedExecutorBackend: Got assigned task 433

17/07/17 19:14:23 INFO Executor: Running task 433.0 in stage 0.0 (TID 433)

可以确定的是，确实超过10分钟了，申请完cursor之后并没有开始执行，而是等到10分钟之后才开始进行操作，目前未发现原因。

查看日志发现中间有一些文件访问被拒绝的错误，：ulimit -a 看只有1024，

于是修改/etc/security/limits.conf:

*       soft    nofile  40960

*       hard    nofile  40960

修改之后不设置connectionsPerHost也不会出现访问被拒绝的错误或者error code 6，但仍旧会出现error code -5

在最新一次运行中，第452、1940、2005等分片出现错误，而且分片处于不同的executor上，也就是说此错误和计算节点无关。


在stackoverflow上发现java driver的解决方案，java里可以使用 db.find().nocursorTimeout()来解决，但需要记得关闭cursor，不然mongos会一直占用额外内存。

去github上查看mongo-spark-connector的源代码发现：

MongoRDD的compute方法：

override def compute(split: Partition, context: TaskContext): Iterator[D] = {

val client = connector.value.acquireClient()

val cursor = getCursor(client, split.asInstanceOf[MongoPartition])

context.addTaskCompletionListener((ctx: TaskContext) => {

  log.debug("Task completed closing the MongoDB cursor")

  Try(cursor.close())

  connector.value.releaseClient(client)

})

cursor.asScala

}



getCursor的函数：

private def getCursor(client: MongoClient, partition: MongoPartition)(implicit ct: ClassTag[D]): MongoCursor[D] = {

val partitionPipeline: Seq[BsonDocument] = readConfig.partitioner match {

  case MongoSinglePartitioner => pipeline

  case _                      => new BsonDocument("$match", partition.queryBounds) +: pipeline

}

client.getDatabase(readConfig.databaseName)

  .getCollection[D](readConfig.collectionName, classTagToClassOf(ct))

  .withReadConcern(readConfig.readConcern)

  .withReadPreference(readConfig.readPreference)

  .aggregate(partitionPipeline.asJava)

  .allowDiskUse(true)

  .iterator

}



对于connector来讲，每个分片创建一个Mongoclient，获取database，添加聚合数据，由于我程序中执行完toRDD操作之后直接进行了foreach，按理说不会出现获取了cursor但是未使用的状况。考虑到mongos的执行过程：一次操作获取每个shard上的一个cursor，最后把数据汇总起来返回结果。

开始怀疑是不是因为某一个节点上pipeline执行equal的操作过慢导致cursor被拒绝，后来发现即使不加pipeline也会出现问题。

后来排查是不是Mongodb并发读数据有问题，后来发现执行MongoSpark.load.toRDD.count并没有出错，而且访问速度也较有处理过程的快得多，于是决定先进行cache，然后count获取全量数据cache在本地，再对此rdd进行操作。解决问题的原理就是通过一个简单的count程序将所需要的数据全部读到分片本地，使用cache方法缓存起来，这样后面处理此RDD时就用的本地缓存数据，而不会因为处理时间过长出现curser超时的问题。

因此推荐解决方案如下：

1）单机条件下Java driver 使用 db.find().nocursorTimeout()来解决，但需要记得关闭cursor。
2) Spark环境下在代码真正的处理逻辑之前加上如下两句：

       rdd.cache()

       println(rdd.count())

先把读取数据cache一下，然后使用一个简单的Action操作把数据真正缓存起来

另一种可以解决但是不用每次都修改Spark代码逻辑的方法是：

先修改MongoDB的代码，把AggregateIterable加入noCursorTimeout方法，然后修改mongo-spark-connector，使用此方法。是不是很6？

因为AggregateIterable虽然和FindIterable都是获取数据的方式，但是noCursorTimeout是FindIterable的特有方法，但是又不能把connector的Aggregate方法改成Find方法，因为Find不能加Pipeline，毕竟还得加查询条件不是~

不要看没用的

4. error code 13127

Query failed with error code 13127 and error message 'cursor id 206776738953 didn't exist on server.' on server 192.168.12.161:27017

和-5错误原因是一样的，同样的解决方案。

5.spark resource引用

试了好几种方法，最稳的还是把resource拷贝到每台机器并指定绝对路径。。

Spark With Mongodb 实现方法及error code -5, 6, 13127解决方案的更多相关文章

MySQL安装过程中对The error code is 2203的解决方案
MySQL安装过程中对The error code is 2203的解决方案 1.问题描述 Windows系统安装MySQL遇到The error code is 2203.,具体描述如下 The i ...
SQLyog恢复数据库报错解决方法【Error Code: 2006 - MySQL server has gone away】
https://blog.csdn.net/niqinwen/article/details/8693044 导入数据库的时候 SQLyog 报错了 Error Code: 2006 – MySQL ...
MySQL Workbench “Error Code: 1175” 的解决方法
转自:http://www.linuxidc.com/Linux/2012-04/59333.htm 当用MySQL Workbench进行数据库的批量更新时,执行一个语句会碰到以下错误提示: Err ...
python3 中mlpy模块安装出现 failed with error code 1的决绝办法（其他模块也可用本方法）
在python3 中安装其它模块时经常出现 failed with error code 1等状况,使的安装无法进行.而解决这个问题又非常麻烦. 接下来以mlpy为例,介绍一种解决此类安装问题的办法. ...
window10 安装出现the error code is 2503错误的解决方法
window10 安装出现the error code is 2503错误的解决方法: 设置 C:\WINDOWS\TEMP的权限
【经验】Windows7、8、8.1 MSI安装错误Error Code 2502 & 2503 解决方法
[因] 今天升级TortoiseSVN到1.8.8,出现问题:Error Code 2502 & 2503,一直不能安装成功. 上网一搜,国内没找到好的解决方法,在一个外文网上找到了方案,原链 ...
Error Code: 1064 – You have an error in your SQL syntax解决几个方法
本文转自 http://www.anyiwa.com/?p=1066 Error Code: 1064 – You have an error in your SQL syntax解决几个方法十一月 ...
Android 4.0 ProGuard 代码混淆以及 proguard returned with error code 1.See console异常的解决方法
最近呢说要上线,就去找了下上线的方法...之前做过代码混淆,用的是progarud.cfg,但是呢自己反编译了之后还是无效,然后就丢着先不管了,因为实在不知道什么情况.今天来上线的时候结果总是报错,总 ...
Command "python setup.py egg_info" failed with error code 1一种问题的解决方法
问题描述:无论是你在pycharm中直接使用import and install命令,还是pip的时候出现了Command "python setup.py egg_info" f ...

随机推荐

oracle中并行执行不一定比串行执行快
并行执行与串行执行相比,能否缩短执行时间,取决于如下几个方面:1.待执行的目标SQL是否适合并行执行,有些SQL是不太适合并行执行的,比如走索引的嵌套循环连接.2.数据库服务器上的硬件资源(如CPU. ...
Spring 配置文件出现异常！
spring配置文件错误 Referenced file contains errors (http://www.springframework.org/schema/beans/spring-bea ...
wordpress去掉category怎么操作让url更简洁友好
用wordpress建站是比较流行的,全球将近25%的站点是用wordpress搭建的.有很多的模板.插件可以选择,当然最好还是能自己优化.URL固定链接就是之中一个基础的技巧.有网友问如何去掉url ...
shell字符串数组
数组声明数组 declare -a ARRAY_NAME declare -A ARRAY_NAME: 关联数组注意:两者不可相互转换数组名和下标(索引) 索引:编号从0开始,属于数值索引注意 ...
009-ThreadPoolExecutor运转机制详解，线程池使用1-newFixedThreadPool、newCachedThreadPool、newSingleThreadExecutor、newScheduledThreadPool
一.ThreadPoolExecutor理解为什么要用线程池: 1.减少了创建和销毁线程的次数,每个工作线程都可以被重复利用,可执行多个任务. 2.可以根据系统的承受能力,调整线程池中工作线线程的数 ...
golang 中创建daemon的方法
https://github.com/takama/daemon https://github.com/immortal/immortal/blob/master/fork.go ...
Scala集合(二）
将函数映射到集合 map方法 val names = List("Peter" , "Paul", "Mary") names.map(_. ...
iot-hub运行在虚拟上
ng build gradlew build java -jar iot-hub-0.0.1-SNAPSHOT.jar 后台运行 nohup java -jar iot-dm-0.0.1-SNAP ...
MySQL数据库之part1
一.初始数据库链接:http://www.cnblogs.com/linhaifeng/articles/7126847.html 一.MySQL介绍 1.MySQL是什么 MySQL是一个关系型数 ...
（转）JVM内存分配 -Xms128m -Xmx512m -XX:PermSize=128m -XX:MaxPermSize=512m
在linux环境下配置项目运行环境时,部署的人员都会分配一下内存,以保证程序正常的运行.其实在开发的时候(window系统),就已经涉及到内存分配了,只是这些参数有默认值,因此一直没有去重视它. 以M ...

Spark With Mongodb 实现方法及error code -5, 6, 13127解决方案

1.spark mongo 读取

2.error code 6

3.error code -5

4. error code 13127

5.spark resource引用

Spark With Mongodb 实现方法及error code -5, 6, 13127解决方案的更多相关文章

随机推荐

热门专题