import java.sql.DriverManager import com.mongodb.spark._ import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession object mongospark20180830consume_amount { // 关于记录多个相同字段的处理方法 https://blog.csdn.net/qq_14950717/article/details/6242556…
主要在maven-for-scalaIDE纠结了,因为在eclipse版本是luna4.x 里面有自己带有的maven. 根据网上面无脑的下一步下一步,出现了错误,在此讲解各个插件的用途,以此新人看见了,少走一些弯路. 其实主要的问题是自己独立去下载scala插件,把scala依赖包拷贝到eclipse的plugins和features里面,然后maven也是自己下载手动修改了 Installations里面我在add加入我自己下载的maven的路径,然后修改了maven里面confg配置文件里…
MongoDB Connector for Hadoop https://github.com/mongodb/mongo-hadoop Purpose The MongoDB Connector for Hadoop is a library which allows MongoDB (or backup files in its data format, BSON) to be used as an input source, or output destination, for Hadoo…
一.Java安装 1.安装包准备: 首先到官网下载jdk,http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html,我下载jdk-7u79-linux-x64.tar.gz,下载到主目录 2.解压安装包 通过终端在/usr/local目录下新建java文件夹,命令行: sudo mkdir /usr/local/java 然后将下载到压缩包拷贝到java文件夹中,命令行: 进入jdk压缩…
fesh个人实践,欢迎经验交流!本文Blog地址:http://www.cnblogs.com/fesh/p/3805611.html Intellij IDEA的使用性非常好,是一个非常优秀的IDE,也是很好的scala开发工具.这里对构建Intellij IDEA的Scala开发环境进行介绍,包含在Windows环境和Ubuntu环境下的安装配置. 一.Windows环境下安装 1.安装JDK(jdk1.7.0_03) 2.安装Scala 1)下载Scala (http://download…
前言 在安装Spark之前,我们需要安装Scala语言的支持.在此我选择的是scala-2.11.7版本. scala-2.11.7下载 为了方便,我现在我的SparkMaster主机上先安装,把目录打开到/usr目录下,与我的Java目录相一致. wget https://downloads.lightbend.com/scala/2.11.7/scala-2.11.7.tgz 下载之后解压 tar -zxvf scala-2.11.7.tgz 解压之后删除源文件 rm -rf scala-2…
背景 mongoDB是近几年迅速崛起的一种文档型数据库,广泛应用于对事务无要求,但是要求较好的开发灵活性,扩展弹性的领域,. 随着企业对数据挖掘需求的增加,用户可能会对存储在mongo中的数据有挖掘需求,但是mongoDB的语法较为单一,不能满足挖掘的需求. PostgreSQL是起源于伯克利大小的一个开源数据库,已经有20多年的历史,以稳定性,功能强大著称,号称"开源界的Oracle". 在国内外各个行业都有非常多的用户,如平安银行,邮储银行,中移动,去哪儿,高德,菜鸟,美国宇航局,…
Centos下Scala安装 上传Scala到/usr/scala目录下 [root@spark1 scala]# chmod u+x scala-2.11.4.tgz #修改权限 [root@spark1 scala]# tar -zxvf scala-2.11.4.tgz #解压 [root@spark1 scala]# mv scala-2.11.4 scala-2.11 #重命名 [root@spark1 ~]# vim /etc/profile #配置环境变量 export SCALA…
背景 经常需要执行脚本调用Java程序读取mongodb中数据,本来是转为后台进程.偶尔看看日志的简单任务.今天发现程序抛出异常“com.mongodb.MongoException$CursorNotFound: cursor 0 not found on server”.一开始没在意,重新执行也可以继续跑,但是过一段时间又抛出同样错误,看来要战斗了. 分析 在mogondb.org官网,我找到了同样的问题,这是一个2013年就发现并解决的问题,官方回应这一BUG,并且已经在版本(2.11.0…
1.下载&安装 MongoDB 3.0 正式版本号公布!这标志着 MongoDB 数据库进入了一个全新的发展阶段,提供强大.灵活并且易于管理的数据库管理系统.MongoDB宣称.3.0新版本号不仅仅提升7到10倍的写入效率以及添加80%的数据压缩率.还能降低95%的运维成本.  MongoDB 3.0主要新特性包含:  ·可插入式的存储引擎 API  ·支持 WiredTiger 存储引擎  ·MMAPv1 提升  ·复制集全面提升  ·集群方面的改进  ·提升了安全性  ·工具的提升  Wir…
一.环境 4.用户 hadoop 5.目录规划 /home/hadoop/app    #程序目录 /home/hadoop/data  #数据目录     #打开文件的最大数 vi /etc/security/limits.d/20-nproc.conf soft soft nproc 102400root soft nproc unlimitedsoft soft nofile 102400soft hard nofile 102400   二.系统环境配置  #root操作 (所有主机)…
简介: 在我的CDH5.11集群中,默认安装的spark是1.6版本,这里需要将其升级为spark2.x版本.经查阅官方文档,发现spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的.我尝试了安装spark2.0版本和spark2.1版本,均告成功.这里做一下安装spark2.1版本的步骤记录.   首先贴出一些官方的网址,有兴趣的可以去看看: Cloudera发布Apache Spark 2概述(可以在这里面找到安…
https://github.com/plaa/mongo-spark https://github.com/mongodb/mongo-hadoop http://codeforhire.com/2014/02/18/using-spark-with-mongodb/…
从官网下载scala的相关版本 https://www.scala-lang.org/download/2.11.12.html 解压安装包 tar zxf scala-.tgz -C /usr/scala/ 配置环境变量 # SET SCALA_HOME export SCALA_HOME=/usr/scala/scala- export PATH=$PATH:$SCALA_HOME/bin 配置环境变量之后,执行命令:source /etc/profile,使之生效. 验证是否安装成功 [r…
近日Kafka发布了最新版本 2.5.0,增加了很多新功能: 下载地址:https://kafka.apache.org/downloads#2.5.0 对TLS 1.3的支持(默认为1.2) 引入用于 Kafka Streams 的 Co-groups 用于 Kafka Consumer 的增量 rebalance 机制 为更好的监控操作增加了新的指标 升级Zookeeper至 3.5.7 取消了对Scala 2.1.1的支持 下面详细说明本次更新: 一.新功能 1.Kafka Streams…
1.读取行 要读取文件的所有行,可以调用scala.io.Source对象的getLines方法: import scala.io.Source val source = Source.fromFile("myfile.txt", "UTF-8") val lineIterator = source.getLines val lines1 =lineIterator.toArray val lines2 = lineIterator.toBuffer //将文件内容…
Linux 今天又发布了4个更新版本,分别是: 3.11.4 2013-10-05 [tar.xz] [pgp] [patch] [view patch] [view inc] [cgit] [changelog] 3.10.15 2013-10-05 [tar.xz] [pgp] [patch] [view patch] [view inc] [cgit] [changelog] 3.4.65 2013-10-05 [tar.xz] [pgp] [patch] [view patch] [vi…
tomcat 的 org.apache.coyote.http11.Http11NioProtocol Connector 是一个使用 Java NIO 实现的异步 accept 请求的 connector 它的作用是不需要为每个请求建立一个线程, 而是使用固定的accept线程 accept 多个请求, 然后排队处理. 大概的意思是使用固定的 acceptThread (网络 IO 线程, 负责 accept, read, write) 来异步处理(nio accept, read, writ…
MongoDB出现 { code: 18, ok: 0.0, errmsg: "auth fails" }  错误的原因: 1.账号密码错误 2.账号不属于该数据库…
平台 ubuntu 16.04 参考文档: https://dev.mysql.com/doc/dev/connector-cpp/8.0/building.html 下载源码 访问 https://dev.mysql.com/downloads/connector/cpp/ ,选择source code 下载 依赖 编译 MySQL Connector/C++ 需要 依赖于openssl,mysql,cmake ,boost,libz 等组件,需要事先安装 步骤 以下 以编译jdbc 静态库…
系统系统 centos6.5三台服务器:10.100.25.42/43/44安装包: mongodb-linux-x86_64-rhel62-3.4.0.tgz 服务器规划:mongos mongos mongosconfig server config server config servershard server1 主节点 shard server1 副节点 shard server1 仲裁shard server2 仲裁 shard server2 主节点 shard server2 副…
安装boost1.48.0 在boost的官网下载boost1.48.0,链接例如以下: http://sourceforge.net/projects/boost/files/boost/1.48.0/boost_1_48_0.tar.gz/download tar -xzvf boost_1_48_0.tar.gz解压到当前文件夹 cd boost_1_48_0进入boost库文件夹 ./bootstrap.sh在当前文件夹生成bjam可运行程序 ./bjam --layout=versio…
可能和大家熟悉的是LAMP,Linux+Apache+Mysql+PHP,在Windows上,可能大家比较熟悉的是WAMP,Windows+Apache+Mysql+PHP,这是一个集成环境,说到集成环境,与大家一样,我刚开始学习PHP的时候用的是集成环境(应该和大家一样),这样用着虽然是方便,但是如果想把某个配件,比如apache或者Mysql进行升级,就极其蛋疼.今天和大家分享一下我的集成环境,PHPnow,以及在PHPnow的集成环境之上,在Apache.MySQL上进行了某些修改和升级使…
概述 定义 MongoDB官网 https://www.mongodb.com/ 社区版最新版本5.0,其中5.2版本很快也要面世了 MongoDB GitHub源码 https://github.com/mongodb MongoDB文档地址 https://docs.mongodb.com/manual/ MongoDB是一个流行的开源分布式文档型数据库,由 C++ 语言编写,旨在处理大规模额数据,为 WEB 应用提供可扩展.高性能的数据存储解决方案. MongoDB介于关系数据库和非关系数…
VTK6 引入了许多不兼容的变.这其中就包括关于vtkImageData中元数据管理及内存分配的方法.这些方法有些直接改变了行为或者能加了额外的参数. GetScalarTypeMin() GetScalarTypeMax() GetScalarType() SetScalarType(int scalar_type) GetNumberOfScalarComponents() SetNumberOfScalarComponents(int n) AllocateScalars() GetNum…
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.> 如何安装hadoop2.9.0请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二)安装hadoop2.9.0> 如何配置hadoop2.9.0 HA 请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十)安装hadoo…
1.windows中以本地模式运行spark遇到"Could not locate executable null\bin\winutils.exe in the Hadoop binarie"有效解决方案: 版本:idea2017.1.1+scala2.11.8+spark2.1 搞了一下午终于解决了:http://blog.csdn.net/u013468917/article/details/53334359…
说起大数据开发,必然就会提到Spark,在这片博文中,我们就介绍一下Spark的安装和配置. 这是Centos7开发环境系列的第三篇,本篇的安装会基于之前的配置进行,有需要的请回复搭建centos7的开发环境1-系统安装及Python配置.搭建centos7的开发环境2-单机版Hadoop2.7.3配置. 安装Spark 这里说明一下各种软件的版本号: open-JDK: 1.8.0 Hadoop: 2.7.3 scala: 2.11.8 Spark: 2.1.0 scala 下载 sacla2…
文中的所有操作都是在之前的文章spark集群的搭建基础上建立的,重复操作已经简写: 之前的配置中使用了master01.slave01.slave02.slave03: 本篇文章还要添加master02和CloudDeskTop两个节点,并配置好运行环境: 一.流程: 1.在搭建高可用集群之前需要先配置高可用,首先在master01上: [hadoop@master01 ~]$ cd /software/spark-2.1.1/conf/ [hadoop@master01 conf]$ vi s…
版本号: RedHat6.5   RHEL 6.5系统安装配置图解教程(rhel-server-6.5) JDK1.8      http://blog.csdn.net/chongxin1/article/details/68957808 Hadoop2.7.3    RedHat6.5上安装Hadoop单机 scala-2.11.8 spark-2.1.1-bin-hadoop2.7 1 安装Spark依赖的Scala Hadoop的安装请参考上面提到的博文,因为Spark依赖scala,所…