我尝试着在classpath中加n入mysql的驱动仍不行 解决方法:在启动的时候加入参数--driver-class中加入mysql 驱动 [hadoop@master spark-1.0.1-bin-hadoop2]$ bin/spark-shell --driver-class-path lib/mysql-connector-java-5.1.30-bin.jar 总结:1.spark的版本必须编译的时候加上了hive 1.0.0预编译版没有加入hive  1.0.1是含有hive的2.…
Exception: Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "BoneCP" plugin to create a ConnectionPool gave an error : The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH…
JDBC插入数据时中文变为问号的解决方法 制作人:全心全意 出现中文变问号的代码: String url = "jdbc:mysql://localhost:3306/test"; 解决方法: String url = "jdbc:mysql://localhost:3306/test?useUnicode=true&characterEncoding=UTF-8";…
Spark 2.0以前版本:val sparkConf = new SparkConf().setAppName("soyo")    val spark = new SparkContext(sparkConf) Spark 2.0以后版本:(上面的写法兼容)直接用SparkSession:val spark = SparkSession      .builder      .appName("soyo")      .getOrCreate()    var…
数据倾斜产生的原因 数据倾斜的原因很大部分是join倾斜和聚合倾斜两大类 Hive倾斜之group by聚合倾斜 原因: 分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久: 对一些类型统计的时候某种类型的数据量特别多,其他的数据类型特别少.当按照类型进行group by的时候,会将相同的group by字段的reduce任务需要的数据拉取到同一个节点进行聚合,而当其中每一组的数据量过大时,会出现其他组的计算已经完成而这个reduce还没有计算完成,其他的节点一直等待这个节点的…
最近在做一个项目,是对INFORMIX数据库的数据进行大数据分析,INFORMIX数据库数据有上亿条,没有linux的Root权限和informix数据的生产权限,只能读取.客户要求结果显示在内网windows WEB服务器上,终端通过浏览器来阅读. 我采用python+django+pandas+matplotlib. 首先要做的是:连接数据库并获取数据,其次要创建内网WEB服务,然后实现实时数据分析. 在做第一步时,就遇到INFORMIX的数据汉字编码问题. 现数据采用8859-1字符集,8…
摘要:结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序. 本文分享自华为云社区<Hive on Spark和Spark sql on Hive有啥区别?>,作者:dayu_dls . 结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序.Hive和SparkSQL都不负责计算.Hive的默认执行引擎是mr,还可以运行在Spark和Tez.Spark可以连接多种数据源,然后…
spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过spark sql与hive结合实现数据分析将成为一种最佳实践.配置步骤如下: 1.启动hive的元数据服务 hive可以通过服务的形式对外提供元数据读写操作,通过简单的配置即可  编辑 $HIVE_HOME/conf/hive-site.xml,增加如下内容:<property><name>hive.metastore.uris</name>…
使用的是idea编辑器 spark sql从hive中读取数据的步骤:1.引入hive的jar包 2.将hive-site.xml放到resource下 3.spark sql声明对hive的支持 案例: def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession .builder() .appName(s"${this.getClass.getSimpleName}") .master(…
前一篇文章是Spark SQL的入门篇Spark SQL初探,介绍了一些基础知识和API,可是离我们的日常使用还似乎差了一步之遥. 终结Shark的利用有2个: 1.和Spark程序的集成有诸多限制 2.Hive的优化器不是为Spark而设计的,计算模型的不同,使得Hive的优化器来优化Spark程序遇到了瓶颈. 这里看一下Spark SQL 的基础架构: Spark1.1公布后会支持Spark SQL CLI . Spark SQL的CLI会要求被连接到一个Hive Thrift Server…
https://www.runoob.com/mongodb/mongodb-mongodump-mongorestore.html mongodb 更新数据时int32变为double的解决办法      场景: 在命令手动的修改签到表的整型字段synState,multi参数是可以更新多条,如果是false则更新一条. db.getCollection("ClassRecordOneDetail").update({synStateTime:{"$gt":new…
最近angularjs post到后台 400一头雾水 没有任何错误. 最后发现好文,感谢作者 SpringMVC中出现" 400 Bad Request "错误(用@ResponseBody处理ajax传过来的json数据转成bean)的解决方法 今天开发过程中,在SpringMVC中的Action中处理前台ajax请求传过来的json数据直接转成对应的实体类时出错:400 Bad Request,后台也不报错,400指的的是请求无效(请求有语法问题或者不能满足请求),调试了好长时间…
金蝶KIS专业版 替换SXS.dll 遭后门清空数据(凭证被改为:恢复数据联系QQ 735330197,2251434429)恢复解决方法. [客户名称]:山东青岛福隆发纺织品有限公司 [软件名称]:金蝶KIS专业版12.2 [数据库版本]:MS SQL server 2000  [数据库大小]:1GB  . [问题描述]:客户贪图便宜,使用破解版财务软件,破解者破解后内藏了后门,清空所有数据的触发器.用了1年时间后,后门触发器被激活,删除了所有 科目余额表.存货余额.存货往来明细账.修改了所有…
摘:linux下安装Oracle时交换空间不足的解决方法 linux上安装Oracle时交换空间不足的解决办法 增加交换空间有两种方法: 严格的说,在系统安装完后只有一种方法可以增加swap,那就是本文的第二种方法, 至于第一种方法应该是安装系统时设置交换区. 1.使用分区: 在安装OS时划分出专门的交换分区,空间大小要事先规划好,启动系统时自动进行mount. 这种方法只能在安装OS时设定,一旦设定好不容易改变,除非重装系统. 2.使用swapfile:(或者是整个空闲分区) 新建临时swap…
http://localhost/certsrv 错误找不到页面解决方法 最近公司需要后台启动安全证书,可安装了“Active Directory证书服务” 后,http://localhost/certsrv页面显示404.500问题,无法进行有效证书签证,在网上搜索了很多资料,都无法解决此问题,而且此问题遇到的人数非常多,都不能给出有效的解决方式,经本人一天的研究,此问题终于得到解决,现将解决方式如下. windows 2003 无此问题,此问题主要集中到windows 2008 系统,经本…
使用WebLogic时控制台输出中文乱码解决方法 1.找到weblogic安装目录,当前项目配置的domain 2.找到bin下的setDomainEnv.cmd文件 3.打开文件,从文件最后搜索第一个set JAVA_OPTIONS=%JAVA_OPTIONS%(应该是倒数第四行,空行除外),修改为set JAVA_OPTIONS=%JAVA_OPTIONS%   -Dfile.encoding=utf-8 4.保存文件,重新启动服务…
Apache commons StringUtils 在运行时出现NoClassDefError错误的解决方法 在用tomcat运行WEB项目,并且使用了StringUtils包的时候,会出现 java.lang.NoClassDefFoundError: org/apache/commons/lang3/StringUtils 的错误 解决方案: 首先,去tomcat的webapp目录下,查看有没有我们引入的jar包,如果未发现,执行如下操作 1.打开项目属性(Properties) 2.在左…
spring boot2.x下 使用feign,注解@EnableFeignClients 找不到的解决方法 在spring boot1.x下,使用注解@EnableFeignClients,jar包依赖是: <!-- feign远程调用 --> <dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-starter-feign</…
研究synchronized底层实现,涉及到查看java字节码的需要 前提是,你的PC已经成功安装了JDK并别配置了环境变量. ==========查看方法========= 一.javap查看简约字节码方式 1.准备一个java文件 例如,文件所在目录在此处 Student.java文件内容如下: package com.sxd.sweeping.test.synchron; public class Student implements Runnable{ static int age; p…
随着Spark SQL的正式发布,以及它对DataFrame的支持,它可能会取代HIVE成为越来越重要的针对结构型数据进行分析的平台.在博客文章What’s new for Spark SQL in Spark 1.3中,Databricks的工程师Michael Armbrust着重介绍了改进了的Data Source API.  我们在对结构型数据进行分析时,总不可避免会遭遇多种数据源的情况.这些数据源包括Json.CSV.Parquet.关系型数据库以及NoSQL数据库.我们自然希望能够以…
在hive里建一个数据库test,在数据库里建了一张表user,然后在Spark程序中使用Spark sql读取这张表 "select * form test.user" 当部署模式是spark stand模式和yarn-client模式时,程序可以正常运行,但yarn-cluster模式就报了找不到“test.user”表的错误. 解决办法: spark和hive整合,把hive-site.xml加到spark根目录的conf下,所以,要在提交Spark任务的时候,要把hive-si…
简要介绍了SparkSQL与Hive on Spark的区别与联系 一.关于Spark 简介 在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题. 架构 Spark的架构如下图所示,主要包含四大组件:Driver.Master.Worker和Executor. Spark特点 Spark可以部署在YARN上 Spark原生支持对HDFS文件系统的访问 使用Scala语言编写 部署模型 单机模型:主要用来开发测试.特点:Driver.Mast…
前言 在搭建大数据Hadoop相关的环境时候,遇到很多了很多错误.我是个喜欢做笔记的人,这些错误基本都记载,并且将解决办法也写上了.因此写成博客,希望能够帮助那些搭建大数据环境的人解决问题. 说明: 遇到的问题以及相应的解决办法是对于个人当时的环境,具体因人而异.如果碰到同样的问题,本博客的方法无法解决您的问题,请先检查环境配置问题. Hadoop伪分布式相关的问题 1,FATAL conf.Configuration: error parsing conf hdfs-site.xml 原因:…
在SQL Server中导入数据时,会有一个"启用标示插入"的选项,突然间懵逼了,这到底啥意思?我选与不选这个选项,结果好像没区别!不科学啊这,"存在即合理",我相信这个选项肯定有它的用处,只是我不知道罢了. 于是我去查资料,在CSDN论坛里找到了可能的解释: 1)首先:"启用标示插入"只对标示列(identity定义的列)起作用.所以如果你要使用这个功能,肯定得有标示列了.我当时狂晕的地方在于,我没在数据库创建表,而是直接在导入数据的过程中创建…
SQL Server 表在导入数据时,有时需要将自增长列指定数值,来保证导入前后的数据完全一致,如何实现? SQL Server 提供了方法: SET IDENTITY_INSERT,允许将显式值插入表的标识列中. 参考文档:SET IDENTITY_INSERT | Miscosoft Docs 语法: SET IDENTITY_INSERT [ database_name . [ schema_name] . ] table { ON | OFF } 用法: -- SET IDENTITY_…
import java.sql.DriverManager import java.util.Properties import com.zhaopin.tools.{DateUtils, TextUtils} import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.SparkSession /** * Created by xiaoyan on 2018/5/21. */ object IhrDownloadPg…
pom.xml <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.47</version></dependency> <dependency> <groupId>org.scala-lang</groupId> <artifac…
从官网来copy过来的几种模式描述: Scala/Java Python Meaning SaveMode.ErrorIfExists(default) "error"(default) When saving a DataFrame to a data source, if data already exists, an exception is expected to be thrown. SaveMode.Append "append" When saving…
添加配置文件 phoenixConnectMode.scala : package statistics.benefits import org.apache.hadoop.conf.Configuration import org.apache.spark.sql.{DataFrame, SQLContext} import org.apache.phoenix.spark._ object phoenixConnectMode { private val zookeeper = "node3…
行列之间的互相转换是ETL中的常见需求,在Spark SQL中,行转列有内建的PIVOT函数可用,没什么特别之处.而列转行要稍微麻烦点.本文整理了2种可行的列转行方法,供参考. 本文链接:https://www.cnblogs.com/hhelibeb/p/10310369.html 测试数据准备 本文的环境是Windows 10, Spark 2.4,开发语言是Python.首先构建一点初始测试数据, from pyspark.sql import SparkSession spark = S…