本地模式问题系列: 问题一:会报如下很多NoClassDefFoundError的错误,原因缺少相关依赖包 Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream at org.apache.spark.SparkConf.loadFromSystemProperties(SparkConf.scala:76) at org.apache.spar…
CloudStack 安装及使用过程中常见问题汇总             在做工程项目中对CloudStack 安装及使用过程中常见的几个问题及如何解决做一个总结.   1.Windows XP虚拟机内部重启不能正确获取IP,windows xp iso建立VM,重启VM无法正确获取IP地址,原因是没有加入域,可以通过修改注册表来解决此问题.设置组策略 计算机配置--管理模板--网络--DNS客户端里的DNS后缀搜索列表,设置为已启动,后缀值为cs1group.internal Windows…
安装包下载 下载地址:https://dev.mysql.com/downloads/mysql/ 点击下载之后,可以选择注册Oracle账号,也可以跳过直接下载. 下载完成后,选择一个磁盘内放置并解压(最好将解压文件放置磁盘根目录下,方便配置环境变量和查找). 环境变量配置 环境变量 :   我的电脑--->属性---->高级设置----->环境变量 然后一路点击确定,退出这里就可以了,这样mysql的环境变量就配置好了 配置my.ini文件 现在有一个重要的事,因为我们是使用压缩包安…
In Python 2.7, strings are byte-strings by default. In Python 3.x, they are unicode by default. Try explicitly making your string a byte string using .encode('ascii') before handing it to DLL.prepare. ==>在Python 2.7中,string默认的是byte-strings,而在 Python…
一.环境搭建资料 推荐谷歌自己开发的Android Studio 工具可以从这个网址下载:http://tools.android-studio.org/,直接下载推荐的就行 二.安装 安装时最好指定两个目录,一个用来放Android Studio,一个用来放SDK 直接点击exe文件运行即可 三.运行时遇到的问题汇总,欢迎补充 1.安装完 Android Studio 后启动,却报错如下: failed to create jvm error code -4 这一般应是内存不够用所致,解决方法…
开发过程中经常会使用到数组函数,故特地总结出来,自己熟悉,同时供大家参考!(实例部分会抽空尽快完成) 一.目录 array_merge(); 合并数组 array_keys(); array_filter(); in_array(); array_shift(); array_map(); array_diff(); array_values(); array_unique(); array_flip() array_multisort() array_column() array_inters…
sbt打包Scala写的Spark程序,打包正常,提交运行时提示找不到对应的类 详述 使用sbt对写的Spark程序打包,过程中没有问题 spark-submit提交jar包运行提示找不到对应的类 解决 编译环境没有变化,将代码拷贝到其他项目下打包可以运行,无解 偶然发现IDEA打开的sbt文件显示很多错误,查看详情发现存在错误:java-lang-ClassNotFoundException-org-jetbrain,遂谷歌之,找到了这个网页 ,说是IDEA的bug,打开use sbt she…
Spark在运算过程中提供了一套完整的机制用来提高效率. 1. 用于收集信息的Accumulator,自带增量,用于spark全局收集数据:共享数据: 2. 用于提高传输速率的broadcast机制:如果需要将已知大对象比如上万条的List,这些多大几十M甚至更大对象如果传统作为Map对象的方式下放到各个节点无疑增大了网络压力,可以采用broadcast的方式来进行对象传输:broadcast采用的是BT机制使得对象在网络中只是传输一次便实现了能够在各个节点中实现互传. 3. mapPartit…
一.在Windows7中安装Ubuntu双系统 工具/原料   windows7 64位 ubuntu 16.04 32位 UltraISO最新版(用来将镜像文件烤到U盘中) 空U盘(若有文件,请先备份) 1.为安装ubuntu16.04分配一块磁盘空间(100G) Win7自带分配磁盘的工具([计算机]->[管理]->[磁盘管理]->选中压缩盘->[右键]->[压缩卷]),只需要压缩步骤即可,不需要继续分盘符格式化等操作. 2.将镜像文件iso写到U盘 下载并安装Ultra…
欢迎转载,转载请注明出处,徽沪一郎. 概述 Scala越来越流行, Spark也愈来愈红火, 对spark的代码进行走读也成了一个很普遍的行为.不巧的是,当前java社区中很流行的ide如eclipse,netbeans对scala的支持都不算太好.在这种情况下不得不想到编辑器之神emacs,利用emacs+ensime来打造scala编程环境. 本文讲述的步骤全部是在arch linux上,其它发行版的linux视具体情况变通. 安装scala pacman -S scala 安装sbt pa…
问题导读: 1.什么是sbt? 2.sbt项目环境如何建立? 3.如何使用sbt编译打包scala? [sbt介绍 sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需要java1.6以上. sbt项目环境建立 sbt编译需要固定的目录格式,并且需要联网,sbt会将依赖的jar包下载到用户home的.ivy2下面,目录结构如下: |--build.sbt |--lib |--project |--src |   |--main |   |    |--scala…
前言 在国内编译Spark项目需要从Maven源下载很多依赖包,官方源在国内大环境下的下载速度大家都懂得,那个煎熬啊,简直是浪费生命. 如果你的下载速度很快,你现在就可以无视这篇文章了. 阿里云给国内开发者提供了一个非常的良心的服务:提供了一个国内Maven镜像,可以让我们拜托这种煎熬. 地址信息 阿里云的Maven也是基于nexus构建. 地址:http://maven.aliyun.com/ 仓库地址:http://maven.aliyun.com/nexus/content/groups/…
问题导读: 1.什么是sbt? 2.sbt项目环境如何建立? 3.如何使用sbt编译打包scala? sbt介绍 sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需要java1.6以上. sbt项目环境建立 sbt编译需要固定的目录格式,并且需要联网,sbt会将依赖的jar包下载到用户home的.ivy2下面,目录结构如下: |--build.sbt |--lib |--project |--src | |--main | | |--scala | |--tes…
本课主题 Sorted-Based Shuffle 的诞生和介绍 Shuffle 中六大令人费解的问题 Sorted-Based Shuffle 的排序和源码鉴赏 Shuffle 在运行时的内存管理 引言 在历史的发展中,为什么 Spark 最终还是选择放弃了 HashShuffle 而使用了 Sorted-Based Shuffle,而且作为后起之秀的 Tungsten-based Shuffle 它到底在什么样的背景下产生的.Tungsten-Sort Shuffle 已经并入了 Sorte…
解惑:在Ubuntu18.04.2的idea上运行Scala支持的spark程序遇到的问题 一.前言 最近在做一点小的实验,用到了Scala,spark这些东西,于是在Linux平台上来完成,结果一个最简单的入门程序搞了一两天,出了汗颜之外,对于这些工具的难用性也有了深刻的认知,难怪Hadoop的几个公司会渐渐走向衰落. 二.解惑 如果大家看过我之前的博客就知道,我是用过Hadoop,spark的,当时就遇到了非常多的麻烦,这些产品迭代的比较快,每个版本对于之前的兼容性可以说是微乎其微,因此版本…
1. 任务背景 近日有个项目任务,要求读取压缩在Zip中的百科HTML文件,经分析发现,提供的Zip文件有如下特点(=>指代对应解决方案): (1) 压缩为分卷文件 => 只需将解压缩在同一目录中的一个分卷zip即可解压缩出整个文件 (2) 压缩文件中又包含不同的两个文件夹,且各包含n个小zip文件,小zip文件中包含目录及对应的HTML文本文件 采用第一方案:依次解压缩各小zip文件,存放在一个目录中,然后上传到HDFS中 存在问题:每个小zip都包含上万个小文件,按照第一方案解压缩,耗费的…
Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情.如果你对Scala语言还不太熟悉,可 以阅读网络教程A Scala Tutorial for Java Programmers或者相关Scala书籍进行学习. 本文将介绍3个Scala Spark编程实例,分别是WordCount.TopK和SparkJoin,分别代表了Spark的三种典型应用. 1. WordCount编程实例 WordCount是一个最简单的分布式应用实例,主要功能是统计输…
今天在测试spark-sql运行在yarn上的过程中,无意间从日志中发现了一个问题: spark-sql --master yarn // :: INFO Client: Requesting a new application from cluster with NodeManagers // :: INFO Client: Verifying our application has not requested MB per container) // :: INFO Client: Will…
在window上搭建kafka的源代码开发环境,主要参考如下的blog: http://www.bubuko.com/infodetail-695974.html    << Windows平台搭建Kafka源代码开发环境(Eclipse版本) >> http://stackoverflow.com/questions/25994163/could-not-resolve-all-dependencies-for-configuration-classpath 但是在国内的网络环境…
相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内置的各类UDF也为我们的数据处理提供了不少便利的工具,当这些内置的UDF不能满足于我们的需要时,Hive SQL或Spark SQL还为我们提供了自定义UDF的相关接口,方便我们根据自己的需求进行扩展.   在Hive的世界里使用自定义UDF的过程是比较复杂的.我们需要根据需求使用Java语言开发相…
Spark启动过程 正常启动Spark集群时往往使用start-all.sh ,此脚本中通过调用start-master.sh和start-slaves.sh启动mater及workers节点. 1.  启动Master a)         注册SignalLogger日志记录器 b)         创建名称为master的Actor 并启动,在启动master之前会: i.              创建workers.apps.drivers等例表,用于记录相关信息 ii.       …
眼下,SPARK在大数据处理领域十分流行.尤其是对于大规模数据集上的机器学习算法.SPARK更具有优势.一下初步介绍SPARK在linux中的部署与使用,以及当中聚类算法的实现. 在官网http://spark.apache.org/上直接下载编译好的tar安装包能够加快部署速度. spark的执行依赖于scala2.10.4,注意此版本号一定要正确,否则spark不能正确执行. 1.scala的安装非常easy.在官网http://www.scala-lang.org上下载安装包,解压到随意路…
spark在idea中本地如何运行? 前几天尝试使用idea在本地运行spark+scala的程序,出现了问题,http://www.cnblogs.com/yjf512/p/7662105.html 当时还以为是本地spark安装问题,今天发现原来不是.记录如下: 现象 使用pom写了一个程序,发现出现下面的错误 17/10/12 17:09:43 INFO storage.DiskBlockManager: Created local directory at /private/var/fo…
安装教程来自 http://blog.csdn.net/sadonmyown/article/details/72781393 首先,我使用的节点环境是ubuntu 16.04.1,事先 成功安装了spark和hadoop,版本分别为spark-2.11和hadoop-2.7.3 问题 1:按照教程一步步进行到编译Caffe步骤时,出现如下错误: Step 1 在Makefile.config文件的第95行,添加/usr/include/hdf5/serial/ 到 INCLUDE_DIRS,也…
[Spark][Python]DataFrame中取出有限个记录的例子: sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json("people.json") peopleDF.limit(3).show() === [training@localhost ~]$ hdfs dfs -cat people.json{"name":"Alice","pcode":…
创建非sbt的scala项目 引入spark的jar包 File->Project Structure->Libararies引用spark-assembly-1.5.2-hadoop2.6.0.jar 编写代码 import scala.math.random import org.apache.spark._ /** * Created by code-pc on 16/3/2. */ object test1 { def main(args: Array[String]) { val c…
相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内置的各类UDF也为我们的数据处理提供了不少便利的工具,当这些内置的UDF不能满足于我们的需要时,Hive SQL或Spark SQL还为我们提供了自定义UDF的相关接口,方便我们根据自己的需求进行扩展.   在Hive的世界里使用自定义UDF的过程是比较复杂的.我们需要根据需求使用Java语言开发相…
sbt编译spark程序提示value toDF is not a member of Seq() 前提 使用Scala编写的Spark程序,在sbt编译打包的时候提示value toDF is not a member of Seq(),出问题的代码如下: val urlDS = Seq(STU(age, count)).toDS() 其中STU是一个定义的case class,定义如下: case class STU(age: Int, count: Int) 查找原因 开始以为是toDS(…
Precondition:jdk.Scala安装,/etc/profile文件部分内容如下: JAVA_HOME=/home/Spark/husor/jdk CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export JAVA_HOME export CLASSPATH HADOOP_HOME=/home/Spark/husor/hadoop HBASE_HOME=/hom…
安装sbt参考https://www.cnblogs.com/wrencai/p/3867898.html 在安装scala时 首先得安装jdk环境,最好安装最新版本以免后续安装出现不必要的麻烦 一.安装JDK1.8 $ sudo apt-get update $ sudo apt-get upgrade 使用PPA(personal package archieve)WEBUPD8的方式安装. $ sudo apt-get install python-software-properties…