这一个月我都干了些什么-- 工作上,还是一如既往的写bug并不亦乐乎的修bug.学习上,最近看了一些非专业书籍,时常在公众号(JackieZheng)上写点小感悟,我刚稍稍瞄了下,最近五篇居然都跟技术无关,看来我与本行业已经是渐行渐远了. 所以,趁着这篇博客,重拾自己,认清自己,要时刻谨记我是一名码农.不过,摸着良心说,最近的技术方面也是有所感悟和积累的,比如如何写好设计文档,如何使用延时队列,如何使用防刷技术等等.当然了,今天我们还是沿着"学习Spark"这条路继续走下去. 上篇主要…
初次尝试用 Spark+scala 完成项目的重构,由于两者之前都没接触过,所以边学边用的过程大多艰难.首先面临的是如何快速上手,然后是代码调优.性能调优.本章主要记录自己在项目中遇到的问题以及解决方式,下篇会尝试调优方法.末尾会分享自己的学习资料,也供大多菜鸟第一次使用作为参考.由于自己项目中大量使用spark sql,所以下面的经验大多是和spark sql有关.同样下面也列出作为菜鸟在学习过程中的困惑以及踩的坑,还请大牛勿笑 ~_~ 如果有更好的方式解决,欢迎留言,一起学习. 1.常用场景…
方案一:根据官方实例,下载预编译好的版本,执行以下步骤: nc -lk 9999 作为实时数据源 ./bin/run-example org.apache.spark.examples.sql.streaming.StructuredNetworkWordCount localhost 9999 在第一步的terminal 窗口输入一些句子 第二步的output 就是实时执行结果 此方案的问题有 探索其中的api 比较困难,比如我想试试另外一种写法,需要改源码,然后编译,时间就变长了 如果是一个…
即将上线的Spark服务器面临的一系列填坑笔记 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 把kafka和flume倒腾玩了,以为可以轻松一段时间了,没想到使用CDH部署的spark也出现一些列的问题,真让人脑仁疼啊,硬着头皮一个一个的去填坑.......... 一.因配置文件不同,导致无权限访问hdfs目录. 报错信息如下: 18/10/19 00:36:23 ERROR spark.SparkContext: Error initializing SparkContex…
[学习笔记]\(OI\) 玄学道-代码坑点 [目录] [逻辑运算符的短路运算] [\(cmath\)里的贝塞尔函数] 一:[逻辑运算符的短路运算] [运算规则] && 和 || 属于逻辑运算符.关于 && 和 || 的表达式的运算规则是这样的(用大写字母来表示表达式): \(A\) || \(B\) 只要任意一个表达式为 \(true\),则整个表达式的运算结果为 \(true(1)\). \(A\) && \(B\) 仅当所有表达式都为 \(true(1)…
上一节简单介绍了Spark的基本原理以及如何调用spark进行打包一个独立应用,那么这节我们来学习下在spark中如何编程,同样先抛出以下几个问题. Spark支持的数据集,如何理解? Spark编程中常用到的操作? 一.RDD基础 1.RDD简介 在上一节的组件图Spark Core中我们简单提到了对弹性分布式数据集:RDD(Resilient Distributed DataSet),它表示分布在多个计算节点上可以并行操作的元素集合,是Spark主要得编程抽象.一般我们广为熟知的数值类型是整…
由于最近在工作中刚接触到scala和Spark,并且作为python中毒者,爬行过程很是艰难,所以这一系列分为几个部分记录下学习<Spark快速大数据分析>的知识点以及自己在工程中遇到的小问题,以下阶段也是我循序了解Spark的一个历程. 先抛出几个问题: 什么是Spark? Spark内部是怎么实现集群调度的? 如何调用Spark? 如何打包一个Spark独立应用? 一.Spark是什么 Spark是一个用来实现快速而通用的集群计算平台.它一个主要特点是能够在内存中进行计算,并且提供了基于P…
大数据情结 还记得上次跳槽期间,与很多猎头都有聊过,其中有一个猎头告诉我,整个IT跳槽都比较频繁,但是相对来说,做大数据的比较"懒"一些,不太愿意动.后来在一篇文中中也证实了这一观点,分析说大数据领域从业者普遍认为这是一个有前景,有潜力的方向,大多数希望有所积累,所以跳槽意愿不是很强烈. 14年的时候开始接触Hadoop,在Windows下搭了好几次环境,单机版.伪分布式和分布式都搭建过.那时候需要在Windows下装个虚拟机,在虚拟机中再装个Ubuntu,之后在Ubuntu上开始装j…
隐式转换比较是js中绕不过去的坎,就算有几年经验的工程师也很有可能对这块知识不够熟悉.就算你知道使用===比较从而避免踩坑,但是团队其它成员不一定知道有这样或那样的坑,有后端语言经验的人常常会形成一个思维误区:“JS这门语言很简单,看看语法再找几个例子就能操作DOM,编写特效了”.随着react.vue.html5等技术在项目中大规模使用,越来越多的项目中使用了大量的JS,甚至整个项目都用JS来写(例如基于webapi的SPA管理后台.微信小程序.微信H5应用,Hybrid app),如果不深入…
参考资料: http://ir.dlut.edu.cn/NewsShow.aspx?ID=291 http://www.douban.com/note/298095260/ http://machinelearning.wustl.edu/mlpapers/paper_files/BengioDVJ03.pdf https://code.google.com/p/word2vec/ https://spark.apache.org/docs/latest/mllib-feature-extrac…