【原】日志处理-Spark

【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL

周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark SQL相关的知识,如果对Spark不熟的同学可以先看看之前总结的两篇文章: [原]Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令 [原]Learning Spark (Python版) 学习笔记(二)----键值对.数据读取与保存.共享特性 #####…

【原】日志处理-Spark

日志信息如下所示: 1.1.1.1 - - [21/Jul/2014:10:00:00 -0800] "GET /majihua/article/284234 HTTP/1.1" 200 1234 1.1.1.1 - - [21/Jul/2014:10:00:00 -0800] "GET /majihua/article/284234 HTTP/1.1" 200 2000 1.1.1.1 - - [21/Jul/2014:10:00:00 -0800] "…

【原】Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令

<Learning Spark>这本书算是Spark入门的必读书了,中文版是<Spark快速大数据分析>,不过豆瓣书评很有意思的是,英文原版评分7.4,评论都说入门而已深入不足,中文译版评分8.4,评论一片好评,有点意思.我倒觉得这本书可以作为官方文档的一个补充,刷完后基本上对Spark的一些基本概念.码简单的程序是没有问题的了.这本书有一个好处是它是用三门语言写的,Python/Java/Scala,所以适用性很广,我的观点是,先精通一门语言,再去学其他语言.由于我工作中比较常用…

【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性

本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =.以后还是要按时完成任务.废话不多说,第四章-第六章主要讲了三个内容:键值对.数据读取与保存与Spark的两个共享特性(累加器和广播变量). 键值对(PaiRDD) 1.创建 #在Python中使用第一个单词作为键创建一个pairRDD,使用map()函数 pairs = lines.map(lambda x:(x.split(" ")[0],x)) 2.转化(Transformation) 转化操作很多,有reduceByK…

【原】Learning Spark (Python版) 学习笔记(四)----Spark Sreaming与MLlib机器学习

本来这篇是准备5.15更的,但是上周一直在忙签证和工作的事,没时间就推迟了,现在终于有时间来写写Learning Spark最后一部分内容了. 第10-11 章主要讲的是Spark Streaming 和MLlib方面的内容.我们知道Spark在离线处理数据上的性能很好,那么它在实时数据上的表现怎么样呢?在实际生产中,我们经常需要即使处理收到的数据,比如实时机器学习模型的应用,自动异常的检测,实时追踪页面访问统计的应用等.Spark Streaming可以很好的解决上述类似的问题. 了解Spar…

[原][粒子特效][spark]调节器modifier

深入浅出spark粒子特效连接:https://www.cnblogs.com/lyggqm/p/9956344.html group添加modifier的方式: modifier An abstract class that allows to modify the behaviour of a group of particles over time. 调节器是为了给粒子生命周期过程提供外力的功能,给粒子加上物理功能它有以下几种: 碰撞弹力设置 Collider 附加喷射器 Emitter…

[原][粒子特效][spark]事件action

深入浅出spark粒子特效连接:https://www.cnblogs.com/lyggqm/p/9956344.html group调用action的地方: 可以看到使用action的可以是出生一次,结束一次 action An abstract class that allows to perform an action on a single particle. actionset SpawnParticlesAction An action that allows particles t…

[原][粒子特效][spark]插值器interpolator

深入浅出spark粒子特效连接:https://www.cnblogs.com/lyggqm/p/9956344.html 插值器是体现粒子生命周期变化的功能 group使用到插值器的方式: 可以看到,再一个group中,我们可以插入的插值器有:颜色,大小,质量,角度,纹理索引(针对一张多图N*M),旋转速度 interpolator 插值器基类 A helper method that linearly interpolates a value The result is computed t…

[原][粒子特效][spark]粒子系统system、主节点group、渲染器render

深入浅出spark粒子特效连接:https://www.cnblogs.com/lyggqm/p/9956344.html system: A class defining a complete system of particles. 最重要的就两个函数: addController()//Adds a controller to the system. addGroup() 可见一个完整的粒子system可以有几个group和controller组成 group: The group is…

[原][粒子特效][spark]发射器emitter

深入浅出spark粒子特效连接:https://www.cnblogs.com/lyggqm/p/9956344.html group添加emitter的方式: eimtter: 上图是spark源码中发射器emitter的框架我们开始逐个分析: 1.NormalEmitter An emitter that emits particles following a Zone normals. 一个向另外一个zone(区域)方向发射粒子的喷射器. The Zone used to derive…

[原][粒子特效][spark]深入浅出osgSpark

背景: 目前我使用的spark粒子特效库是2.0 这个库好像是原来鬼火引擎的一部分,需要从github上找现在我要将其使用到我自己开发的基于osgearth开的三维地图引擎中步骤: 1.编译spark库 2.编译osgspark库,由王锐写的源码,社区或者github上有源码和粒子 3.将从osgspark生成的粒子node放置到osgearth中(支持绝对位置和相对位置~难点) 4.制作spark的脚本化支持(将每一种独立的粒子做成xml文件单独保存) 5.粒子编辑器制作 6.写文档(目前…

LOG收集系统(一)：原日志至收集

Date: 20140207Auth: Jin 设置一个LOG收集系统1. 收集原生(不解析,不压缩)的业务日志和WEB日志(NGINX,PHP)2. 提供给开发,测试直接阅读和下载需求分析原生日志,所以不需要其他程序介入,需要收集和阅读下载,具体分析开发测试人员拿到日子自行处理1.收集可以通过FTP采集2.阅读和下载可以通过WEB形式3.收集周期可以通过crontab控制脚本实现, 初步设置为每小时4.核心是收集日子的脚本,考虑到扩展和重复使用,我使用python编写d 步骤一.搭建FTP服…

[原][unreal][UE][spark]分析unreal engine 虚幻引擎的粒子编辑器:Cascade

参考:https://www.raywenderlich.com/270-unreal-engine-4-particle-systems-tutorial (使用了一个飞机射击游戏的粒子来展示,全英文) 虚幻引擎中文文档:http://api.unrealengine.com/CHN/ 详细的官方“级联粒子系统”cascade文档入口:http://api.unrealengine.com/CHN/Engine/Rendering/ParticleSystems/index.html 首先,我…

Spark log4j日志配置详解(转载)

一.spark job日志介绍 spark中提供了log4j的方式记录日志.可以在$SPARK_HOME/conf/下,将 log4j.properties.template 文件copy为 log4j.properties 来启用log4j配置.但这个配置为全局配置,不能单独配置某个job的运行日志. 在Spark的conf目录下,把log4j.properties.template修改为log4j.properties,原来的内容如下:(log4j的用法和配置,请参考另一篇文档)…

spark日志配置及问题排查方式。

此文已由作者岳猛授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. 任何时候日志都是定位问题的关键,spark也不会例外,合适的配置和获取spark的driver,am,及executor日志将会提升问题定位的效率,这里初步整理了spark的一些配置,更好的日志配置还需要根据实际的情况. 1)dirver日志的配置,可以通过spark.driver.extraJavaOptions设置加载log4j.properties文件的路径,如: spark.driver.extra…

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Input DStreams 和 Receivers(接收器) DStreams 上的 Transformations(转换) DStreams 上的输出操作 DataFrame 和 SQL 操作 MLlib 操作缓存 / 持久性 Checkpointing Accumulators, Broadcas…

Tigase-01 使用spark或spi登录Tigase服务器

喜欢研究IM技术的同学们,欢迎加入群 310790965 一起来学习,有什么问题可以一起讨论. 本源码是基于tigase v7.1.0来分析的,群里文件中会上传一个完整能跑的源代码压缩包,网上tigase资料有点少,曾经使用tigase好长一段时间, 所以有些懂的地方想分享一起学习,现在开发不在这一块,虽然现在挺忙的,但我有兴趣分享出来大家一起学习进步,还是感觉挺快乐的.有时间就会分享,有什么可以加群里一起学习!!! 之前源码分析是在http://jianfulove.iteye.com/adm…

GC调优在Spark应用中的实践（转载）

Spark是时下非常热门的大数据计算框架,以其卓越的性能优势.独特的架构.易用的用户接口和丰富的分析计算库,正在工业界获得越来越广泛的应用.与Hadoop.HBase生态圈的众多项目一样,Spark的运行离不开JVM的支持.由于Spark立足于内存计算,常常需要在内存中存放大量数据,因此也更依赖JVM的垃圾回收机制(GC).并且同时,它也支持兼容批处理和流式处理,对于程序吞吐量和延迟都有较高要求,因此GC参数的调优在Spark应用实践中显得尤为重要.本文主要讲述如何针对Spark应用程序配置JV…

GC调优在Spark应用中的实践[转]

作者:仲浩出处:<程序员>电子刊5月B 摘要:Spark立足内存计算,常常需要在内存中存放大量数据,因此也更依赖JVM的垃圾回收机制.与此同时,它也兼容批处理和流式处理,对于程序吞吐量和延迟都有较高要求,因此GC参数的调优在Spark应用实践中显得尤为重要. Spark是时下非常热门的大数据计算框架,以其卓越的性能优势.独特的架构.易用的用户接口和丰富的分析计算库,正在工业界获得越来越广泛的应用.与Hadoop.HBase生态圈的众多项目一样,Spark的运行离不开JVM的支持.由于…

Apache Spark 2.2.0 中文文档

Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN Geekhoo 关注 2017.09.20 13:55* 字数 2062 阅读 13评论 0喜欢 1 快速入门使用 Spark Shell 进行交互式分析基础 Dataset 上的更多操作缓存独立的应用快速跳转本教程提供了如何使用 Spark 的快速入门介绍.首先通过运行 Spark 交互式的 shell(在 Python 或 Scala 中)来介绍 API, 然后展示如何使用 Java , Scal…

基于spark和flink的电商数据分析项目

目录业务需求业务数据源用户访问Session分析 Session聚合统计 Session分层抽样 Top10热门品类 Top10活跃Session 页面单跳转化率分析各区域热门商品统计分析广告点击流量实时统计分析总体流程实时黑名单广告点击实时统计统计每天各省top3热门广告统计各广告最近1小时内的点击量趋势:各广告最近1小时内各分钟的点击量 Flink实现本文是原项目的一次重写.主要是用DataFrame代替原来的RDD,并在一些实现上进行优化,还有就是实时流计算改用Fli…

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南

Oozie分布式任务的工作流——Spark篇

Spark是现在应用最广泛的分布式计算框架,oozie支持在它的调度中执行spark.在我的日常工作中,一部分工作就是基于oozie维护好每天的spark离线任务,合理的设计工作流并分配适合的参数对于spark的稳定运行十分重要. Spark Action 这个Action允许执行spark任务,需要用户指定job-tracker以及name-node.先看看语法规则: 语法规则 <workflow-app name="[WF-DEF-NAME]" xmlns="uri…

Spark 官方文档（4）——Configuration配置

Spark可以通过三种方式配置系统: 通过SparkConf对象, 或者Java系统属性配置Spark的应用参数通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量通过log4j.properties配置日志属性 Spark属性 Spark属性可以为每个应用分别进行配置,这些属性可以直接通过SparkConf设定,也可以通过set方法设定相关属性. 下面展示了在本地机使用两个线程并发执行的配置代码: val conf = new SparkConf() .setMas…

《图解Spark：核心技术与案例实战》介绍及书附资源

本书中所使用到的测试数据.代码和安装包放在百度盘提供下载 ,地址为https://pan.baidu.com/s/1o8ydtKA 密码:imaa 另外在百度盘提供本书附录下载 ,地址为http://pan.baidu.com/s/1o7Busye 密码:shdf 为什么要写这本书在过去的十几年里,由于计算机普遍应用和互联网的普及数据呈现了爆发式增长,在这个背景下Doug Cutting受到谷歌两篇论文(GFS和MapReduce)的启发下开发Nutch项目, 2006年Hadoop脱离…

Flume采集处理日志文件

Flume简介 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力. 系统功能日志收集 Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据. 数据处理 Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的…

iNeedle日志下载功能问题

问题: iNeedle系统本身包含日志下载功能,主要是将web服务器中的用户访问日志按照一定条件进行筛选并下载,提供管理者分析.但是这次的测试中发现iNeedle日志下载一直会卡住,web界面显示正在生成文件,这个问题郁闷了老半天.后来在雷哥的细心指导下终于弄明白了问题的原因,并轻易的解决掉,现在日志功能可以实现下载功能. 原理: 由于日志文件一般会比较大,这时用java直接去根据条件筛选并下载日志效率比较低下,这时就在底层采用C代码对文件进行索引筛选,并生成所需要的日志文件,然后由java调用…