1. Es-Hadoop异常: org.elasticsearch.hadoop.EsHadoopException: Could not write all entries [615/300864] (maybe ES was overloaded?). Bailing out... at org.elasticsearch.hadoop.rest.RestRepository.flush(RestRepository.java:235) at org.elasticsearch.hadoop…
1. 背景 近日帮外部门的同事处理一个小需求,就是将HDFS中2018年至今所有存储的sequence序列化文件读取出来,重新保存成文本格式,以便于他后续进行处理.由于同事主要做机器学习方向,对hadoop或spark方面不了解,所以我就想着这么小的需求,简单支持下即可,花个几分钟写了一个脚本提供给他,没想到,过了一天他又找到我,说脚本读取出来的文件大部分有问题…原来自己代码有bug 2. 初始版本 Spark或Hadoop读取sequence文件只需调用相应函数即可. 第一版本的spark程序…
1. 背景 近日在一个Hadoop项目中使用MultipleInputs增加多输入文件时,发现相同路径仅会加载一次,导致后续的统计任务严重失真.本博文旨在记录异常的排查及解决方案. 2. 情景重现 (1) 准备简版的输入文件test,文件内容为"i am ws",输入的HDFS路径为/work/justTest/test (2) 源码信息如下,主要是wordCount实现,其中/work/justTest/test作为输入路径,被输入两次: package com.ws.test; i…
1. 场景 基于客户的数据处理需求,客户分发诸多小数据文件,文件每行代表一条记录信息,且每个文件以"类型_yyyyMMdd_批次号"命名.由于同一条记录可能存在于多个文件中,且处于多个文件中的相同记录最终只有时间最新的记录有效,但文件的每行记录并未提供时间信息,因此需要从每个文件名中提取时间信息作为文件每行记录信息. 因此,考虑到小文件数量较多,且数据总量近千万级别,因此借助Hadoop工具,在MapReduce中获取处理该条记录所对应的拆分后的文件名信息. 2. 技术实现 当Hado…
1. 背景 近日,线上的服务出现异常,调用服务返回的JSON格式数据不完整,导致客户端解析异常,因此记录了本次的填坑之旅(nnd)... 2. 排查过程 2.1 服务器分析 登录到服务所在linux服务器,查看磁盘I/O信息iotop.CPU信息top.网络请求netstat -alnp等一通操作,木有发现相关问题.随执行了df -h查看磁盘占用 发现,系统盘根目录"/"的共计60G的磁盘占用100%,好吧,问题大概率就在这了.随后进入根目录,打算查看哪个文件夹占用最多,删除些文件,减…
  WIN7中 HttpListener 拒绝访问 异常解决 C# http://www.cnblogs.com/cmdszh/archive/2012/08/16/httplistener.html   在项目中使用HttpListener为本地的Flex提供了一个图片传输的功能 注册地址:http://+:9527/icon 运行生产的程序出现: ----------------------------------- UnHandledException Message:拒绝访问 在Syst…
0. 问题说明 环境为 Windows 10 在 IDEA 中运行 Hadoop 程序报   winutils.exe 不存在  错误 1. 解决方案 [1.1 解压] 解压 hadoop-2.7.3.zip 文件到自定义目录 [1.2 配置 Hadoop 环境变量] 新建HADOOP_HOME,变量值为D:\program\hadoop-2.7.3 添加PATH,添加%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin [1.3 重启 IDEA] [ 1.4 测试配置 ]…
最近,在项目开发过程中使用了RedisTemplate,进行单元测试时提示“Field redisTemplate in com.example.demo1.dao.RedisDao required a bean of type ‘org.springframework.data.redis.core.RedisTemplate’ that could not be found”,翻译过来就是“找不到类型为RedisTemplate的bean”.当然,仅看这句话我们无法确定为什么会出现这个问题…
1    运行环境说明 1.1     硬软件环境 1.2     机器网络环境 2    :安装Eclipse并测试 2.1     内容 2.2     实现过程 2.2.1   2.2.2   2.2.3   2.2.4   2.2.5   2.2.6   2.2.7   2.2.8   2.2.9   2.2.10编写代码 2.2.11设置运行参数 2.2.12运行并查看结果 3    :传递参数问题 3.1     内容 3.2     程序代码 3.2.1   3.3     实现过…
1.下载并安装eclipse2.https://github.com/winghc/hadoop2x-eclipse-plugin3.下载插件到eclipse的插件目录 4.配置hadoop安装目录 打开eclipsewindow ->preference -> hadoop Map/Reduce -> Hadoop installation directory 5.配置Map/Reduce视图window ->Open Perspective -> other->Ma…
我的配置环境看我的上篇博文. 配置过程: (1)把插件放到eclipse/plugins目录下.(我的版本上一篇也有) )重启eclipse,配置Hadoop installation directory 如果插件安装成功,打开Windows—Preferences后,在窗口左侧会有Hadoop Map/Reduce选项,点击此选项,在窗口右侧设置Hadoop安装路径 )配置Map/Reduce Locations 打开Windows—Open Perspective—Other,选择Map/R…
背景: Dnf的周年庆活动之一,游戏在6月22日 06:00~6月23日 06:00之间登陆过游戏后可以于6月25日 16:00~7月04日 06:00领取奖励 目标:连续四天自动运行脚本,自动领取所有奖励,每天领取一个 进度:当前未知登陆后是否还有选择区服弹窗,故当前仅处理到成功点击为止 思路: python+selenium自动化点击,程序定时运行 实现方法:timer_exerice.py编写死循环定时器,30s判断一次是否到达相应时间,若到达时间,开始执行selenium_exerice…
避免使用GroupByKey 我们看一下两种计算word counts 的方法,一个使用reduceByKey,另一个使用 groupByKey: val words = Array("one", "two", "two", "three", "three", "three") val wordPairsRDD = sc.parallelize(words).map(word =>…
Ionic2混合开发,入坑系列:Ionic2中腾讯Bugly异常捕获以及上报 1.Ionic2中处理全局异常,直接继承IonicErrorHandler即可,代码如下 import { IonicErrorHandler } from 'ionic-angular'; import { Bugly } from './../plugins/TX-bugly.plugin' import { Config } from './../config/config' /** * Ionic2全局异常捕获…
1. rabbitmq在ios中实战采坑 1.1. 问题 ios使用rabbitmq连接,没过多久就断开,并报错.且用android做相同的步骤并不会报错,错误如下 Received connection: <RMQConnection: 0x600002594080> disconnectedWithError: Error Domain=GCDAsyncSocketErrorDomain Code=7 "Socket closed by remote peer" Use…
1. mybatis中集成sharing-jdbc采坑 1.1. 错误信息 Caused by: org.apache.ibatis.binding.BindingException: Invalid bound statement (not found) 1.2. 出现场景 我用的mybatis-plus,现在要把ShardingSphere也就是sharing-jdbc集成进来,java集成方式没问题,我打算用springboot的集成方式,因为这样只需要改配置文件就可以添加主从信息,分库分…
公司的CDH早就装好了,一直想自己装一个玩玩,最近组了台电脑,笔记本就淘汰下来了,加上之前的,一共3台,就在X宝上买了CPU和内存升级了下笔记本,就自己组了个集群. 话说,好想去捡垃圾,捡台8核16线程64G内存的回来,手动滑稽. 3台笔记本的配置和角色分配: 宿主CPU 宿主内存 虚拟机 虚拟机CPU/台 角色及内存 双核双线程 4G 1台 双核双线程 nexus.yum.ntp 双核四线程 8G 2台 双核四线程 master(4G).node01(2G) 双核四线程 8G 3台 双核四线程…
系统:Centos 7,内核版本3.10 本文介绍如何从0利用Docker搭建Hadoop环境,制作的镜像文件已经分享,也可以直接使用制作好的镜像文件. 一.宿主机准备工作 0.宿主机(Centos7)安装Java(非必须,这里是为了方便搭建用于调试的伪分布式环境) 1.宿主机安装Docker并启动Docker服务 安装: yum install -y docker 启动: service docker start 二.制作Hadoop镜像 (本文制作的镜像文件已经上传,如果直接使用制作好的镜像…
项目组有把js接入C++服务求的需求,故开始了v8接入的工作,用了一天多时间,v8才在centos环境上成功安装,过程中踩了很多坑,下面将采坑过程记录如下: centos下编译安装v8:   查看centos版本号: #cat /etc/redhat-release   在环境上gcc版本(需要支持C++14).glibc库(GLIBC-2.18)版本都OK,GN编译选项配置好,并且环境变量都配置成功的前提下,下面的V8编译.安装的脚本,功能是OK的:   #How to compile and…
xl_echo编辑整理,欢迎转载,转载请声明文章来源.欢迎添加echo微信(微信号:t2421499075)交流学习. 百战不败,依不自称常胜,百败不颓,依能奋力前行.--这才是真正的堪称强大!! --- ##### 阅读建议:如果系统没有做过相关导入导出,又需要这个量级的可以直接阅读底部的poi-ooxm的应用 > excel使用poi直接导出最大值是多少?估计很多人不会关注这个问题,因为很少有业务要求excel直接导出上万条数据,更甚者可能没有听过excel直接导出100w条数据.这里给大家…
@WebFilter@WebFilter 用于将一个类声明为过滤器,该注解将会在部署时被容器处理,容器将根据具体的属性配置将相应的类部署为过滤器.该注解具有下表给出的一些常用属性 ( 以下所有属性均为可选属性,但是 value.urlPatterns.servletNames 三者必需至少包含一个,且 value 和 urlPatterns 不能共存,如果同时指定,通常忽略 value 的取值 ): 表 3. @WebFilter 的常用属性 下面是一个简单的示例: @WebFilter(ser…
聊聊.netcore采坑那一些事之系统时间and文件路径 Hi,小伙伴大家好,最近工作比较忙,很久没有和大家分享点东西了.这个周末都加了两天班.公司的新项目都是采用.netcore来开发,在开发过程中,也踩到了一些坑,在此先总结两个坑,这两个坑都是关于Linux(CentOS)和windows下的兼容性问题.我们最开始的开发环境接口调用一直是部署在windows环境运行一切正常,但是部署到Linux(CentOS)环境下,就出现了这两个问题,其实问题也简单:获取系统时间,实际时间少了8个小时:文…
判断相等 字符串判断相等         String str1 = null;         String str2 = "java金融";        // str1.equals(str2);  错误的写法         str2.equals(str1); // 常量写前面         Objects.equals(str1, str2);// 借助jdkUtil工具类         StringUtils.equals(str1,str2); // 自定义工具类…
背景 先澄清一下,整个过程问题都不是我解决的,我在里面就是起了个打酱油的角色.因为实际上我负责这个项目,整个过程也比较清楚.之前也跟具体负责的同事说过,等过段时间带他做做项目复盘.结果一直忙,之前做的事情都快忘了也没带他做复盘.所以趁着还记得,总结一下这个问题,也算一起做个复盘总结了. 本周一的时候,我们测试环境遇到一个问题:启动一个服务就会导致后端调用耗时增加.当时咨询了对这个问题之前有了解的同事得到的答复是因为一笔请求发到两套测试环境(一个请求需要在两套环境下运行结果做对比),因为这两套环境…
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 腾讯微云:http://url.cn/TnGbdC 360云盘:http://yunpan.cn/cQ4c2UALDjSKy 访问密码 45e2土豆:http://www.tudou.com/programs/view/5uuKOP38d6s/优酷:http://v.youku.com/v_show/id_…
1. Spark中的基本概念 Application:基于Spark的用户程序,包含了一个driver program和集群中多个executor. Driver Program:运行Application的main()函数并创建SparkContext.通常SparkContext代表driver program. Executor:为某Application运行在worker node上的一个进程.该进程负责运行Task,并负责将数据存在内存或者磁盘 上.每个Application都有自己独…
Spark中的shuffle是在干嘛? Shuffle在Spark中即是把父RDD中的KV对按照Key重新分区,从而得到一个新的RDD.也就是说原本同属于父RDD同一个分区的数据需要进入到子RDD的不同的分区. 但这只是shuffle的过程,却不是shuffle的原因.为何需要shuffle呢? Shuffle和Stage 在分布式计算框架中,比如map-reduce,数据本地化是一个很重要的考虑,即计算需要被分发到数据所在的位置,从而减少数据的移动,提高运行效率. Map-Reduce的输入数…
继续前一篇的内容.前一篇内容为: Spark中Worker源码分析(一)http://www.cnblogs.com/yourarebest/p/5300202.html 4.receive方法, receive方法主要分为以下14种情况: (1)worker向master注册成功后,详见代码 (2)worker向master发送心跳消息,如果还没有注册到master上,该消息将被忽略,详见代码 (3)worker的工作空间的清理,详见代码 (4)更换master,详见代码 (5)worker注…
眼下,SPARK在大数据处理领域十分流行.尤其是对于大规模数据集上的机器学习算法.SPARK更具有优势.一下初步介绍SPARK在linux中的部署与使用,以及当中聚类算法的实现. 在官网http://spark.apache.org/上直接下载编译好的tar安装包能够加快部署速度. spark的执行依赖于scala2.10.4,注意此版本号一定要正确,否则spark不能正确执行. 1.scala的安装非常easy.在官网http://www.scala-lang.org上下载安装包,解压到随意路…
1.PairRDD介绍     Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,PairRDD提供了reduceByKey()方法,可以分别规约每个键对应的数据,还有join()方法,可以把两个RDD中键相同的元素组合在一起,合并为一个RDD. 2.创建Pair RDD     程序示例:对一个英语单词组成的文本行,提取其中的第一个单词作为key,将整个句子作为value,建立 P…