记一次Apache Carbondata PR的经历】的更多相关文章

 前言 前段时间有幸接触到Apache Carbondata,试用过程中发现了一个小小的问题,并且又很快的定位到了问题.然后在社区群里反映了下,负责人问愿不愿意提个JIRA,PR,然后我在没有任何开源项目PR过的情况下竟然欣然答应了.(可能跟ZB心有关吧o(╥﹏╥)o)然后来说说这段美妙而又酸爽的经历吧[学习到了很多]! 简介 CarbonData是首个由中国公司发起并捐献给Apache基金会的开源项目,于2017年4月正式成为Apache顶级项目,由华为开源并支持Hadoop的高性能列式存储文…
摘要:今天我们就来解构数据湖的核心需求,同时深度对比Apache CarbonData.Hudi和Open Delta三大解决方案,帮助用户更好地针对自身场景来做数据湖方案选型. 背景 我们已经看到,人们更热衷于高效可靠的解决方案,拥有为数据湖提供应对突变和事务处理的能力.在数据湖中,用户基于一组数据生成报告是非常常见的.随着各种类型的数据汇入数据湖,数据的状态不会一层不变.需要改变各种数据的用例包括随时间变化的时序数据.延迟到达的时延数据.平衡实时可用性和回填.状态变化的数据(如CDC).数据…
(出处:http://www.cnblogs.com/linguanh/) 前序: 距离  2016 腾讯 TST 校招面试结束已经5天了,3月27日至今,目前还在等待消息.从投简历到两轮电面,再到被邀请到腾讯深圳总部进行了3轮 TST计划(Top student talent) 面试,整个过程历时一个月,我都觉得我是幸运的,还有,我投的是安卓移动端开发实习生,时年大三.至此,故择此文,邀君共享之. 第一轮电面: 距离投递简历6天后,3月10号,当时我还在学校的创业工场里面写着代码,突然来了个电…
说在前面的话 朋友,你经历过部署好的服务突然内存溢出吗? 你经历过没有看过Java虚拟机,来解决内存溢出的痛苦吗? 你经历过一个BUG,百思不得其解,头发一根一根脱落的烦恼吗? 我知道,你有过! 但是我还是要来说说我的故事.................. 背景: 有一个项目做一个系统,分客户端和服务端,客户端用c++写的,用来收集信息然后传给服务端(客户端的数量还是比较多的,正常的有几千个), 服务端用Java写的(带管理页面),属于RPC模式,中间的通信框架使用的是thrift. thri…
1.参数绑定失败 org.mybatis.spring.MyBatisSystemException: nested exception is org.apache.ibatis.binding.BindingException: Parameter 'msgs3' not found. Available parameters are [msgs, param1]  相关信息 <insert id="insertBatch"> INSERT INTO t_user (id…
最近的工作是基于 Apache HUE 做二次开发.刚接手 HUE 的代码的时候,内心是崩溃的:开源的代码,风格很多种, 代码比较杂乱; 虽是基于 Django 开发的,但是项目的结构改变很大; 很多地方留下了坑; 前人基于此项目做了一些开发, 考虑欠佳, 杂乱中又增添了些杂乱...... 没办法,既然参与了进来,就贡献自己的一份力量. 今天在优化 Lib Sentry 的时候,不经意间就出现了一个 Bug. 项目中,有处使用了全局锁的形式,来将 Sentry 的链接存入到全局变量中. 我试着用…
引言 二狗:二胖快醒醒,赶紧看看刚才报警邮件,你上次写的保存用户接口耗时(<二胖的参数校验坎坷之路>)大大上升,赶紧排查下原因. 二胖:好的,马上看,内心戏可十足(心里却在抱怨,大中午的搅我发财美梦,刚刚梦见我买的股票又涨停了就被叫醒了).牢骚归牢骚,自己的问题还是得看啊,毕竟是自己写的bug,含着泪也要把它修复掉.二胖对分析这种问题还是得心应手的,毕竟已经是久经职场的老油条了. 测试环境复现问题 二胖首先通过内部的监控工具看了下这段时间的网络是否正常,以及cpu的使用情况.数据库的耗时等,这…
遇到的问题: 在linux上安装php5.5.26.phalcon2.0扩展.xhprof扩展,均正常安装,并可单独运行.但放在一起运行时出现“Segmentation fault”错误.注:xhprof是从github上下载的最新版. 遇到问题时的上下文: 1: 新建项目,使用phalcon命令行工具 phalcon create-project store 2:修改入口文件,加入xhprof支持 3:web访问出现502,无任何php级别的错误日志 在终端下执行:php index.php…
最近花了差不多1天的时间在折腾一个Bug,该Bug的表象如下: 这个Bug还特别独特,在开发电脑中无提示,在终端用户那里每次使用软件的时候都报这个.仔细思考了一下最近在源码中新添加的功能,没发现有啥特别明显的问题.于是,根据字面意思的理解是“运行时错误”,所以一开始解决这个问题的思路是将所有应用程序的运行时拷贝至应用程序目录.尝试过之后,依然报这个异常.分析可能跟运行时的动态链接库没有关系.于是,调整解决问题的思路,考虑将工程中新添加的代码进行分割.部分部分的测试新添加的代码到底那里有问题,排查…
项目背景: 在这次影像系统中,我们利用大数据平台做的是文件(图片.视频等)批次的增删改查,每个批次都包含多个文件,上传完成以后要添加文件索引(文件信息及批次信息),由于在Hbase存储的过程中,每个文件都对应一个文件rowKey,一个批次就会有很多个RoweKey,查询的下载的时候就必须根据每个文件的rowkey找到对应的文件,如果一个批次有很多个文件的话,就需要查找很多次,这样是很浪费时间的,一开始没注意这么多,开发并且完成功能测试后,觉得一切OK,但是作为大数据后台,对效率的要求非常高,在压…
现状描述与需求描述 最近梳理系统功能的时候发现现在每个月处理完数据之后,需要给别的系统传送批接口文件,接口文件的内容是来自于Oracle数据表中的数据.我每次都需要手工执行一下存储过程,让数据从正式表中插入到接口表中,然后再借助plsql工具软件sqlplus的spool工具导出接口文件,然后把导出来的7个接口文件,打成zip压缩包,再通过前台系统实现上传(这一部分功能之前已经在前台系统实现部署上线了,详细可参见博文:https://www.cnblogs.com/zhongfengshan/p…
上周工作遇到一个特别棘手的bug,花了我一天时间去搞. 事情是这样的,打包那边的同事过来跟我说我的项目无法运行自动打包,卡在maven package上面,报错为:[error]未经检查的异常,需要捕捉或者抛出处理.我看下了报错的类,然后就纳闷了,这个类我已经几百年没动过了,怎么会报错呢?一定是外部因素.而且当时刚好公司把svn代码迁移到git上面去,我就自己尝试本地git clone下来运行maven package,毫无疑问,没报错.然后我在想会是maven版本问题,检查了配置文件,又在li…
xu言: 最近,某电信机房因为空调漏水问题导致了我司的Dell R430 服务器的主板及CPU不同程度受损.服务器已经不能正常开机.但是,又基于把服务器的数据需要最短时间进行恢复.抱着试试看的心里进行了磁盘整体迁移到备机上面(相同型号阵列卡,相同型号服务器,仅批次不同) Dell PowerEdge RAID控制器(PERC) 9系列的阵列卡做了一番调查:(数据来自Dell官方网站) 型号 接口 支持 PCI支持 SAS 接口 高速缓存 大小 回写 高速缓存 RAID级别 硬盘最大数量 支持 R…
这次翻车,真的,在网上绝对找不到回答的. 只有在WTS的Issues讨论中才找到,哈哈 不过这个应该比较少遇到吧,据我所知,提出Issue那个大胸弟和我都遇到了... 翻车具备的条件如下: 1. 使用了WTS(Windows Template Studio)的What‘s New Prompt,版本是1.7之前的.我的项目是2017年9月份创建的,版本应该是的.好像1.6当时 2. 添加了UWP Community Toolkit 的 SystemInformation 类, 我是直接引用了Sy…
背景: 有一个项目做一个系统,分客户端和服务端,客户端用c++写的,用来收集信息然后传给服务端(客户端的数量还是比较多的,正常的有几千个), 服务端用Java写的(带管理页面),属于RPC模式,中间的通信框架使用的是thrift. thrift很多优点就不多说了,它是facebook的开源的rpc框架,主要是它能够跨语言,序列化速度快,但是他有个不讨喜的地方就是它必须用自己IDL来定义接口 thrift版本:0.9.2. 问题定位与分析 步骤一.初步分析 客户端无法连接服务端,查看服务器的端口开…
一.问题背景 现网出现慢查询,在500万数量级的情况下,单表查询速度在30多秒,需要对sql进行优化,sql如下: 我在测试环境构造了500万条数据,模拟了这个慢查询. 简单来说,就是查询一定条件下,都有哪些用户的.很简单的sql,可以看到,查询耗时为37秒. 说一下app_account字段的分布情况,随机生成了5000个不同的随机数,然后分布到了这500万条数据里,平均来说,每个app_account都会有1000个是重复的值,种类共有5000个. 二.看执行计划 可以看到,group by…
strcpy和memcpy都没有处理内存覆盖问题. 函数描述 The memcpy function copies count bytes of src to dest. If the source and destination overlap, this function does not ensure that the original source bytes in the overlapping region are copied before being overwritten. U…
转载:https://my.oschina.net/u/3627055/blog/2995973 背景 生产环境有二台阿里云服务器,均为同一时期购买的,CPU.内存.硬盘等配置相同.具体配置如下: 节点 CPU 内存 硬盘 其它 A 2CPU 4G 普通云盘 Centos6.4 64位+JDK1.8.0_121 B 2CPU 4G 普通云盘 Centos6.4 64位+JDK1.8.0_121 由于这二服务器硬件和软件配置相同,并且运行相同的程序,所以在Nginx轮询策略均weight=1,即平…
环境: CVE-2017-0213下载 提权步骤: 提权失败.... 好迷啊,,,,事后查了一下补丁 我的wind7上也没装啊,然后防火墙也是关闭的 迷了迷了....…
前言 公司目前现有的一款产品是使用vue v2.0框架实现的,配套的打包工具为webpack v3.0.整个项目大概有80多个vue文件,也算不上什么大型项目. 只不过每次头疼的就是打包所耗费的时间平均在一分钟左右,而且打包后有几个文件显示为[big],也就是文件体积过大. 最近就想着捣鼓一下,看能不能在此前的基础上做一些优化,顺带记录下来分享给大家. webpack打包优化 关于webpack的打包优化一般会从两个方面考虑:缩短打包时长和降低打包后的文件体积,这两个方面也刚好是前面我需要解决的…
摘要:CarbonData 在 Apache Spark 和存储系统之间起到中介服务的作用,为 Spark 提供的4个重要功能. 本文分享自华为云社区<Make Apache Spark better with CarbonData>,原文作者:大数据修行者 . Spark 无疑是一个强大的处理引擎和一个用于更快处理的分布式集群计算框架.不幸的是,Spark在一些方面也存在不足.如果我们将 Apache Spark 与 Apache CarbonData 结合使用,它可以克服这些不足: 1.…
序言 今年的双十一对阿里巴巴中间件消息团队来说,注定是个不平凡的日子.在这一天,稳定性小组重点攻克的低延迟存储解决方案成功地经受住了大考.整个大促期间,99.996%的延迟落在了10ms以内,极个别由于GC引发的停顿在50ms以内,对于读写比例几乎均衡的分布式消息引擎来说,这一结果无不令人兴奋.甚至可以毫不夸张地讲,即便拿到明年的Java one大会上,也必定是场非常吸睛的技术干货分享.接下来,团队同学会把相关的经验提炼总结出来,期待能在接下来全球Qcon大会上为小伙伴们带去尽可能多的干货分享.…
深度访谈:华为开源数据格式 CarbonData 项目,实现大数据即席查询秒级响应   Tina 阅读数:146012016 年 7 月 13 日 19:00   华为宣布开源了 CarbonData 项目,该项目于 6 月 3 日通过 Apache 社区投票,成功进入 Apache 孵化器.CarbonData 是一种低时延查询.存储和计算分离的轻量化文件存储格式.那么相比 SQL on Hadoop 方案.传统 NoSQL 或相对 ElasticSearch 等搜索系统,CarbonData…
  深度访谈:华为开源数据格式 CarbonData 项目,实现大数据即席查询秒级响应   Tina 阅读数:145842016 年 7 月 13 日 19:00   华为宣布开源了 CarbonData 项目,该项目于 6 月 3 日通过 Apache 社区投票,成功进入 Apache 孵化器.CarbonData 是一种低时延查询.存储和计算分离的轻量化文件存储格式.那么相比 SQL on Hadoop 方案.传统 NoSQL 或相对 ElasticSearch 等搜索系统,CarbonDa…
前言 博客草稿中“SOA生态系统初探”一文一直没有进展,感觉要将SOA.Web Service(WS).REST等概念阐述清楚还需要一些酝酿. 顶天须得立地,这里记录一些“下里巴人”的实践,主要考察Apache Axis2和Apache CXF两个Java服务开发框架,首先从CXF着手. 目录 1 工具 2 Eclipse中Apache CXF配置 3 运行实例 4 参考资料 内容 1 工具 Windows 7 Eclipse Juno(4.2.0, JEE version, build-id:…
在滴滴的两年一直在加班,人也变懒了,就很少再写博客了,最近在进行Carbondata和hive集成方面的工作,于是乎需要对Carbondata进行深入的研究. 于是新开一个系列,记录自己学习Carbondata的点点滴滴,希望对大家也有所帮助. 1.环境准备 当前版本是1.2.0-SNAPSHOT git clone https://github.com/apache/carbondata.git 先用IDEA打开carbondata的代码,点击上方的View -> Tool Windows -…
关键词:carbondata spark thrift 数据仓库 [Install thrift 0.9.3] 注意 要装thrift-java必须先装ant . 有人说要装boost,我在centos6上没有装一样可以运行,猜测可能是c/cpp需要,java/python的不需要 thrift安装包可以在thrift官网下载,注意版本,手动下载地址:http://www.apache.org/dyn/closer.cgi?path=/thrift/0.9.3. sudo yum -y inst…
big-data (49):  Apache Accumulo  Apache Airavata  Apache Ambari  Apache Apex  Apache Avro  Apache Beam  Apache Bigtop  Apache BookKeeper  Apache Calcite  Apache CarbonData  Apache CouchDB  Apache Crunch  Apache Daffodil (Incubating)  Apache DataFu (I…
原文连接 http://xiguada.org/carbondata_compile/ CarbonData是啥? CarbonData is a fully indexed columnar and Hadoop native data-store for processing heavy analytical workloads and detailed queries on big data. In customer benchmarks, CarbonData has proven to…
CarbonData是一种高性能大数据存储方案,支持快速过滤查找和即席OLAP分析,已在20+企业生产环境上部署应用,其中最大的单一集群数据规模达到几万亿.针对当前大数据领域分析场景需求各异而导致的存储冗余问题,业务驱动下的数据分析灵活性要求越来越高,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持多种应用场景,并通过多级索引.字典编码.预聚合.动态Partition.准实时数据查询等特性提升了IO扫描和计算性能,实现万亿数据分析秒级响应.主要适用于查询场景(以空间换时间)…