本篇文章内容来自2016年TOP100summit Microsoft资深产品经理邢国冬的案例分享.编辑:Cynthia 邢国冬(Tony Xing):Microsoft资深产品经理.负责微软应用与服务集团的大数据平台构建,数据产品与服务. 导读:微软的ASG (应用与服务集团)包含Bing,.Office,.Skype.每天产生多达5 PB以上数据,如何构建一个高扩展性的data audit服务来保证这样量级的数据完整性和实时性非常具有挑战性.本文将介绍微软ASG大数据团队如何利用Kafka.…
很荣幸受邀参加Top100Summit全球软件案例研究峰会,这次的大会主题是<技术推动商业变革>,组委会从全国投稿的460多件案例中甄选出100件具有代表价值的案例,进行为期4天的分享,第一天是开幕式,有业界的诸多牛人进行演讲,演讲分享的内容如下:-----------------------------------------------------------1.被颠覆的决策模式——大数据大价值   演讲者:张亚勤 微软全球资深副总裁.微软亚太研发集团主席2.软件定义IT时代   演讲者:…
马蜂窝技术原创文章,更多干货请订阅公众号:mfwtech Kafka 是当下热门的消息队列中间件,它可以实时地处理海量数据,具备高吞吐.低延时等特性及可靠的消息异步传递机制,可以很好地解决不同系统间数据的交流和传递问题. Kafka 在马蜂窝也有非常广泛的应用,为很多核心的业务提供支撑.本文将围绕 Kafka 在马蜂窝大数据平台的应用实践,介绍相关业务场景.在 Kafka 应用的不同阶段我们遇到了哪些问题以及如何解决.之后还有哪些计划等. Part.1 应用场景 从 Kafka 在大数据平台的应…
王家林 Spark公开课大讲坛第一期:Spark把云计算大数据速度提高100倍以上 http://edu.51cto.com/lesson/id-30815.html Spark实战高手之路 系列书籍 -http://down.51cto.com/tag-spark%E8%AE%B2%E4%B9%89.html 王家林老师(邮箱18610086859@126.com 电话18610086859) 中国目前唯一的移动互联网和云计算大数据集大成者: 云计算大数据Spark亚太研究院院长和首席专家:…
Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点:但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法. 2.Spark与Hadoop的对比(Spar…
Spark介绍 按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎. 通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来流数据处理, 以及用Mlib来执行机器学习等.Java,python,scala及R语言的支持也是其通用性的表现之一. 快速: 这个可能是Spark成功的最初原因之一,主要归功于其基于内存的运算方式.当需要处理的数据需要反复迭代时,Spark可以直接在内存中暂存数据,而无需像Map Reduce一样需要把数据写回磁盘…
基于交通部796标准开发部标监控平台,选择开发语言和技术也是团队要思考的因素,其实这由团队自己擅长的技术来决定,如果擅长C#和Asp.NET, 当然开发效率就高很多.当然了技术选型一定要选用当前主流的技术,现在Asp.NET技术已经发展到5.0, 如果你还是用旧的ASP技术写程序,无疑是为以后的项目维护埋下地雷,后面新来人手学习不到技术,没有兴趣去改进,不愿意维护,没有人愿意接手.代码最关键的是要不断的重构,保持与当前的技术和需求同步,平台才有生命力,否则就会越来越臃肿而变得难以维护.开发一个基…
一.概述 在实时应用之中,难免会遇到往NoSql数据如HBase中写入数据的情景.题主在工作中遇到如下情景,需要实时查询某个设备ID对应的账号ID数量.踩过的坑也挺多,举其中之一,如一开始选择使用NEO4J图数据库存储设备和账号的关系,当然也有其他的数据,最终构成一个复杂的图关系,但是这个图数据库免费版是单机安装(集群要收费),在实时写入和查询关系的时候,导致我们一台服务器内存和cpu损耗严重,为了保证Hadoop集群的稳定性,只好替换掉这个数据库,采用流行的HBase.本文就HBase的使用心…
对于于一般的传统的自动化测试工具,如:Selenium,robotFramework,QTP等.QTP可以通过操作录制生成自动化用例脚本.生成的脚本与Selenium.robotFramework类似,都是类方法的调用以及各种方法的参数的传递.对于一个学习者来说没有2-3年的工作经验,很验难熟练撑握.而且不同的人写的自动化用例风格不一样,维护起来非常困难,要求测试人员必须撑握一门计算机语言,如:VB.python等.如下所示,是使用robotFramework编辑器基于SeleniumLibra…
目录 一.实验目的 二.实验平台 三.实验内容.要求 1.pyspark交互式编程 2.编写独立应用程序实现数据去重 3.编写独立应用程序实现求平均值问题 四.实验过程 (一)pyspark交互式编程 (二)编写独立应用程序实现数据去重 (三)编写独立应用程序实现求平均值问题 一.实验目的 1.熟悉Spark的RDD基本操作及键值对操作: 2.熟悉使用RDD编程解决实际具体问题的方法. 二.实验平台 操作系统:Ubuntu16.04 Spark版本:2.4.0 Python版本:3.4.3 三.…