作者 | 西流 阿里云技术专家 前言 当您第一次接触 Serverless 的时候,有一个不那么明显的新使用方式:与传统的基于服务器的方法相比,Serverless 服务平台可以使您的应用快速水平扩展,并行处理的工作更加有效.这主要是因为 Serverless 可以不必为闲置的资源付费,不用担心预留的资源不够.而在传统的使用范式中,用户必须预留成百上千的服务器来做一些高度并行化但执行时长较短的任务,而且必须为每一台服务器买单,即使有的服务器已经不再工作了. 以阿里云 Serverless 产品-…
BloomFilter–大规模数据处理利器 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法.通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合. 一. 实例 为了说明Bloom Filter存在的重要意义,举一个实例: 假设要你写一个网络爬虫程序(web crawler).由于网络间的链接错综复杂,爬虫在网络间爬行很可能会形成“环”.为了避免形成“环”,就需要知道爬虫程序已经访问过那些URL.给一个URL,怎样知道爬虫程序…
微软开源了一个原为内部使用的大规模数据处理项目 Data Accelerator.自 2017 年开发以来,该项目已经大规模应用在各种微软产品工作管道上. 据微软官方开源博客介绍,Data Accelerator 的一些方法可以更容易地在 Apache Spark 上构建流式传输管道: 即插即用:轻松设置输入源和输出接收器,以便在几分钟内建立管道.Data Accelerator 支持从 Eventhub 和 IoThub 取数据,并支持将数据下载到 Azure blob.CosmosDB.Ev…
转自: http://www.dbafree.net/?p=36 BloomFilter–大规模数据处理利器 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法.通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合. 一. 实例 为了说明Bloom Filter存在的重要意义,举一个实例: 假设要你写一个网络爬虫程序(web crawler).由于网络间的链接错综复杂,爬虫在网络间爬行很可能会形成"环".为了避免形成&…
BloomFilter——大规模数据处理利器 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法.通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合. 一. 实例 为了说明Bloom Filter存在的重要意义,举一个实例: 假设要你写一个网络蜘蛛(web crawler).由于网络间的链接错综复杂,蜘蛛在网络间爬行很可能会形成“环”.为了避免形成“环”,就需要知道蜘蛛已经访问过那些URL.给一个URL,怎样知道蜘蛛是否已经访…
一个多星期的时间,忍着胃痛一直在做GIS 540: Spatial Programming的课程项目,导致其他方面均毫无进展,可惜可惜.在这个过程当中临时抱佛脚学习了很多Python相关的其他内容,并应用在这次的项目当中(虽然大部分的尝试都失败了,也有不少问题需要之后寻求解决的方法).在此稍微总结下这几天写代码的心得. 项目背景 这次的项目主要是基于Python 2.7版本下的arcpy模块,调用其中的相关工具进行一系列的空间操作与数值计算,具体的内容则不便于在此透露.由于计算量过于庞大,因此尝…
大规模数据处理Apache Spark开发 Spark是用于大规模数据处理的统一分析引擎.它提供了Scala.Java.Python和R的高级api,以及一个支持用于数据分析的通用计算图的优化引擎.它还支持一组丰富的高级工具,包括用于SQL和DataFrames的Spark SQL.用于机器学习的MLlib.用于图形处理的GraphX以及用于流处理的结构化流. https://github.com/apache/spark https://spark.apache.org/ Online Doc…
面对读取上G的数据,python不能像做简单代码验证那样随意,必须考虑到相应的代码的实现形式将对效率的影响.如下所示,对pandas对象的行计数实现方式不同,运行的效率差别非常大.虽然时间看起来都微不足道,但一旦运行次数达到百万级别时,其运行时间就根本不可能忽略不计了: 故接下来的几个文章将会整理下渣渣在关于在大规模数据实践上遇到的一些问题,文章中总结的技巧基本是基于pandas,有错误之处望指正. 1.外部csv文件读写大数据量csv读入到内存分析思路:数据量非常大时,比如一份银行一个月的流水…
前言 首先介绍下在本文出现的几个比较重要的概念: 函数计算(Function Compute):函数计算是一个事件驱动的服务,通过函数计算,用户无需管理服务器等运行情况,只需编写代码并上传.函数计算准备计算资源,并以弹性伸缩的方式运行用户代码,而用户只需根据实际代码运行所消耗的资源进行付费.函数计算更多信息参考.Aliyun Serverless VSCode Extension: 是阿里云 Serverless 产品 函数计算 Function Compute 的 VSCode 插件,该插件结…
作者:弈川 审核&校对:筱姜.潇航 编辑&排版:雯燕 微服务架构介绍 微服务架构诞生背景 在互联网早期即 Web 1.0 的时代,当时流行的是单体应用,研发团队比较小,主要是外部网页,然后新闻门户等:到了新世纪的互联网时期 Web 2.0 时代,网民数量大幅激增,相继出现电商.社交这样巨无霸级别的互联网产品,出现了几百人甚至上千的研发团队在一个场景下,流量及业务复杂度相较于上一个时代有了质的变化,因此单体服务的弊端:例如研发效率等问题便显现出来. 此时出现了一个叫 SOA 的架构,其架构思…