关于learning Spark中文版翻译

在网上找了很久中文版,感觉都是需要支付一定金币才能下载,索性自己翻译算了.因为对Spark有一定了解,而且书籍前面写道,对Spark了解可以直接从第三章阅读,就直接从第三章开始翻译了,应该没有什么影响. tips:驱动程序就是写SparkRDD的main方法或者shell.(以后会慢慢补充tips) 书籍代码的github地址databricks/learning-spark) 第三章--第一部分(RDD Basic到Passing Functions to Spark) 第三章--第二部分…

Learning Scrapy 中文版翻译第一章

第一章:scrapy介绍欢迎来到scrapy之旅.通过这本书,我们将帮助你从只会一点或者零基础的Scrapy初学者达到熟练使用这个强大的框架在互联网或者其他资源抓取海量的数据.在这一章节,我们将给你介绍Scrapy并且告诉你能用Scrapy做哪些不可思议的事情. 你好 Scrapy: Scrapy是一个健壮的抓取网络数据的框架. 作为一个临时的互联网使用者,你会经常发现更愿意将网站上浏览的数据保存在像EXCEL的文件中(参考章节3,基础爬虫),便于在离线或者需要计算的时候使用.作为一个开发者,…

Learning Spark中文版--第六章--Spark高级编程（2）

Working on a Per-Partition Basis(基于分区的操作) 以每个分区为基础处理数据使我们可以避免为每个数据项重做配置工作.如打开数据库连接或者创建随机数生成器这样的操作,我们希望避免为每个元素重做配置工作.Spark有分区版本的map和foreach,通过让RDD的每个分区只运行一次代码,可帮助降低这些操作的成本. 回到我们的呼号例子中,有一个无线电台呼号的在线数据库,我们可以查询联系日志的公共列表.通过使用基于分区的操作,我们可以分享数据库的连接池来避免为多个连接配置…

Learning Spark中文版--第六章--Spark高级编程（1）

Introduction(介绍) 本章介绍了之前章节没有涵盖的高级Spark编程特性.我们介绍两种类型的共享变量:用来聚合信息的累加器和能有效分配较大值的广播变量.基于对RDD现有的transformation(转换),我们针对构建成本高的任务引入批量操作,如查询数据库.为了扩展我们可使用工具的范围,我们介绍Spark与外部程序交互的方法,例如用R编写的脚本. 在本章中,我们将以无线电台的通话记录作为输入构造一个示例.这些日志至少包括联系电台的呼号.呼号由国家分配,并且每个国家有自己的呼号范围,…

Learning Spark中文版--第五章--加载保存数据（2）

SequenceFiles(序列文件) SequenceFile是Hadoop的一种由键值对小文件组成的流行的格式.SequenceFIle有同步标记,Spark可以寻找标记点,然后与记录边界重新同步.Spark还可以从多个节点并行高效地读取SequenceFile.SequenceFile也是Hadoop MapReduce中job的常用输入输出格式,如果你正使用着Hadoop系统,数据很有可能就是SequenceFile格式的. SequenceFile是由实现HadoopWrita…

Learning Spark中文版--第五章--加载保存数据（1）

开发工程师和数据科学家都会受益于本章的部分内容.工程师可能希望探索更多的输出格式,看看有没有一些适合他们下游用户的格式.数据科学家可能会更关注他们已经使用的数据格式. Motivation 我们已经介绍了大量分布式程序使用的Spark操作.目前为止,我们的例子都是从一个本地集合和规整文件中加载数据,但是有可能你的数据不是规整的或者不在一台机器上,那么就跟着我一起探索加载和保存数据的操作用法. Spark支持广泛的输出输入源,部分原因是因为Spark构建在Haddoop生态环境之上.S…

Learning Spark中文版--第四章--使用键值对（2）

Actions Available on Pair RDDs (键值对RDD可用的action) 和transformation(转换)一样,键值对RDD也可以使用基础RDD上的action(开工),并且键值对RDD有一些利用键值对数据特性的的action,如下表: 表4-3 键值对RDD上的action 函数名描述例子结果 countByKey() 计算每个键元素的总数 rdd.countByKey() {(1,1),(3,2)} collectAsMap() 结果收集成一个map便…

Learning Spark中文版--第四章--使用键值对（1）

本章介绍了如何使用键值对RDD,Spark中很多操作都基于此数据类型.键值对RDD通常在聚合操作中使用,而且我们经常做一些初始的ETL(extract(提取),transform(转换)和load(加载))来把数据转化成键值对格式.键值对中有很多新操作(如,计算每个产品的评价,对相同键的数据进行分组,将两个不同的RDD组合在一起). 我们还将讨论一种高级特性,可以让用户控制节点间的RDD的布局:partitioning(分区).通过使用可控的分区,应用程序可以确保访问单个节点上的数据从而…

Learning Spark中文版--第三章--RDD编程（2）

Common Transformations and Actions 本章中,我们浏览了Spark中大多数常见的transformation(转换)和action(开工).在包含特定数据类型的RDD上可以进行额外的操作,例如,可以对纯数字RDD使用统计函数,对键值对的RDD进行聚合操作.后面的章节我们会介绍这些特别的操作和RDD类型间的转换. Basic RDD (基础RDD) 首先,在忽略数据的影响的前提下,我们将描述所有的RDD上可以执行的transformation和action.…

Learning Spark中文版--第三章--RDD编程（1）

本章介绍了Spark用于数据处理的核心抽象概念,具有弹性的分布式数据集(RDD).一个RDD仅仅是一个分布式的元素集合.在Spark中,所有工作都表示为创建新的RDDs.转换现有的RDD,或者调用RDD上的操作来计算结果.在底层,Spark自动将数据中包含的数据分发到你的集群中,并将你对它们执行的操作进行并行化.数据科学家和工程师都应该阅读这一章,因为RDD是Spark的核心概念.我们强烈建议你在这些例子中尝试一些交互式shell(参见"Spark的Python和Scala shell的…

Learning Scrapy 中文版翻译第二章

为了从网页中提取信息,你有必要对网页的结构做一些了解.我们将快速学习HMTL,HTML数状结构以及用XPath在网页上提取信息 HTML, DOM树结构以及XPath 让我们花一点时间来了解当用户在浏览器中输入了一个URL到屏幕上显示出页面的处理过程.从本书的角度来说,这个过程分为4步: 浏览器中输入URL.URL的第一部分(域名,比如gumtree.com)用来在网络中查找合适的服务器, URL和像cookie样的数据形成了一个发送到服务器的请求服务器给浏览器发送HTML页面.值得注意的是服…

Learning Spark: Lightning-Fast Big Data Analysis 中文翻译

Learning Spark: Lightning-Fast Big Data Analysis 中文翻译行为纯属个人对于Spark的兴趣,仅供学习. 如果我的翻译行为侵犯您的版权,请您告知,我将停止对此书的开源翻译. Translation the book of Learning Spark: Lightning-Fast Big Data Analysis is only for spark developer educational purposes. If I violated you…

【原】Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令

<Learning Spark>这本书算是Spark入门的必读书了,中文版是<Spark快速大数据分析>,不过豆瓣书评很有意思的是,英文原版评分7.4,评论都说入门而已深入不足,中文译版评分8.4,评论一片好评,有点意思.我倒觉得这本书可以作为官方文档的一个补充,刷完后基本上对Spark的一些基本概念.码简单的程序是没有问题的了.这本书有一个好处是它是用三门语言写的,Python/Java/Scala,所以适用性很广,我的观点是,先精通一门语言,再去学其他语言.由于我工作中比较常用…

Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令

【原】Learning Spark (Python版) 学习笔记(四)----Spark Sreaming与MLlib机器学习

本来这篇是准备5.15更的,但是上周一直在忙签证和工作的事,没时间就推迟了,现在终于有时间来写写Learning Spark最后一部分内容了. 第10-11 章主要讲的是Spark Streaming 和MLlib方面的内容.我们知道Spark在离线处理数据上的性能很好,那么它在实时数据上的表现怎么样呢?在实际生产中,我们经常需要即使处理收到的数据,比如实时机器学习模型的应用,自动异常的检测,实时追踪页面访问统计的应用等.Spark Streaming可以很好的解决上述类似的问题. 了解Spar…

【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL

周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark SQL相关的知识,如果对Spark不熟的同学可以先看看之前总结的两篇文章: [原]Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令 [原]Learning Spark (Python版) 学习笔记(二)----键值对.数据读取与保存.共享特性 #####…

Web3.js 0.20.x API 中文版翻译

文档原始链接为:https://web3.learnblockchain.cn/0.2x.x/,欢迎大家前往查阅,本文只是节选开头部分的介绍及API列表索引,以下为翻译正文: 为了开发一个基于以太坊的去中心化应用程序,可以使用web3.js库提供的web3对象, 在底层实现上,web3通过RPC调用与本地节点通信, web3.js可以与任何暴露了RPC接口的以太坊节点连接. web3 包含下面几个对象: web3.eth 用来与以太坊区块链及合约的交互 web3.shh 用来与Whisper协议…

【翻译】Spark 调优 (Tuning Spark) 中文版

由于Spark自己的调优guidance已经覆盖了很多很有价值的点,因此这里直接翻译一份过来.也作为一个积累. Spark 调优 (Tuning Spark) 由于大多数Spark计算任务是在内存中运行计算,任何集群中的资源限制都可能成为Spark程序的瓶颈,比如:CPU.网络.带宽.内存.通常情况下,如果内存能容纳所处理数据,主要的瓶颈则仅是网络带宽.但有些时候您也需要做一些调优,比如利用RDD序列化存储来降低内存消耗.本手册将会涵盖以下两个大点:数据序列化(对优化网络传输和降低内存开销有显著…

读learning spark lighting chapter1~chapter2

chapter 1 introduction to the analysis with spark the conponents of Sparks spark core(contains the basic functionality of sparks. spark Core is also the home to the APIs that defines the RDDs), spark sql(structured data ) is the package for worki…

<More Effective C#: 改善C#代码的50个有效方法>中文版翻译答疑

最近, 有一本很赞的.NET技术书中文版出版了 - <More Effective C#: 改善C#代码的50个有效方法>. 从广州\西安\长沙\上海等各地.NET俱乐部都收到反馈, 说这本书是用google翻译出来的. 然而, 事实上不是这样的. 首先, 我不是这本书的译者, 我也不认识这本书的译者, 我只是出于对.NET社区和技术的热爱来写这篇文章, 来澄清和化解误会而已. 同时如果该书译者看到我这篇文章, 也请联系我. 谢谢. 先举一个例子: 该书第38页, 第一段第…

Learning Spark 第四章——键值对处理

本章主要介绍Spark如何处理键值对.K-V RDDs通常用于聚集操作,使用相同的key聚集或者对不同的RDD进行聚集.部分情况下,需要将spark中的数据记录转换为键值对然后进行聚集处理.我们也会对键值对RDD的高级特性——分区进行讨论,用户可以控制RDD在节点间的布局,确保数据在同一机器上面,减少通信开销,将极大地提高效率.数据分区的选择与单机程序数据结构的选择一样,都能对程序的性能产生极大的影响. 主要分为以下几个章节: 创建PairRDD Transformation on Pair R…

【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性

本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =.以后还是要按时完成任务.废话不多说,第四章-第六章主要讲了三个内容:键值对.数据读取与保存与Spark的两个共享特性(累加器和广播变量). 键值对(PaiRDD) 1.创建 #在Python中使用第一个单词作为键创建一个pairRDD,使用map()函数 pairs = lines.map(lambda x:(x.split(" ")[0],x)) 2.转化(Transformation) 转化操作很多,有reduceByK…

线性回归的Spark实现 [Linear Regression / Machine Learning / Spark]

1- 问题提出 2- 线性回归 3- 理论推导 4- Python/Spark实现 # -*- coding: utf-8 -*- from pyspark import SparkContext theta = [0, 0] alpha = 0.001 sc = SparkContext('local') def func_theta_x(x): return sum([i * j for i, j in zip(theta, x)]) def cost(x): thx = func_thet…

逻辑回归的分布式实现 [Logistic Regression / Machine Learning / Spark ]

1- 问题提出 2- 逻辑回归 3- 理论推导 4- Python/Spark实现 # -*- coding: utf-8 -*- from pyspark import SparkContext from math import * theta = [0, 0, 0] #初始theta值 alpha = 0.001 #学习速率 def inner(x, y): return sum([i*j for i,j in zip(x,y)]) def func(lst): h = (1 + exp(-…

elasticsearch.net search入门使用指南中文版(翻译)

elasticsearch.net search入门使用指南中文版,elasticsearch.Net是一个非常底层且灵活的客户端,它不在意你如何的构建自己的请求和响应.它非常抽象,因此所有的elasticsearchAPI被表示为方法,没 elasticsearch.net search入门使用指南中文版 elasticsearch.net为什么会有两个客户端? Elasticsearch.Net是一个非常底层且灵活的客户端,它不在意你如何的构建自己的请求和响应.它非常抽象,因此所有的Elas…