ApacheCN 大数据译文集 20211206 更新

PySpark 大数据分析实用指南
- 零、前言
- 一、安装 Pyspark 并设置您的开发环境
- 二、使用 RDD 将您的大数据带入 Spark 环境
- 三、Spark 笔记本的大数据清理和整理
- 四、将数据汇总成有用的报告
- 五、强大的 MLlib 探索性数据分析
- 六、使用 SparkSQL 构建大数据结构
- 七、转换和动作
- 八、不变设计
- 九、避免打乱和降低操作成本
- 十、以正确的格式保存数据
- 十一、使用 Spark 键/值应用编程接口
- 十二、测试 ApacheSpark 作业
- 十三、利用 Spark 图形接口
Spark 大规模机器学习
- 零、前言
- 一、Spark 数据分析简介
- 二、机器学习最佳实践
- 三、通过理解数据来理解问题
- 四、通过特征工程提取知识
- 五、监督和非监督学习示例
- 六、构建可扩展的机器学习管道
- 七、调整机器学习模型
- 八、调整您的机器学习模型
- 九、使用流和图数据的高级机器学习
- 十、配置和使用外部库
Spark SQL 学习手册
- 零、前言
- 一、Spark SQL 入门
- 二、使用 Spark SQL 处理结构化和半结构化数据
- 三、将 Spark SQL 用于数据探索
- 四、将 Spark SQL 用于数据管理
- 五、在流式应用中使用 Spark SQL
- 六、Spark SQL 在机器学习应用中的应用
- 七、在图应用中使用 Spark SQL
- 八、使用 Spark SQL 和 Spark
- 九、使用 Spark SQL 开发应用
- 十、在深度学习应用中使用 Spark SQL
- 十一、针对性能调整 Spark SQL 组件
- 十二、大规模应用架构中的 Spark SQL
精通 Spark 2.x 机器学习
- 零、前言
- 一、大规模机器学习和 Spark 导论
- 二、探测暗物质——希格斯玻色子粒子
- 三、多类分类的集成方法
- 四、使用自然语言处理和 Spark 流预测电影评论
- 五、用于预测和聚类的 word2vec
- 六、从点击流数据中提取模式
- 七、将 GraphX 用于图分析
- 八、贷款俱乐部的贷款预测
精通 Spark 数据科学
- 零、前言
- 一、大数据科学生态系统
- 二、数据采集
- 三、输入格式和模式
- 四、探索性数据分析
- 五、Spark 地理分析
- 六、基于链接抓取外部数据
- 七、构建社区
- 八、构建推荐系统
- 九、新闻词典和实时标签系统
- 十、故事重复和突变
- 十一、基于情感分析的异常检测
- 十二、趋势演算
- 十三、数据安全
- 十四、可扩展算法
PySpark 秘籍
- 零、前言
- 一、安装和配置 Spark
- 二、使用关系数据库抽象数据
- 三、使用数据帧抽象数据
- 四、为建模准备数据
- 五、基于 MLlib 的机器学习
- 六、使用最大似然模块的机器学习
- 七、使用 PySpark 的结构化流
- 八、图框架——使用 PySpark 的图论
Scala 和 Spark 大数据分析
- 零、前言
- 一、Scala 简介
- 二、面向对象的 Scala
- 三、函数式编程概念
- 四、集合 API
- 五、应对大数据——Spark 来了
- 六、开始使用 Spark-REPL 和 RDD
- 七、RDD 特殊动作
- 八、小型结构简介——Spark SQL
- 九、传送我吧，史考提——Spark 流
- 十、一切都是连通的——GraphX
- 十一、学习机器学习——Spark MLlib 和 Spark ML
- 十二、高级机器学习最佳实践
- 十三、我叫贝叶斯，朴素的贝叶斯
- 十四、是时候整理一下了——使用 Spark MLlib 对你的数据聚类
- 十五、使用 SparkML 的文本分析
- 十六、Spark 调优
- 十七、该走向集群了——在集群上部署 Spark
- 十八、Spark 的测试和调试
- 十九、PySpark 和 SparkR
- 二十、使用 Alluxio 加速 Spark
- 二十一、ApacheZepplin 交互式数据分析
Spark2 初学者手册
- 零、前言
- 一、Spark 基础
- 二、Spark 编程模型
- 三、Spark SQL
- 四、使用 R 的 Spark 编程
- 五、 Python 和 Spark 数据分析
- 六、Spark 流处理
- 七、Spark 机器学习
- 八、Spark 图处理
- 九、设计 Spark 应用
Spark2 数据处理和实时分析
- 零、前言
- 一、ApacheSpark V2 的首次尝试和新进展
- 二、ApacheSpark 流
- 三、结构化流
- 四、Apache Spark MLlib
- 五、ApacheSparkML
- 六、Apache 系统
- 七、Apache Spark GraphX
- 八、Spark 调优
- 九、Spark 的测试和调试
- 十、基于 Scala 的 Spark 实用机器学习
- 十一、Spark 的机器学习三大数据火枪手——完美结合
- 十二、实现健壮机器学习系统的通用方法
- 十三、可以随 Spark 扩展的推荐引擎
- 十四、基于 Apache Spark 2.0 的无监督聚类
- 十五、使用 Spark 2.0 ML 库实现文本分析
- 十六、Spark 流和机器学习库
Spark 2.x 机器学习秘籍
- 零、前言
- 一、基于 Scala 的 Spark 实用机器学习
- 二、Spark 机器学习的线性代数
- 三、Spark 的机器学习三大数据火枪手——完美结合
- 四、实现健壮机器学习系统的通用方法
- 五、Spark 2.0 中回归和分类的实用机器学习——第一部分
- 六、Spark 2.0 中回归和分类的实用机器学习——第二部分
- 七、可随 Spark 扩展的推荐引擎
- 八、基于 Apache Spark 2.0 的无监督聚类
- 九、优化——使用梯度下降下山
- 十、使用决策树和集成模型构建机器学习系统
- 十一、大数据的高维诅咒
- 十二、使用 Spark 2.0 ML 库实现文本分析
- 十三、Spark 流和机器学习库
Spark 深度学习秘籍
- 零、前言
- 一、为深度学习开发启动 Spark
- 二、在 Spark 中创建神经网络
- 三、卷积神经网络的痛点
- 四、循环神经网络的痛点
- 五、使用 SparkML 预测消防队呼叫
- 六、在生成网络中使用 LSTM
- 七、自然语言处理
- 八、基于 XGBoost 的房地产价值预测
- 九、使用 LSTM 预测苹果股票市场成本
- 十、基于深度卷积网络的人脸识别
- 十一、使用 Word2Vec 创建和可视化词向量
- 十二、使用 Keras 创建电影推荐引擎
- 十三、基于 SparkTensorFlow 的图像分类
使用 Storm 构建 Python 实时应用
- 零、前言
- 一、熟悉 Storm
- 二、Storm 剖析
- 三、Petrel 简介
- 四、拓扑示例——Twitter
- 五、使用 Redis 和 MongoDB 实现持久化
- 六、Storm 实战
- 七、附录 A：使用 Supervisord 管理 Storm
Python 数据科学与机器学习实用手册
- 零、前言
- 一、开始
- 二、统计和概率复习，以及 Python 实践
- 三、Matplotlib 与高级概率概念
- 四、预测模型
- 五、使用 Python 的机器学习
- 六、推荐系统
- 七、更多数据挖掘和机器学习技术
- 八、处理真实世界的数据
- 九、Apache Spark——关于大数据的机器学习
- 十、测试与实验设计
精通 Spark
- 零、前言
- 一、ApacheSpark
- 二、Apache Spark MLlib
- 三、Apache Spark 流
- 四、Spark SQL
- 五、Apache Spark GraphX
- 六、基于图的存储
- 七、使用 H2O 扩展 Spark
- 八、Spark 数据库
- 九、数据库可视化
精通 Storm
- 零、前言
- 一、实时处理和 Storm 介绍
- 二、Storm 部署、拓扑开发和拓扑选项
- 三、Storm 并行性和数据分区
- 四、Trident 简介
- 五、Trident 拓扑及其用途
- 六、Storm 调度器
- 七、Storm 集群监测
- 八、Storm 与 Kafka 集成
- 九、Storm 和 Hadoop 集成
- 十、Storm 与 Redis、Elasticsearch 和 HBase 集成
- 十一、使用 Storm 处理 Apache 日志
- 十二、Twitter 推文收集和机器学习
Spark 机器学习
- 零、前言
- 一、启动并运行 Spark
- 二、机器学习的数学
- 三、机器学习系统的设计
- 四、使用 Spark 获取、处理和准备数据
- 五、使用 Spark 构建推荐引擎
- 六、使用 Spark 构建分类模型
- 七、使用 Spark 建立回归模型
- 八、使用 Spark 构建聚类模型
- 九、基于 Spark 的降维方法
- 十、Spark 高级文本处理
- 十一、基于 Spark 流的实时机器学习
- 十二、面向 Spark ML 的流水线 API
大数据分析实战
- 零、前言
- 一、大还是不大
- 二、面向大众的大数据挖掘
- 三、分析工具包
- 四、使用 Hadoop 的大数据
- 五、使用 NoSQL 的大数据挖掘
- 六、大数据分析的 Spark
- 七、机器学习概念导论
- 八、深入机器学习
- 九、企业数据科学
- 十、关于大数据的结束语
- 十一、外部数据科学资源
Spark 秘籍
- 零、前言
- 一、Apache Spark 入门
- 二、使用 Spark 开发应用
- 三、外部数据源
- 四、Spark SQL
- 五、Spark 流
- 六、使用 MLlib 的机器学习入门
- 七、基于 MLlib 的回归监督学习
- 八、基于 MLlib 的分类监督学习
- 九、使用 MLlib 的无监督学习
- 十、推荐系统
- 十一、使用 GraphX 的图处理
- 十二、性能优化和性能调优
面向 Python 开发者的 Spark
- 零、前言
- 一、建立 Spark 虚拟环境
- 二、使用 Spark 构建批量和流式应用
- 三、使用 Spark 处理数据
- 四、使用 Spark 从数据中学习
- 五、使用 Spark 流式传输实时数据
- 六、可视化洞察和趋势
Storm 蓝图
- 零、前言
- 一、分布式单词计数
- 二、配置 Storm 集群
- 三、Trident 拓扑和传感器数据
- 四、实时趋势分析
- 五、实时图分析
- 六、人工智能
- 七、为金融分析整合 Druid
- 八、自然语言处理
- 九、在 Hadoop 上为广告分析部署 Storm
- 十、云中的 Storm
Flink 学习手册
- 零、前言
- 一、ApacheFlink 简介
- 二、使用数据流 API 的数据处理
- 三、使用批处理 API 的数据处理
- 四、使用表格 API 的数据处理
- 五、复杂事件处理
- 六、使用 FlinkML 的机器学习
- 七、Flink 图应用编程接口——Gelly
- 八、基于 Flink 和 Hadoop 的分布式数据处理
- 九、在云上部署 Flink
- 十、最佳实践
Kafka 学习手册中文第二版
- 零、前言
- 一、Kafka 简介
- 二、建立 Kafka 集群
- 三、Kafka 设计
- 四、编写生产者
- 五、与消费者通信
- 六、Kafka 集成
- 七、Kafka 的工具
Storm 和 Cassandra 实时分析
- 零、前言
- 一、让我们了解 Storm
- 二、开始使用您的第一个拓扑
- 三、通过示例了解 Storm 内部
- 四、集群模式中的 Storm
- 五、Storm 高可用性和故障转移
- 六、给 Storm 添加 NoSQL 持久化
- 七、Cassandra 分区、高可用性和一致性
- 八、Cassandra 管理和维护
- 九、Storm 管理和维护
- 十、Storm 中的高级概念
- 十一、分布式缓存和 Storm 中心平台
- 十二、附录 a：测验答案
Spark 数据科学
- 零、前言
- 一、大数据和数据科学简介
- 二、Spark 编程模型
- 三、数据帧简介
- 四、统一数据访问
- 五、Spark 数据分析
- 六、机器学习
- 七、使用 SparkR 扩展 Spark
- 八、分析非结构化数据
- 九、可视化大数据
- 十、把它们放在一起
- 十一、构建数据科学应用

下载

Docker

docker pull apachecn0/apachecn-bigdata-zh

docker run -tid -p <port>:80 apachecn0/apachecn-bigdata-zh

# 访问 http://localhost:{port}

PYPI

pip install apachecn-bigdata-zh

apachecn-bigdata-zh <port>

# 访问 http://localhost:{port}

NPM

npm install -g apachecn-bigdata-zh

apachecn-bigdata-zh <port>

# 访问 http://localhost:{port}

贡献指南

本项目需要校对，欢迎大家提交 Pull Request。

请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）

组织介绍

访问我们的主页。

赞助我们

通过平台自带的打赏功能，或点击这里。

ApacheCN 大数据译文集 20211206 更新的更多相关文章

ApacheCN 深度学习译文集 20210112 更新
新增了六个教程: TensorFlow 2 和 Keras 高级深度学习零.前言一.使用 Keras 入门高级深度学习二.深度神经网络三.自编码器四.生成对抗网络(GAN) 五.改进的 GA ...
ApacheCN 深度学习译文集 20201218 更新
新增了四个教程: Python 人工智能中文版 0 前言 1 人工智能简介 2 人工智能的基本用例 3 机器学习管道 4 特征选择和特征工程 5 使用监督学习的分类和回归 6 集成学习的预测分析 7 ...
ApacheCN Asp.NET 译文集 20211126 更新
ASP.NET Core2 基础知识零.前言一.搭建舞台二.控制器三.视图四.模型五.验证六.路由七.RestBuy 八.添加功能.测试和部署 ASP.NET Core3 和 Angu ...
ApacheCN C/C++ 译文集 20211201 更新
笨办法学C 中文版前言导言:C的笛卡尔之梦练习0:准备练习1:启用编译器练习2:用Make来代替Python 练习3:格式化输出练习4:Valgrind 介绍练习5:一个C程序的结构练 ...
ApacheCN Kali Linux 译文集 20211020 更新
Kali Linux 秘籍中文版第一章安装和启动Kali 第二章定制 Kali Linux 第三章高级测试环境第四章信息收集第五章漏洞评估第六章漏洞利用第七章权限提升第八章 ...
ApacheCN 深度学习译文集 20210125 更新
新增了七个教程: PyTorch 中文官方教程 1.7 学习 PyTorch PyTorch 深度学习:60 分钟的突击张量 torch.autograd的简要介绍神经网络训练分类器通过示例学 ...
ApacheCN 深度学习译文集 20201229 更新
新增了七个教程: TensorFlow 和 Keras 应用开发入门零.前言一.神经网络和深度学习简介二.模型架构三.模型评估和优化四.产品化 TensorFlow 图像深度学习实用指南零 ...
ApacheCN 数据科学译文集 20211109 更新ApacheCN 数据科学译文集 20211109 更新
计算与推断思维一.数据科学二.因果和实验三.Python 编程四.数据类型五.表格六.可视化七.函数和表格八.随机性九.经验分布十.假设检验十一.估计十二.为什么均值重要十三 ...
ApacheCN 大数据译文集（二） 20211206 更新
Hadoop3 大数据分析零.前言一.Hadoop 简介二.大数据分析概述三.MapReduce 大数据处理四.基于 Python 和 Hadoop 的科学计算和大数据分析五.基于 R 和 ...

随机推荐

hdu-1593 find a way to escape(贪心，数学)
思路:两个人都要选取最优的策略. 先求外层那个人的角速度,因为他的角速度是确定的,再求内层人的当角速度和外层人一样时的对应的圆的半径r1.外层圆的半径为d; 那么如果r1>=外围圆的半径,那么肯 ...
1269 - Consecutive Sum
1269 - Consecutive Sum PDF (English) Statistics Forum Time Limit: 3 second(s) Memory Limit: 64 MB ...
Dev C++调用汇编
参考: https://blog.csdn.net/ljx0305/article/details/5831742 https://www.cnblogs.com/jokerjason/p/95786 ...
Linux学习笔记-韩顺平
这是我学习哔哩哔哩UP主韩顺平的2021韩顺平图解Linux课程的学习笔记. 课程地址:2021韩顺平图解Linux课程 Linux基础篇-Linux目录结构基本介绍 linux 的文件系统是采用级 ...
Java练习习题，百钱买百鸡问题，用100文钱买鸡，公鸡5文钱一只，母鸡3文钱一只，小鸡3只1文钱
需求说明: 用100文钱买鸡,公鸡5文钱一只,母鸡3文钱一只,小鸡3只1文钱,要求公鸡.母鸡.小鸡都必须要有,刚好用完100文钱,公鸡.母鸡.小鸡的数量之和也是100. public class te ...
hisql 新一代无实体ORM使用第一步 hisql安装使用
安装 github hisql 最新源码下载也可以通过nuget安装注意:HiSql仅支持.net5或以上环境选择您需要支持的数据库对应的支持包进行安装本例使用sqlserver进行演示,请安 ...
Linux上天之路（二）之Linux安装
1. vmware workstation使用 VMware是全球领先的虚拟化公司,为客户提供虚拟化解决方案,个人虚拟化产品workstation,可以让用户通过虚拟化的方式在一台物理电脑中安装多个操 ...
腾讯 TKE 厉害了！用 eBPF绕过 conntrack 优化K8s Service，性能提升40%
Kubernetes Service[1] 用于实现集群中业务之间的互相调用和负载均衡,目前社区的实现主要有userspace,iptables和IPVS三种模式.IPVS模式的性能最好,但依然有优化 ...
【洛谷】P1067 多项式输出
原题链接:P1067 多项式输出题目分析:学长推荐的OJ网站 --洛谷,发现挺好用的还可以下载提交出错的数据. 废话就不多说了,这道题属于基础题.提交出错主要是因为一些小细节不到位,这里就不一一赘述 ...
spring-data-jpa ----OneToMany 一对多
环境搭建导入依赖 maven3.6.3 <properties> <spring.version>5.2.5.RELEASE</spring.version> ...

ApacheCN 大数据译文集 20211206 更新

下载

Docker

PYPI

NPM

贡献指南

组织介绍

赞助我们

ApacheCN 大数据译文集 20211206 更新的更多相关文章

随机推荐

热门专题