1.使用python fabric进行Linux基础配置 使用python,可以让任何事情高效起来,包括运维工作,fabric正式这样一套基于python2的类库,它执行本地或远程shell命令提供了操作的基本套件(正常或通过sudo)和上传/下载文件,如提示用户输入运行辅助功能,或中止执行. 用Python3开发的部署工具叫fabric3:fabric3,和fabric一样最大特点是不用登录远程服务器,在本地运行远程命令,几行Python脚本就可以轻松部署. 典型用途包括创建一个包含一个或多个…
1.环境说明 1.1.机器配置说明 本次集群环境为三台linux系统机器,具体信息如下: 主机名称 IP地址 操作系统 hadoop1 10.0.0.20 CentOS Linux release 7.2.1511 hadoop2 10.0.0.21 CentOS Linux release 7.2.1511 hadoop3 10.0.0.22 CentOS Linux release 7.2.1511 1.2.操作系统详情 本文档全程使用root用户进行操作: [root@hadoop1 ~]…
核心枚举 public enum ServerState { LOOKING, FOLLOWING, LEADING, OBSERVING; } zookeeper服务器状态:刚启动LOOKING,follower是FOLLOWING,leader是LEADING,observer是OBSERVING: public enum LearnerType { PARTICIPANT, OBSERVER; } 简单来说,zookeeper启动的核心类是QuorumPeerMain,启动之后会加载配置,…
在< [大数据之数据仓库]选型流水记>一文中有提及,当时没有测试GreenPlum的quicklz压缩算法和ORCA查询优化器,考虑到quicklz压缩算法因为版权问题不会开源(详情请参阅: https://github.com/greenplum-db/gpdb/blob/master/src/backend/catalog/quicklz_compression.c),今天我们就来补上已开源的ORCA查询优化器这一段. GreenPlum有2个查询优化器:legacy query opti…
原文:mysql 5.7 innodb count count(*) count(1) 大数据 查询慢 耗时多 优化 问题描述 mysql 5.7 innodb 引擎 使用以下几种方法进行统计效率差不多,都不是很高,实际使用中,博客表2万条数据就耗时1秒多,效果不堪.在可以为 null 的字段上统计,效率更低.数据如下: select count(*) from blog; select count(1) from blog; select count(id) from blog; (三个差不多…
实验环境 CentOS镜像为CentOS-7-x86_64-Everything-1804.iso 虚机配置 节点名称 IP地址 子网掩码 CPU/内存 磁盘 安装方式 master 192.168.204.101 255.255.255.0 1核心/4GB 100GB GNOME Desktop slave1 192.168.204.111 255.255.255.0 1核心/2GB 100GB Minimal Install slave2 192.168.204.112 255.255.25…
一.Python基础 Python简明教程(Python3) Python3.7.4官方中文文档 Python标准库中文版 廖雪峰 Python 3 中文教程 Python 3.3 官方教程中文版 Python3 Cookbook 中文版 笨办法学 Python (PDFEPUB) <Think Python 2e>最新版中文 Python 核心编程 第二版 中文 菜鸟教程 Python3基础 W3cschool Python3基础 Python最佳实践指南 Python 精要教程 Pytho…
一.所需环境 · Java 8 · Python 2.6+ · Scala · Hadoop 2.7+ 二.Spark下载与解压 http://spark.apache.org/downloads.html 按照以下截图提示,点击下载Spark的tgz压缩包. 下载完成后将Spark用7zip工具解压,放到一个不带空格的根目录下,我将起放在C盘的spark文件夹下:C:\spark\spark-2.4.4-bin-hadoop2.7 三.环境变量配置 SCALA_HOME: C:\spark\s…
工欲善其事必先利其器,在经过大量的理论学习以后,需要有一个本地的研发环境来进行练手.已经工作的可以不依赖于公司的环境,在家也可以随意的练习.而自学大数据的同学,也可以进行本地练习,大数据是一门偏实践的学科,在找工作之前进行一些实践操作,也更利于对大数据知识的理解. 本文将从头开始详细的记录整个大数据环境的搭建过程,本文所使用的笔记本电脑内存为16G,将使用CDH6.3.2管理整个大数据集群. 由于cloudera官网从2021年2月1日起全面移除的非订阅用户的下载链接,所以本文所有的安装包都已经…
  大数据问题汇总     1.安装问题        1.安装步骤,详见文档<centos虚拟机安装指南>        2.vi编辑器使用问题,详见文档<linux常用命令.pdf>        3.网络中继更改问题        命令:   vi /etc/sysconfig/network-scripts/ifcfg-eth0·········需要修改的代码·········DEVICE=eth0            HWADDR=00:0C:29:11:02:E8  …