大数据统计分析平台之一、Kafka单机搭建

1、zookeeper搭建

　　Kafka集群依赖zookeeper，需要提前搭建好zookeeper

　　单机模式（7步）(集群模式进阶请移步：http://blog.51cto.com/nileader/795230)

Step1：

cd /usr/local/software 

jdk-8u161-linux-x64.rpm
链接：https://pan.baidu.com/s/1i6iHIDJ 密码：bgcc

rpm -ivh jdk-8u161-linux-x64.rpm

vi /etc/profile

JAVA_HOME=/usr/java/jdk1.8.0_161
JRE_HOME=/usr/java/jdk1.8.0_161/jre
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
export JAVA_HOME JRE_HOME PATH CLASSPATH

source /etc/profile

echo $PATH

Step2：

# 下载zookeeper

wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.11/zookeeper-3.4.11.tar.gz

# 如果下载不到，可以使用迅雷，或者使用百度云盘

链接：https://pan.baidu.com/s/1MXYd4UlKWvqB6EcVLyF8cg 密码：an6t

# 解压

tar -zxvf zookeeper-3.4.11.tar.gz

# 移动一下

mv zookeeper-3.4.11 /usr/local/zookeeper-3.4.11

Step3：重命名 zoo_sample.cfg文件

 mv /usr/local/zookeeper-3.4.11/conf/zoo_sample.cfg  /usr/local/zookeeper-3.4.11/conf/zoo.cfg

Step4：vi /usr/local/zookeeper-3.4.11/conf/zoo.cfg，修改

dataDir=/usr/local/zookeeper-3.4.11/data

Step5：创建数据目录

mkdir /usr/local/zookeeper-3.4.11/data

Step6：启动zookeeper：执行

/usr/local/zookeeper-3.4.11/bin/zkServer.sh start

Step7：检测是否成功启动：执行

/usr/local/zookeeper-3.4.11/bin/zkCli.sh 
或者
yum install nc -y
echo stat| nc localhost 2181

================================================================================================================

2、下载Kafka

下载地址：http://kafka.apache.org/downloads.html

# mkdir -p /usr/local/software
# cd /usr/local/software
# wget http://mirror.bit.edu.cn/apache/kafka/1.0.0/kafka_2.12-1.0.0.tgz

# 百度云下载地址：
链接：https://pan.baidu.com/s/1Kp0uD_5YjGKOLkbW_igm2g 密码：v1q7

kafka_2.12-1.0.0.tgz //其中2.12-1.0.0为Scala的版本，kafka-1.0.0-src.tgz为kafka版本

3、解压

# tar zxf kafka_2.12-1.0.0.tgz -C /usr/local/

# cd /usr/local/

# mv kafka_2.12-1.0.0/ kafka/

4、配置

mkdir -p /usr/local/kafka/kafkaLogs

# vi /usr/local/kafka/config/server.properties

# broker的ID，集群中每个broker ID不可相同
broker.id=0
# 监听器，端口号和port一致即可
listeners=PLAINTEXT:/10.10.6.225/:9092
# Broker的监听端口
port=9092

# 必须填写当前服务器IP地址
host.name=10.10.6.225

# 必须填写当前服务器IP地址
advertised.host.name=10.10.6.225
# 暂未配置集群
zookeeper.connect=10.10.6.225:2181

# 消息持久化目录
log.dirs=/usr/local/kafka/kafkaLogs

# 可以删除主题
delete.topic.enable=true

# 关闭自动创建topic
auto.create.topics.enable=false

5、配置Kafka的环境变量

# vi /etc/profile

　　export KAFKA_HOME=/usr/local/kafka

　　export PATH=$PATH:$KAFKA_HOME/bin

# source /etc/profile

# vi /etc/hosts

# es为主机名 ,这里一定要注意，是主机名！！！！重要的话说三次！！！！！！！！
127.0.0.1 es   
10.10.6.225 es

6、启动与停止Kafka

# kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties

　　官方推荐启动方式：

# /usr/local/kafka/bin/kafka-server-start.sh /usr/local/kafka/config/server.properties &

但这种方式退出shell后会自动断开

停止：

kafka-server-stop.sh

7、验证

# jps

    2608 Kafka
    2236 QuorumPeerMain
    2687 Jps

看到Kafka的进程，说明Kafka已经启动

8、创建topic

创建名为test，partitions为3，replication为3的topic

# kafka-topics.sh --create --zookeeper 10.10.6.225:2181 --partitions 1 --replication-factor 1 --topic test

查看topic状态

# kafka-topics.sh --describe --zookeeper 10.10.6.225:2181 --topic test

　　Topic:test      PartitionCount:1        ReplicationFactor:1     Configs:
   Topic: test     Partition: 0    Leader: 0       Replicas: 0     Isr: 0

删除topic

执行如下命令

# kafka-topics.sh --delete --zookeeper 10.10.6.225:2181 --topic test

9、测试使用Kafka

发送消息

# kafka-console-producer.sh --broker-list 10.10.6.225:9092 --topic test

输入以下信息：

　　This is a message

　　This is another message

接收消息

# kafka-console-consumer.sh --bootstrap-server 10.10.6.225:9092 --topic test --from-beginning

若看到上输入的信息说明已经搭建成功。

更复杂配置参考：

https://www.cnblogs.com/wangxiaoqiangs/p/7831990.html

黄海添加于2018-02-11 夜

链接：https://pan.baidu.com/s/1i6HnIzr 密码：1soq

KafkaProducer.py

# http://kafka-python.readthedocs.io/en/master/

# 安装办法：

# C:\Users\Administrator>pip install kafka-python

# Collecting kafka-python

#  Downloading kafka_python-1.4.-py2.py3-none-any.whl (235kB)

#    % |████████████████████████████████| 235kB 150kB/s

# Installing collected packages: kafka-python

# Successfully installed kafka-python-1.4.

# http://blog.csdn.net/evankaka/article/details/52421314

from kafka import KafkaProducer
from Util.MySQLHelper import *
import json

producer = KafkaProducer(bootstrap_servers='10.10.6.225:9092', value_serializer=lambda v: json.dumps(v).encode('utf-8'))
db = MySQLHelper()
sql = "select ID,RESOURCE_ID_INT,RESOURCE_ID_CHAR,RESOURCE_TITLE,RESOURCE_TYPE_NAME,RESOURCE_FORMAT,RESOURCE_PAGE,CAST(CREATE_TIME AS CHAR) AS CREATE_TIME,DOWN_COUNT,FILE_ID,RESOURCE_TYPE,STRUCTURE_ID,PERSON_ID,PERSON_NAME,IDENTITY_ID from t_resource_info limit 100"
dt = db.query(sql)

print(len(dt))

for row in dt:
    producer.send('t_resource_info', row)

producer.flush()

print('恭喜，完成！')

不依赖于MYSQL的数据提交：

import json

from kafka import KafkaProducer

import datetime

# kafka的服务器位置

kafka_servers = '10.10.6.194:9092'

# 日期的转换器

class DateEncoder(json.JSONEncoder):

    def default(self, obj):

        if isinstance(obj, datetime.datetime):

            return obj.strftime('%Y-%m-%d %H:%M:%S')

        elif isinstance(obj, datetime.date):

            return obj.strftime("%Y-%m-%d")

        else:

            return json.JSONEncoder.default(self, obj)

# 黄海定义的输出信息的办法，带当前时间

def logInfo(msg):

    i = datetime.datetime.now()

    print(" %s            %s" % (i, msg))

# 统一的topic名称

topicName = 'test'

dt=[{"id":1,"name":"刘备"},{"id":2,"name":"关羽"},{"id":3,"name":"张飞"}]

# kafka的生产者

producer = KafkaProducer(bootstrap_servers=kafka_servers)

# # 将字段大写转为小写

for row in dt:

    new_dics = {}

    for k, v in row.items():

        new_dics[k.lower()] = v

        jstr = json.dumps(new_dics, cls=DateEncoder)

    producer.send(topic=topicName, partition=0, value=jstr.encode('utf-8'))

# 提交一下

producer.flush()

print('恭喜，完成！')

KafkaConsumer.py

from kafka import KafkaConsumer

import time

def log(str):

    t = time.strftime(r"%Y-%m-%d_%H-%M-%S", time.localtime())

    print("[%s]%s" % (t, str))

log('start consumer')

# 消费192.168.120.:9092上的world 这个Topic,指定consumer group是consumer-

consumer = KafkaConsumer('foobar', bootstrap_servers=['localhost:9092'])

for msg in consumer:

    recv = "%s:%d:%d: key=%s value=%s" % (msg.topic, msg.partition, msg.offset, msg.key, msg.value)

    log(recv)

如果是想读取kafka记得的所有消费记录：

from kafka import KafkaConsumer

import time

# kafka的服务器位置

kafka_servers = '10.10.6.194:9092'

# 统一的topic名称

topicName = 'test'

def log(str):

    t = time.strftime(r"%Y-%m-%d_%H-%M-%S", time.localtime())

    print("[%s]%s" % (t, str))

log('启动消费者...')

# auto_offset_reset='earliest' 这个参数很重要，如果加上了，就是kafka记录的最后一条位置，如果不加，就是以后要插入的数据了。

#consumer = KafkaConsumer(topicName, auto_offset_reset='earliest', bootstrap_servers=kafka_servers)

consumer = KafkaConsumer(topicName, bootstrap_servers=kafka_servers)

for msg in consumer:

    recv = "%s:%d:%d: key=%s value=%s" % (msg.topic, msg.partition, msg.offset, msg.key, msg.value)

    log(recv)

大数据统计分析平台之一、Kafka单机搭建的更多相关文章

大数据统计分析平台之二、ElasticSearch 6.2.1的安装与使用
# 下载文件cd /usr/local/software wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch ...
大数据统计分析平台之三、Kibana安装和使用
kibana安装 1.到官网下载kibana: cd /usr/local/software wget https://artifacts.elastic.co/downloads/kibana/ki ...
大数据计算平台Spark内核全面解读
1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着Spark在大数据计算领域的暂露头角,越来越多的 ...
国内物联网平台（7）：Ablecloud物联网自助开发和大数据云平台
国内物联网平台(7)——Ablecloud物联网自助开发和大数据云平台马智平台定位面向IoT硬件厂商,提供设备联网与管理.远程查看控制.定制化云端功能开发.海量硬件数据存储与分析等基础设施,加速 ...
王坚十年前的坚持，才有了今天世界顶级大数据计算平台MaxCompute
如果说十年前,王坚创立阿里云让云计算在国内得到了普及,那么王坚带领团队自主研发的大数据计算平台MaxCompute则推动大数据技术向前跨越了一大步. 数据是企业的核心资产,但十年前阿里巴巴的算力已经无 ...
联童科技基于incubator-dolphinscheduler从0到1构建大数据调度平台之路
联童科技是一家智能化母婴童产业平台,从事母婴童行业以及互联网技术多年,拥有丰富的母婴门店运营和系统开发经验,在会员经营和商品经营方面,能够围绕会员需求,深入场景,更贴近合作伙伴和消费者,提供最优服务产 ...
从 Airflow 到 Apache DolphinScheduler，有赞大数据开发平台的调度系统演进
点击上方蓝字关注我们作者 | 宋哲琦 ✎ 编者按在不久前的 Apache DolphinScheduler Meetup 2021 上,有赞大数据开发平台负责人宋哲琦带来了平台调度系统 ...
大数据计算平台Spark内核解读
1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着 Spark在大数据计算领域的暂露头角,越来越多 ...
大数据竞赛平台——Kaggle 入门
Reference: http://blog.csdn.net/witnessai1/article/details/52612012 Kaggle是一个数据分析的竞赛平台,网址:https://ww ...

随机推荐

伪数组（arguments及字符串）转数组的方法贼简单
超简单的伪数组转数组的方法, 简单到令人发指! (这里伪数组使用arguments) 1.使用 Array.prototype.slice Array.prototype.slice.call(arg ...
Educational Codeforces Round 35 (Rated for Div. 2)A,B,C,D
A. Nearest Minimums time limit per test 2 seconds memory limit per test 256 megabytes input standard ...
【题解】 [SCOI2010]传送带（三分法）
题目描述在一个2维平面上有两条传送带,每一条传送带可以看成是一条线段.两条传送带分别为线段AB和线段CD.lxhgww在AB上的移动速度为P,在CD上的移动速度为Q,在平面上的移动速度R.现在lxh ...
【洛谷P2114】起床困难综合征位运算+贪心
题目大意:给定 N 个操作,每个操作为按位与.或.异或一个固定的数字,现在要求从 0 到 M 中任选一个数字,使得依次经过 N 个操作后的值最大. 题解:位运算有一个重要的性质是:位运算时,无进位产生 ...
svn查看日志(show log)显示时间为1970的解决方法
问题: 在修改文件后show log无法显示日志,上面的时间会自动在2016年和1970年间跳,而且设置不了时间.解决方法:1.编辑svnserve.conf,设置“anon-access=none” ...
C++委托模式
希望想理解C++委托的同学,能够从代码中悟出其中的原理.有什么不太清楚的地方,欢迎留言交流. #include <bits/stdc++.h> using namespace std; # ...
John:How JavaScript Timers Work
John大神的bolg链接:http://ejohn.org/blog/how-javascript-timers-work/ JavaScript中的定时器经常表现的跟我们想象的不同,我们用三个函数 ...
ActiveMQ基础教程----简单介绍与基础使用
概述 ActiveMQ是由Apache出品的,一款最流行的,能力强劲的开源消息总线.ActiveMQ是一个完全支持JMS1.1和J2EE 1.4规范的 JMS Provider实现,它非常快速,支持多 ...
JavaScript的单线程性质以及定时器的工作原理
前些日子还在网上争论过js动画用setTimeout还是setInterval,个人偏向于setTimeout,当动画中牵扯到ajax时用setInterval会有时间偏差,出现一些问题即使用clea ...
详谈ASP.NET的DataReader对象
最近频繁用到了DataReader这个对象,其实对于DataReader,之前也用到过,说实话我个人觉得很不好懂.相比之下觉得DataSet对象好用的多,但是有时取出的数据不需要很多的时候,DataR ...

大数据统计分析平台之一、Kafka单机搭建

大数据统计分析平台之一、Kafka单机搭建的更多相关文章

随机推荐

热门专题