Storm sql 简单测试

准备工作：

　　1、安装Kafka，启动，以及创建相应的topic

1、启动kafka

	bin/kafka-server-start.sh  config/server.properties > /dev/null 2>&1 &

2、列出所有的topics

	bin/kafka-topics.sh --list --zookeeper zk-datanode-01:2181,zk-datanode-02:2181,zk-datanode-03:2181

3、创建topics

	bin/kafka-topics.sh --create --topic apache-logs --zookeeper zk-datanode-01:2181,zk-datanode-02:2181,zk-datanode-03:2181 --replication-factor 1 --partitions 5

	bin/kafka-topics.sh --create --topic apache-error-logs --zookeeper zk-datanode-01:2181,zk-datanode-02:2181,zk-datanode-03:2181 --replication-factor 1 --partitions 5

	bin/kafka-topics.sh --create --topic apache-slow-logs --zookeeper zk-datanode-01:2181,zk-datanode-02:2181,zk-datanode-03:2181 --replication-factor 1 --partitions 5

　　2、安装Python以及pip

pip install apache-log-parser

3、创建并修改 Fake-Apache-Log-Generator

Fake-Apache-Log-Generator is not presented to package, and also we need to modify the script.

$ git clone https://github.com/kiritbasu/Fake-Apache-Log-Generator.git

$ cd Fake-Apache-Log-Generator

Open apache-fake-log-gen.py and replace while (flag): statements to below

 elapsed_us = random.randint( * , * ) #  ms to  sec

        seconds=random.randint(,)

        increment = datetime.timedelta(seconds=seconds)

        otime += increment

        ip = faker.ipv4()

        dt = otime.strftime('%d/%b/%Y:%H:%M:%S')

        tz = datetime.datetime.now(pytz.timezone('US/Pacific')).strftime('%z')

        vrb = numpy.random.choice(verb,p=[0.6,0.1,0.1,0.2])

        uri = random.choice(resources)

        if uri.find("apps")>:

                uri += `random.randint(,)`

        resp = numpy.random.choice(response,p=[0.9,0.04,0.02,0.04])

        byt = int(random.gauss(,))

        referer = faker.uri()

        useragent = numpy.random.choice(ualist,p=[0.5,0.3,0.1,0.05,0.05] )()

        f.write('%s - - [%s %s] %s "%s %s HTTP/1.0" %s %s "%s" "%s"\n' % (ip,dt,tz,elapsed_us,vrb,uri,resp,byt,referer,useragent))

        log_lines = log_lines -

        flag = False if log_lines ==  else True

4、准备parse-fake-log-gen-to-json-with-incrementing-id.py 脚本

import sys

import apache_log_parser

import json

auto_incr_id =

parser_format = '%a - - %t %D "%r" %s %b "%{Referer}i" "%{User-Agent}i"'

line_parser = apache_log_parser.make_parser(parser_format)

while True:

  # we'll use pipe

  line = sys.stdin.readline()

  if not line:

    break

  parsed_dict = line_parser(line)

  parsed_dict['id'] = auto_incr_id

  auto_incr_id += 

  # works only python , but I don't care cause it's just a test module :)

  parsed_dict = {k.upper(): v for k, v in parsed_dict.iteritems() if not k.endswith('datetimeobj')}

  print json.dumps(parsed_dict)

7、将产生的apache log 解析为Json写到kafka
　　

python apache-fake-log-gen.py -n  | python parse-fake-log-gen-to-json-with-incrementing-id.py | ../kafka/bin/kafka-console-producer.sh --broker-list 192.168.46.160: --topic apache-logs

8、查看发送到kafka
　　

bin/kafka-console-consumer.sh --zookeeper zk-datanode-:,zk-datanode-:,zk-datanode-: --topic apache-logs

9、storm-sql-kafka
　　启动storm集群 nimbus,ui,supervisor

${storm_home}/bin/storm sql apache_log_error_filtering.sql apache_log_error_filtering --artifacts "org.apache.storm:storm-sql-kafka:1.1.1,org.apache.storm:storm-kafka:1.1.1,org.apache.kafka:kafka_2.10:0.8.2.2^org.slf4j:slf4j-log4j12,org.apache.kafka:kafka-clients:0.8.2.2"

${storm_home}/bin/storm sql apache_log_slow_filtering.sql apache_log_slow_filtering --artifacts "org.apache.storm:storm-sql-kafka:1.1.1,org.apache.storm:storm-kafka:1.1.1,org.apache.kafka:kafka_2.10:0.8.2.2^org.slf4j:slf4j-log4j12,org.apache.kafka:kafka-clients:0.8.2.2" --jars "UDFTest-0.0.1-SNAPSHOT.jar"

10、查看kafka 返回的结果
　　bin/kafka-console-consumer.sh --zookeeper zk-datanode-01:2181,zk-datanode-02:2181,zk-datanode-03:2181 --topic apache-error-logs

　　bin/kafka-console-consumer.sh --zookeeper zk-datanode-01:2181,zk-datanode-02:2181,zk-datanode-03:2181 --topic apache-slow-logs

问题报错记录
ImportError: No module named pytz
ImportError: No module named numpy
ImportError: No module named faker

解决方式：pip install pytz
pip install numpy
pip install faker

可以测试了，storm 版本1.1.1，官网地址：http://storm.apache.org/releases/1.1.1/storm-sql-example.html

Storm sql 简单测试的更多相关文章

java web sql注入测试(1)---概念概述
在进行java web 测试时,经常会忽略的测试种类就是sql注入测试,这类缺陷造成的原因是开发技术在这方面欠缺的表现,虽然不常见,但一旦有这类缺陷,就很因此对运营的数据造成很多不必要的损失,所以,还 ...
构建ASP.NET MVC4+EF5+EasyUI+Unity2.x注入的后台管理系统（37）-文章发布系统④-百万级数据和千万级数据简单测试
原文:构建ASP.NET MVC4+EF5+EasyUI+Unity2.x注入的后台管理系统(37)-文章发布系统④-百万级数据和千万级数据简单测试系列目录我想测试EF在一百万条数据下的显示时间! ...
struts2+hibernate+spring注解版框架搭建以及简单测试（方便脑补）
为了之后学习的日子里加深对框架的理解和使用,这里将搭建步奏简单写一下,目的主要是方便以后自己回来脑补: 1:File--->New--->Other--->Maven--->M ...
Mybatis动态SQL简单了解 Mybatis简介（四）
动态SQL概况 MyBatis 的强大特性之一便是它的动态 SQL 在Java开发中经常遇到条件判断,比如: if(x>0){ //执行一些逻辑........ } Mybatis应用中,S ...
[20190211]简单测试端口是否打开.txt
[20190211]简单测试端口是否打开.txt --//昨天看一个链接,提到如果判断一个端口是否打开可以简单执行如下:--//参考链接:https://dba010.com/2019/02/04/c ...
FileMaker Server连接SQL Server测试
用FM测试了一把扫二维码.效果还不错,简单的设置几下就可以上线,使用Iphone扫二维码进行盘点以及更新照片功能.接下来测试下下ODBC连接. FMS连接SQL Server测试 1. 在FMS服务器 ...
sql注入测试(1)---概念概述
在进行java web 测试时,经常会忽略的测试种类就是sql注入测试,这类缺陷造成的原因是开发技术在这方面欠缺的表现,虽然不常见,但一旦有这类缺陷,就很因此对运营的数据造成很多不必要的损失,所以,还 ...
技术分享 | 简单测试MySQL 8.0.26 vs GreatSQL 8.0.25的MGR稳定性表现
欢迎来到 GreatSQL社区分享的MySQL技术文章,如有疑问或想学习的内容,可以在下方评论区留言,看到后会进行解答 GreatSQL社区原创内容未经授权不得随意使用,转载请联系小编并注明来源. M ...
TODO：Golang UDP连接简单测试慎用Deadline
TODO:Golang UDP连接简单测试慎用Deadline UDP 是User Datagram Protocol的简称, 中文名是用户数据报协议,是OSI(Open System Interco ...

随机推荐

牛客 2018NOIP 模你赛2 T2 分糖果解题报告
分糖果链接:https://www.nowcoder.com/acm/contest/173/B 来源:牛客网题目描述 \(N\) 个小朋友围成一圈,你有无穷个糖果,想把其中一些分给他们. 从某个 ...
MySQL 5.7主从复制与主主复制实现细节分析
0.简介: MySQL作为世界上使用最为广泛的数据库之一,免费是其原因之一.但不可忽略的是它本身的功能的确很强大.随着技术的发展,在实际的生产环境中,由单台MySQL数据库服务器不能满足实际的需求.此 ...
css容器
.s1{ background-color:pink; font-weight:bold; font-size=16px; color:black; } #id1{ background-color: ...
学习hibernate，这个系列很不错
从这里入,感谢作者啊. 看了很多资料,这个是最能让我入门的.感觉. http://blog.csdn.net/yerenyuan_pku/article/details/52745486
(4)oracle连接工具和配置监听
一.SQL PLUS sql plus 是oracle最常用的命令行工具,启动sqlplus工具的方法有两种 1. 是在安装好的oracle开始程序的路径下运行程序点击运行弹出此界面 2 .是在cm ...
(4)C#变量,常量,数据类型,转义字符,数据类型转换
一.变量程序运行期间能够被改变的量称为变量. 变量名称要用小写字母开头,避免用下划线开头. 如果包含多个单词,从第二个单词开始首字母都要大写. 定义并初始化 double pi = 3.14 二.常 ...
TCC分布式事务的实现原理（转载石杉的架构笔记）
拜托,面试请不要再问我TCC分布式事务的实现原理![石杉的架构笔记] 原创: 中华石杉目录一.写在前面二.业务场景介绍三.进一步思考四.落地实现TCC分布式事务 (1)TCC实现阶段一:Tr ...
ACM中的正则表达式
layout: post title: ACM中的正则表达式 author: "luowentaoaa" catalog: true mathjax: true tags: - 正 ...
Codeforces 1029 E. Tree with Small Distances（树上dp）
题目直通车:http://codeforces.com/problemset/problem/1029/E 思路大意:在树上做dp,依次更新ar数组,ar[i]表示以i为根节点的子树对答案的最小贡献值 ...
tyvj——P1002 谁拿了最多奖学金
P1002 谁拿了最多奖学金时间: 1000ms / 空间: 131072KiB / Java类名: Main 背景 NOIP2005复赛提高组第一题描述某校的惯例是在每学期的期末考试之后发 ...

Storm sql 简单测试

Storm sql 简单测试的更多相关文章

随机推荐

热门专题