Python日志产生器

写在前面

有的时候,可能就是我们做实时数据收集的时候,会有一个头疼的问题就是,你会发现,你可能一下子,没有日志的数据源。所以,我们可以简单使用python脚本来实现产生实时的数据,这样就很方便了

在编写代码之前,我们得知道我们的webserver日志到底长什么样,下面我找了一段的nginx服务器上真实日志,作为样例:

223.104.25.1 - - [21/Nov/2017:20:34:16 +0800] "GET / HTTP/1.1" 200 94 "-" "Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_3 like Mac OS X) AppleWebKit/603.3.8 (KHTML, like Gecko) Version/10.0 Mobile/14G60 Safari/602.1" "-"
223.104.25.1 - - [21/Nov/2017:20:34:16 +0800] "GET / HTTP/1.1" 200 94 "-" "Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_3 like Mac OS X) AppleWebKit/603.3.8 (KHTML, like Gecko) Version/10.0 Mobile/14G60 Safari/602.1" "-"
156.151.199.137 - - [21/Nov/2017:20:34:19 +0800] "GET / HTTP/1.1" 304 0 "-" "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36" "-"

从上面的服务器日志中我们可以看见,主要的字段有:

1.访问的ip地址156.151.199.137

2.访问的时间/时区 [21/Nov/2017:20:34:19 +0800]

3.状态码,

4.useragent 信息等

接下来,我们就开始来开发模拟的日志产生器

思路??

开发的pyhton日志产生器中包括:请求的URL、ip、referer和状态码等信息。

实现,这里直接贴上代码python:

#coding=UTF-8

import random
import time url_paths = [
"class/154.html",
"class/128.html",
"class/147.html",
"class/116.html",
"class/138.html",
"class/140.html",
"learn/828",
"learn/521",
"course/list"
] ip_slices = [127,156,222,105,24,192,153,127,31,168,32,10,82,77,118,228] http_referers = [
"http://www.baidu.com/s?wd={query}",
"https://www.sogou.com/web?query={query}",
"http://cn.bing.com/search?q={query}",
"https://search.yahoo.com/search?p={query}",
] search_keyword = [
"Spark 项目实战",
"Hadoop 项目实战",
"Storm 项目实战",
"Spark Streaming实战",
"古诗词鉴赏"
] status_codes = ["200","404","500","503","403"] def sample_url():
return random.sample(url_paths, 1)[0] def sample_ip():
slice = random.sample(ip_slices , 4)
return ".".join([str(item) for item in slice]) def sample_referer():
if random.uniform(0, 1) > 0.2:
return "-" refer_str = random.sample(http_referers, 1)
query_str = random.sample(search_keyword, 1)
return refer_str[0].format(query=query_str[0]) def sample_status_code():
return random.sample(status_codes, 1)[0] def generate_log(count = 10):
time_str = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()) f = open("/home/hadoop/data/project/logs/access.log","w+") while count >= 1:
query_log = "{ip}\t{local_time}\t\"GET /{url} HTTP/1.1\"\t{status_code}\t{referer}".format(url=sample_url(), ip=sample_ip(), referer=sample_referer(), status_code=sample_status_code(),local_time=time_str) f.write(query_log + "\n") count = count - 1 if __name__ == '__main__':
generate_log(10)

这样我们就能够实现日志的产生,测试:

[hadoop@hadoop000 logs]$ more access.log
105.228.77.82 2017-11-21 06:38:01 "GET /learn/828 HTTP/1.1" 200 -
31.10.153.77 2017-11-21 06:38:01 "GET /class/138.html HTTP/1.1" 200 -
77.156.153.105 2017-11-21 06:38:01 "GET /class/140.html HTTP/1.1" 503 http://www.bai
du.com/s?wd=Storm 项目实战
222.32.228.77 2017-11-21 06:38:01 "GET /learn/521 HTTP/1.1" 404 https://www.so
gou.com/web?query=Spark 项目实战
#产生的部分

数据可以产生了,接下来我们要实现数据的实时产生了,这里就是需要使用到linux里面的Crontab执行计划了。相信学过linux的人,肯定会知道。我们编写一个执行计划就好。

推荐一个测试工具网站:

https://tool.lu/crontab

1)先写一个执行计划的执行脚本。new一个.sh文件:

[hadoop@hadoop000 project]$ vim log_generator.sh
python /home/hadoop/data/project/generate_log.py

2)写好之后,就可以写我们的执行计划了

[hadoop@hadoop000 project]$ crontab -e
* * * * * /home/hadoop/data/project/log_generator.sh * * * * * sleep 10; /home/hadoop/data/project/log_generator.sh * * * * * sleep 20; /home/hadoop/data/project/log_generator.sh * * * * * sleep 30; /home/hadoop/data/project/log_generator.sh * * * * * sleep 40; /home/hadoop/data/project/log_generator.sh * * * * * sleep 50; /home/hadoop/data/project/log_generator.sh

这样,我们的执行计划就设计好了,我们这里设计的是每10秒执行一次

,即每10秒产生十条日志信息

验证:

[hadoop@hadoop000 logs]$ tail -f access.log
222.153.118.82 2017-11-21 06:45:01 "GET /class/147.html HTTP/1.1" 403 -
127.192.168.31 2017-11-21 06:45:01 "GET /class/138.html HTTP/1.1" 200 -
77.31.153.127 2017-11-21 06:45:01 "GET /class/116.html HTTP/1.1" 403 https://search.yahoo.com/search?p=Spark Streaming实战
153.10.82.192 2017-11-21 06:45:01 "GET /class/147.html HTTP/1.1" 404 -
168.32.153.222 2017-11-21 06:45:01 "GET /learn/828 HTTP/1.1" 503 -
118.153.222.192 2017-11-21 06:45:01 "GET /class/128.html HTTP/1.1" 503 -
192.32.156.31 2017-11-21 06:45:01 "GET /class/147.html HTTP/1.1" 500 https://search.yahoo.com/search?p=Spark 项目实战
127.192.82.228 2017-11-21 06:45:01 "GET /class/154.html HTTP/1.1" 403 -
118.31.222.105 2017-11-21 06:45:01 "GET /learn/521 HTTP/1.1" 503 -
127.127.168.228 2017-11-21 06:45:01 "GET /class/140.html HTTP/1.1" 200 -
tail: access.log: file truncated
228.10.153.192 2017-11-21 06:56:01 "GET /class/147.html HTTP/1.1" 500 -
10.168.156.31 2017-11-21 06:56:01 "GET /course/list HTTP/1.1" 403 -
192.153.222.77 2017-11-21 06:56:01 "GET /class/154.html HTTP/1.1" 200 -
153.32.105.82 2017-11-21 06:56:01 "GET /course/list HTTP/1.1" 500 http://www.baidu.com/s?wd=Spark 项目实战

上面是部分截取,可以观察到,每隔10秒就会产生日志数据

接下来,我们就可以来使用这个日志产生器来实时产生我们需要的日志信息了。

Python日志产生器的更多相关文章

  1. python日志装饰器实现

    问题出自:https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/00143184355 ...

  2. 【Python】装饰器实现日志记录

    好的日志对一个软件的重要性是显而易见的.如果函数的入口都要写一行代码来记录日志,这种方式实在是太低效了,但一直没有找到更好的方法.后来用python写一些软件,了解到python的装饰器功能时,突然人 ...

  3. python基础——装饰器

    python基础——装饰器 由于函数也是一个对象,而且函数对象可以被赋值给变量,所以,通过变量也能调用该函数. >>> def now(): ... print('2015-3-25 ...

  4. 【转】详解Python的装饰器

    原文链接:http://python.jobbole.com/86717/ Python中的装饰器是你进入Python大门的一道坎,不管你跨不跨过去它都在那里. 为什么需要装饰器 我们假设你的程序实现 ...

  5. 理解Python中的装饰器//这篇文章将python的装饰器来龙去脉说的很清楚,故转过来存档

    转自:http://www.cnblogs.com/rollenholt/archive/2012/05/02/2479833.html 这篇文章将python的装饰器来龙去脉说的很清楚,故转过来存档 ...

  6. 详解Python的装饰器

    Python中的装饰器是你进入Python大门的一道坎,不管你跨不跨过去它都在那里. 为什么需要装饰器 我们假设你的程序实现了say_hello()和say_goodbye()两个函数. def sa ...

  7. Python学习---装饰器的学习1210

    装饰器的基础 学习前提: 作用域 + 函数的理解 + 闭包  [学习,理解] 代码编写原则: 对修改开放对扩展开放 装饰器本质上是一个函数,该函数用来处理其他函数,它可以让其他函数在不需要修改代码的前 ...

  8. python日志模块笔记

    前言 在应用中记录日志是程序开发的重要一环,也是调试的重要工具.但却很容易让人忽略.之前用flask写的一个服务就因为没有处理好日志的问题导致线上的错误难以察觉,修复错误的定位也很困难.最近恰好有时间 ...

  9. Python的装饰器实例用法小结

    这篇文章主要介绍了Python装饰器用法,结合实例形式总结分析了Python常用装饰器的概念.功能.使用方法及相关注意事项 一.装饰器是什么 python的装饰器本质上是一个Python函数,它可以让 ...

随机推荐

  1. Jesus Is Here[递推]2015沈阳online

    题目链接https://nanti.jisuanke.com/t/41175 自从百度之星初赛一上自己做出来一道打表找规律的题之后,这种膨胀的感觉让我近乎丧失理智,今天这道题我死死盯了两三个小时硬是没 ...

  2. OCP培训 MySQL OCP认证实战培训【低价送OCP考证名额】

    一.OCP培训 MySQL 5.7 OCP认证全套实战培训[低价送OCP考试名额] 课程目标: 风哥为满足想参加MySQL OCP考证的学员,而设计的一套比较全面OCP实战培训课程. 课程涉及MySQ ...

  3. Spring学习之旅(八)--SpringMVC请求参数

    现在我们已经完成了一个无参的接口了,但是应用中有很多需要携带参数的场景,我们来看看 ** SpringMVC** 对它的支持. 参数绑定 SpringMVC 提供了一种绑定机制,通过这个机制可以从请求 ...

  4. C# - AutoMapper之不同类型的转换

    一.Dto & Model约定 class TestDto { public string Name { get; set; } public int Age { get; set; } pu ...

  5. mysql登录的root密码问题

    先说下场景:官网上下载mysql-5.7.18-winx64包,解压,设置环境变量完毕,执行install等命令安装完毕,一切正常,并未发现有什么问题. 然后使用客户端连接数据库时,死活报错:ERRO ...

  6. P1415 拆分数列 DP

    传送门: 题意: 将一个数字串分成许多不同的小串,使得这些小串代表的数字严格递增,要求最后一个数字尽可能地小. 然后满足字典序尽可能大. 思路: 由于最后一个数字要尽可能地小,所以先处理出每个数的L[ ...

  7. Codeforces Round #506 (Div. 3) 1029 F. Multicolored Markers

    CF-1029F 题意: a,b个小正方形构造一个矩形,大小为(a+b),并且要求其中要么a个小正方形是矩形,要么b个小正方形是矩形. 思路: 之前在想要分a,b是否为奇数讨论,后来发现根本不需要.只 ...

  8. codeforces 743D. Chloe and pleasant prizes(树形dp)

    题目链接:http://codeforces.com/contest/743/problem/D 大致思路挺简单的就是找到一个父节点然后再找到其两个字节点总值的最大值. 可以设一个dp[x]表示x节点 ...

  9. yzoj P2344 斯卡布罗集市 题解

    共t条街对于每一条街上有n个店铺(n可能不相同),每次只能选两端第一个营业的店铺采购,采购第i个店铺会获得幸福度ai,采购完后,这个店铺和它相邻的店铺便会关门,问最大幸福度? 考场想了一下dp,一开始 ...

  10. cesium页面小控件的隐藏

    cesium页面小控件的隐藏 1   创建一个Viewer var viewer = new Cesium.Viewer('cesiumContainer');//cesiumContainer为di ...