python高效解析日志入库

python脚本解析日志文件入库一般有三个重要的步骤：读文件、解析文件、入库。在这三个方面下功夫，可确保我们获得最优的性能（这里不讨论并发）

1 读文件：一次读一行，磁盘IO太多，效率低下；一次性读如全部文件内容，可能内存不够。采取一个折中的办法，每次读若干byte(具体大小视实际情况而定)。

经过测试，得到结论，在我们写代码的时候应该这样写

f = open(path,'r')

for line in f :

.............

这是系统提供的一种读文件的方法，一般比我们自己每次读若干byte要快（f.read(20000)）,具体怎么做到的，现在还不清楚。总之，系统提供的，

应该差不了，不然也太丢人。啊哈！

2 解析日志，如果用到正则表达式，应该先编译然后再查找，这样可以提高速度。例如：

regex0 = re.compile("(^|;)mobile=(\d+)")

mobile_number=regex0.search(self.resp_log).group(2)

当然，这是一个大方面，精细的方面我们还要在正则的写法上下功夫。关于Python的正则的高效写法，后续会专门用一边文章来写。

3 入库：网上有好多建议使用executemany()这个写法，insert into tablename(xx,xx) values(yy,yy),(yy,yy)....的形式却会快很多，

我们应该直接把我们的SQL拼接成这种形式，效率远远高于executemany(),具体一次性要插入多少行，自己测一下哦。每秒1W应该没问题。

==============================================================================

按照上面的写法，可以保证读文件、解析文件、入库每个环节都做到最优，但是在整体结构上还有优化的空间，详细如下：

1 启一个线程readThread只负责读文件，然后把读到的内容放到队列Queue1中；

2 启一个线程manageThread只负责解析文件内容，然后把解析好的东西放到Queue2中；

3 启动第三个线程writeDB负责将解析好的文件内容入库；

4 开启一个后台线程对1、2、3三个线程的运行状况进行监控、记录与处理。

python高效解析日志入库的更多相关文章

一、基于hadoop的nginx访问日志分析---解析日志篇
前一阵子,搭建了ELK日志分析平台,用着挺爽的,再也不用给开发拉各种日志,节省了很多时间. 这篇博文是介绍用python代码实现日志分析的,用MRJob实现hadoop上的mapreduce,可以直接 ...
python之配置日志的三种方式
以下3种方式来配置logging: 1)使用Python代码显式的创建loggers, handlers和formatters并分别调用它们的配置函数: 2)创建一个日志配置文件,然后使用fileCo ...
Python之配置日志的几种方式（logging模块）
原文:https://blog.csdn.net/WZ18810463869/article/details/81147167 作为开发者,我们可以通过以下3种方式来配置logging: 1)使用Py ...
【转】python之配置日志的几种方式
[转]python之配置日志的几种方式作为开发者,我们可以通过以下3种方式来配置logging: 1)使用Python代码显式的创建loggers, handlers和formatters并分别调用 ...
python之配置日志的几种方式
作为开发者,我们可以通过以下3种方式来配置logging: 1)使用Python代码显式的创建loggers, handlers和formatters并分别调用它们的配置函数: 2)创建一个日志配置文 ...
《Python高效开发实战》实战演练——建立应用2
为了在项目中开发符合MVC架构的实际应用程序,需要在项目中建立Django应用.每个Django项目可以包含多个Django应用.建立应用的语法为: #python manage.pystartapp ...
Python高效编程技巧实战实战编程+面试典型问题中高阶程序员过渡
下载链接:https://www.yinxiangit.com/603.html 目录: 如果你想用python从事多个领域的开发工作,且有一些python基础, 想进一步提高python应用能力 ...
分析Python中解析构建数据知识
分析Python中解析构建数据知识 Python 可以通过各种库去解析我们常见的数据.其中 csv 文件以纯文本形式存储表格数据,以某字符作为分隔值,通常为逗号:xml 可拓展标记语言,很像超文本标记 ...
Python 高效编程技巧实战（2-1）如何在列表,字典, 集合中根据条件筛选数据
Python 高效编程技巧实战(2-1)如何在列表,字典, 集合中根据条件筛选数据学习目标 1.学会使用 filter 借助 Lambda 表达式过滤列表.集合.元组中的元素: 2.学会使用列表解析 ...

随机推荐

构建单页Web应用
摘自前端农民工的博客让我们先来看几个网站: coding teambition cloud9 注意这几个网站的相同点,那就是在浏览器中,做了原先“应当”在客户端做的事情.它们的界面切换非常流畅,响应 ...
canvas/CSS实现仪表盘效果
手机上看比较虚 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <t ...
centos 防火墙设置
1.安装iptables防火墙怎么知道系统是否安装了iptables?执行iptables -V,如果显示如: iptables v1.3.5 说明已经安装了iptables. 如果没有安装ipta ...
asp.net core中Microsoft.AspNet.Session的使用
1.通过nuget/修改project.json引用 2.引用存储session的媒介,如内存.数据库.redis等 "Microsoft.AspNetCore.Session": ...
Atitit.常用的gc算法
Atitit.常用的gc算法 1.1. 记-清除算法1 1.2. 复制算法1 1.3. 标记-整理算法2 1.4. 分代收集算法2 1.1. 记-清除算法最基础的收集算法,算法分为标记和清除两个阶段 ...
atitit.api设计方法指南手册 v2 q929.docx
atitit.api设计方法指南手册 v2 q929.docx atitit.api设计原则与方法 1. 归一化(锤子钉子理论)1 1.1. 链式方法2 1.2. 规则5:建立返回值类型2 1. ...
paip.提升性能----数据库连接池以及线程池以及对象池
paip.提升性能----数据库连接池以及线程池以及对象池目录:数据库连接池c3po,线程池ExecutorService:Jakartacommons-pool对象池作者Attilax 艾龙, ...
java继承与多态-3个小题
1.(1)编写一个接口ShapePara,要求: 接口中的方法: int getArea():获得图形的面积.int getCircumference():获得图形的周长 (2)编写一个圆类Circl ...
IOS开发之进阶篇第一章 - 姿势识别器UIPanGestureRecognizer
今天讲一下姿势识别器,UIGestureRecognizer这个是抽象类 1.拍击UITapGestureRecognizer (任意次数的拍击) 2.向里或向外捏UIPinchGestureReco ...
eclipse安装activiti工作流插件
方式一:在有网络的情况下,安装流程设计器步骤如下: 1.点击eclipse上方工具栏的Help,选择Install New Software 2.弹出如下窗口,然后填写插件名称和安装地址 Name: ...

python高效解析日志入库

python高效解析日志入库的更多相关文章

随机推荐

热门专题