日志文件分割、命名

工作中经常会收到测试同学、客户同学提供的日志文件，其中不乏几百M一G的也都有，毕竟压测一晚上产生的日志量还是很可观的，xDxD，因此不可避免的需要对日志进行分割，通常定位问题需要针对时间点，因此最好对分割后的日志文件使用文件中日志的开始、结束时间点来命名，这样使用起来最为直观，下面给大家分享两个脚本，分别作分割、命名，希望能够给大家提供一点点帮助；

大文件分割

用法：

python split_big_file.py
输入文件全路径名
输入期望的分割后每个小文件的行数
Just wait.

代码如下：

	# -*- coding:utf-8 -*-

	import os,re,shutil

	import platform

	sys_name = platform.system().lower()

	SPLIT_CHAR = '\\' if sys_name.find('windows') != -1 else '/'

	print('input big files`s path:')

	_path = raw_input()

	names = []

	pathes = []

	if os.path.isfile(_path):

		print('is file')

		names.append(_path)

	else:

		print('is nothing')

	'''

	elif os.path.isdir(_path):

		print('This is dir')

		pathes = os.listdir(_path)

		print('pathes='+str(pathes))

		for i in range(len(pathes)):

			fullpath = _path+SPLIT_CHAR+pathes[i]

			print('fullpath='+fullpath)

			if os.path.isfile(fullpath):

				names.append(fullpath)

				files.append(open(fullpath).read().split('\n'))

	'''

	print(len(names))

	line_num = int(raw_input('every file`line num = '))

	print('line number='+str(line_num))

	for i in range(len(names)):

		_name = names[i]

		ori_name = _name.split(SPLIT_CHAR)[len(_name.split(SPLIT_CHAR))-1]

		dir_name = _name.replace(ori_name,'DIR_'+ori_name)

		dir_name = dir_name.replace('.','_')

		print ori_name

		print dir_name

		os.system('mkdir '+dir_name)

		count = 1

		print '已处理：'+str(count)+'行'

		part_file = open(dir_name+SPLIT_CHAR+str(0)+'.part.txt','w')

		with open(_name, 'rb') as f:

		    for line in f:

			if count%line_num == 0:

			    part_file.close()

			    part_file = open(dir_name+SPLIT_CHAR+str(int(count/line_num))+'.part.txt','w')

			part_file.write(line+'\n')

			count+=1

			if count%100000 == 0:

			    print '已处理：'+str(count)+'行'

		print '已处理：'+str(count)+'行'

		os.system('python ./get_name_logfile.py '+dir_name)

文件按照开始、结束行时间戳重命名

用法：

python get_name_logfile.py log.txt
python get_name_logfile.py logs

参数选择文件或者文件夹均可，如果是文件夹，则会针对文件夹中的每个文件做处理（不会递归到文件夹下文件夹中的文件哦）；

代码如下：

	# -*- coding:utf-8 -*-

	import os,re,shutil

	import sys

	import platform

	sys_name = platform.system().lower()

	SPLIT_CHAR = '\\' if sys_name.find('windows') != -1 else '/'

	_path = sys.argv[1]

	names = []

	files = []

	pathes = []

	if os.path.isfile(_path):

		print('is file')

		names[0] = _path

	elif os.path.isdir(_path):

		print('This is dir')

		pathes = os.listdir(_path)

		print('pathes='+str(pathes))

		for i in range(len(pathes)):

			fullpath = _path+SPLIT_CHAR+pathes[i]

			print('fullpath='+fullpath)

			if os.path.isfile(fullpath):

				names.append(fullpath)

	else:

		print('is nothing')

	print(len(names))

	#	日期格式 ： 05-26 18:20:42.093	r'\d{4}-\d{2}-\d{2}T\d{2}:\d{2}:\d{2}.\d{3}'

	#

	#	05-26 18:20:43.093：r'\d{2}-\d{2} {1,}\d{2}:\d{2}:\d{2}.\d{1,10}'

	date_reg = r'\d{2}-\d{2} {1,}\d{2}:\d{2}:\d{2}.\d{1,10}'

	time_reg = r'\d{2}:\d{2}:\d{2}.\d{1,10}'

	for i in range(len(names)):

		_name = names[i]

		print('name='+_name)

		# head 尝试在10行内查找日期

		head_len = 10

		start_time = '(start_time-'

		_file_ = open(_name, 'rb')

		reads = _file_.read()

		_file = reads.split('\n')

		if len(_file)/2 < 10:

			head_len = len(_file)/2

		for j in range(head_len):

			res = re.search(date_reg, _file[j])

			if res!=None and res.group(0)!=None:

				start_time = res.group(0)

				print('start_time='+start_time)

				break

		# tail

		tail_len = len(_file)-head_len

		end_time = '-end_time)'

		for j in range(len(_file)-1,tail_len-1,-1):

			res = re.search(time_reg, _file[j])

			if res!=None and res.group(0)!=None:

				end_time = res.group(0)

				print('end_time='+end_time)

				break

		_file_.close()

		ori_name = _name.split(SPLIT_CHAR)[len(_name.split(SPLIT_CHAR))-1]

		print('ori_name='+ori_name)

		new_name = start_time.replace(':','-')+'__'+end_time.replace(':','-')+os.path.splitext(ori_name)[1]

		print('new_name='+new_name)

		print("copy %s %s" % (_name, _name.replace(ori_name,new_name)))

		#os.system ("copy %s %s" % (_name, _name.replace(ori_name,new_name)))

		shutil.copy(_name,_name.replace(ori_name,new_name))

		os.system ("rm -rf "+_name)

最后

大家可以到我的Github上看看有没有其他需要的东西，目前主要是自己做的机器学习项目、Python各种脚本工具、数据分析挖掘项目以及Follow的大佬、Fork的项目等：

https://github.com/NemoHoHaloAi

大文件分割、命令脚本 - Python的更多相关文章

Linux大文件分割splite
/********************************************************************** * Linux大文件分割splite * 说明: * 编 ...
Linux中split大文件分割和cat合并文件
当需要将较大的数据上传到服务器,或从服务器下载较大的日志文件时,往往会因为网络或其它原因而导致传输中断而不得不重新传输.这种情况下,可以先将大文件分割成小文件后分批传输,传完后再合并文件. 1．分割 ...
c#大文件分割过程
需求: 在项目开发中,我们会遇到单个文件大小超过1TB的文件,这样的文件只能进行单文件读取,往往会造成读取完成耗时过长,导致客户在使用体验过程中不满意. 为了解决提升大文件的解析速度,我想到了先分割大 ...
android下大文件分割上传
由于android自身的原因,对大文件(如影视频文件)的操作很容易造成OOM,即:Dalvik堆内存溢出,利用文件分割将大文件分割为小文件可以解决问题. 文件分割后分多次请求服务. //文件分割上传 ...
PHP + JS 实现大文件分割上传
服务器上传文件会有一定的限制.避免内存消耗过大影响性能,在 php.ini 配置文件中,有几个影响参数: upload_max_filesize = 2M //PHP最大能接受的文件大小 post_m ...
Html5 突破微信限制实现大文件分割上传
先来前端代码 <!DOCTYPE html> <html> <head> <meta name="viewport" content=&q ...
c# 大文件分割复制 Filestream 进度条
大文件分割复制,每次复制100M 也可以复制别的较大数值. 小于1G的小文件就直接复制得了.代码里没写 ,但是很简单直接写进去就好了,难得是分割复制所以没写. 好吧我还是改了改成小文件也可以复 ...
FileStrem大文件分割复制
using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; usin ...
formdata方式上传文件，支持大文件分割上传
1.upload.html <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/html"> <h ...

随机推荐

Scala 系列（二）—— 基本数据类型和运算符
一.数据类型 1.1 类型支持 Scala 拥有下表所示的数据类型,其中 Byte.Short.Int.Long 和 Char 类型统称为整数类型,整数类型加上 Float 和 Double 统称为数 ...
LInux ACL权限控制
1.ACL简介 ACL是一种可以实现灵活的权限管理(文件的额外赋权机制)除了文件所有者,所属组和其他人,可以对更多的用户设置权限,这就是访问控制列表(Access Control List) 2.AC ...
Springboot源码分析之事务拦截和管理
摘要: 在springboot的自动装配事务里面,InfrastructureAdvisorAutoProxyCreator ,TransactionInterceptor,PlatformTrans ...
Leetcode之回溯法专题-77. 组合（Combinations）
Leetcode之回溯法专题-77. 组合(Combinations) 给定两个整数 n 和 k,返回 1 ... n 中所有可能的 k 个数的组合. 示例: 输入: n = 4, k = 2 输 ...
.NET平台下，钉钉微应用开发之：工作消息通知
首先看下官方文档,为我们提供了POST请求地址,和几个必传参数的列表以及参数示例,写的都挺详细的. 无奈提供的SDK请求示例是JAVA的,而我用的是.NET的,所以还是摸了一些坑出来,其实也就是不同平 ...
给手机端页面留一个调试后门吧(vue)
当我们在浏览器开发vue页面时,由于浏览器对于调试有天然的支持,我们开发起来很方便.但是现在已经进入了移动端时代,移动端页面的需求越来越大. 在开发移动端页面的时候我们通常是在浏览器完成开发完成,之后 ...
转载-Springboot整合ehcache缓存
转载:https://www.cnblogs.com/xzmiyx/p/9897623.html EhCache是一个比较成熟的Java缓存框架,最早从hibernate发展而来, 是进程中的缓存系统 ...
Mysql主从同步配置方案（Centos7）
最近在做项目高可用时,需要使用数据同步.由于只有双节点,且采用主主同步可能存在循环同步的风险,故综合考虑采用Mysql主从同步(Master-Slave同步). 可能没有接触过Mysql数据同步时,可 ...
[转]Linux系统结构
Linux系统一般有4个主要部分:内核.shell.文件系统.应用程序. 内核.shell和文件系统一起形成了基本的操作系统结构,它们使得用户可以运行程序.管理文件并使用系统. 1.linux内核内 ...
Mysql相关：navicat for mysql 加注释
在 navicat 中有三种注释的书写方式: 以 # 开头的字符串,可以多个 # 连续以 – 开头的字符串,注意:只能是 – ,而且 – 后面需要加一个半角空格以 /* */ 包围的字符串,类似于 J ...

大文件分割、命令脚本 - Python

日志文件分割、命名

大文件分割

文件按照开始、结束行时间戳重命名

最后

大文件分割、命令脚本 - Python的更多相关文章

随机推荐

热门专题