python文件处理（对比和筛选）版本2

场景：对比两个txt文件的差异，将对比结果写入html，将不同部分写入另一个txt

#!/user/bin/python

#!coding=utf-8

# -*- coding: utf-8 -*-

# 2017-9-25

#author:jingwenshuai

import sys

import difflib

import re

import os

#-----------------------------比对两文件，将结果存入Result.html-------------------------------------#

# 读取配置文件函数

def read_file(file_name):

    try:

        file_handle = open(file_name, 'r')

        text = file_handle.read().splitlines()         # 读取后以行进行分割

        file_handle.close()

        return text

    except IOError as error:

        print 'Read file Error: {0}'.format(error)

        sys.exit()

# 比较两个文件并输出html格式的结果

def compare_file(file1_name, file2_name):

    if file1_name == "" or file2_name == "":

        print '文件路径不能为空：file1_name的路径为：{0}, file2_name的路径为：{1} .'.format(file1_name, file2_name)

        sys.exit()

    text1_lines = read_file(file1_name)

    text2_lines = read_file(file2_name)

    diff = difflib.HtmlDiff()                             # 创建htmldiff 对象

    result = diff.make_file(text1_lines,text2_lines)     # 通过make_file 方法输出 html 格式的对比结果

    result = result.replace('ISO-8859-1','gbk')          #字符串替换，将result的编码替换为gbk

    #  将结果保存到result.html文件中并打开

    try:

        with open('result.html', 'w') as result_file:     #同 f = open('result.html', 'w') 打开或创建一个result.html文件

            result_file.write(result)                     #同 f.write(result)

    except IOError as error:

        print '写入html文件错误：{0}'.format(error)

#---------------------------取出不同部分存入Result.txt---------------------------------#

#取出不同部分存入Result.txt

def result(file1_name,file2_name):

    if file1_name == "" or file2_name == "":

        print '文件路径不能为空：file1_name的路径为：{0}, file2_name的路径为：{1} .'.format(file1_name, file2_name)

        sys.exit()

    str1=[]

    str2=[]

    str_dump=[]

    #将A.txt的内容逐行读到str1中

    with open(file1_name,'r') as fa:                #相当于fa=open(file1_name,'r')

        for line in fa.readlines():

            str1.append(line.replace("\n",''))      #line.replace("\n",'') 去掉换行符\n

    #将B.txt中的内容逐行读到str2中

    with open(file2_name,'r') as fb:

        for line in fb.readlines():

            str2.append(line.replace("\n",''))

    #将两个文件中重复的行，添加到str_dump中

    for i in str1:

        if i in str2:

            str_dump.append(i)

    #将两个文件的行合并，并去重

    #str_all=set(str1+str2)

    #将重复的行，在去重的合并行中，remove掉，剩下的就是不重复的行了

    #for i in str_dump:

    #    if i in str_all:

     #       str_all.remove(i)

    #将str1中重复的去掉

    for i in str_dump:

        if i in str1:

           str1.remove(i)

    #将str2中重复的去掉

    for i in str_dump:

        if i in str2:

           str2.remove(i)

    #将两个不同的行合并到一行

    str_all = []

    for i in range(len(str2)):

        str_all.append(str1[i] + '                     '+ str2[i])

    #写入文件中

    with open("Result.txt",'w+') as fc:

        for i in list(str_all):

            fc.write(i+'\n')

    fa.close()

    fb.close()

    fc.close()

if __name__ == "__main__":

    x = raw_input(u"请输入第一个文件路径：")

    y = raw_input(u"请输入第二个文件路径：")

    compare_file(x, y)    #传入两文件的路径

    result(x,y)    #传入两文件的路径

python文件处理（对比和筛选）版本2的更多相关文章

利用python进行坐标提取以及筛选（文件操作的小应用）
由于目前暂时还未学习到python关于数据处理的模块方面的知识,且刚好最近朋友发来一份坐标数据文件(txt格式),让我帮他对其进行筛选, 因此利用了最近刚学过的python文件处理操作以及以前所学的基 ...
编译Python文件(了解)
目录编译Python文件(了解) 批量生成.pyc文件(了解) 编译Python文件(了解) 为了提高加载模块的速度,强调强调强调:提高的是加载速度而绝非运行速度.python解释器会在__pyca ...
Python+Excel 操作对比
前言从网页爬下来的大量数据需要excel清洗成堆的科学实验数据需要导入excel进行分析作为一名面向逼格的Python程序员该如何合理而又优雅的选择生产力工具呢? 得益于辛勤劳作的python大神们 ...
编译Python文件
编译Python文件一.编译Python文件为了提高加载模块的速度,强调强调强调:提高的是加载速度而绝非运行速度.python解释器会在__pycache__目录中下缓存每个模块编译后的版本,格式 ...
【Python文件处理】递归批处理文件夹子目录内所有txt数据
因为有个需求,需要处理文件夹内所有txt文件,将txt里面的数据筛选,重新存储. 虽然手工可以做,但想到了python一直主张的是自动化测试,就想试着写一个自动化处理数据的程序. 一.分析数据格式需 ...
关于ext3，ext4，xfs和btrfs文件系统性能对比
关于ext3,ext4,xfs和btrfs文件系统性能对比应为原文:http://www.ilsistemista.net/index.php/linux-a-unix/6-linux-filesy ...
[C/C++][文件操作] 对比目录并列出同名较新文件、较旧文件 0.1
主要是模仿robocopy的部分功能 (robocopy /L 参数可以列出本地目录和备份目录中的异同之处,主要是标记出:较新的.较旧的.多出的文件 ) 现在还不会写GUI,打算后面自己做目录树dif ...
python文件打包格式，pip包管理
1..whl是python文件的一种打包格式, 在有些情况下,可以将文件的后缀名改为.zip并解压 2.cmd中,提示pip版本太低,先升级pip pip install --upgrade pi ...
Python包管理工具和多版本环境管理
1. Python包管理工具在安装Python包的过程中,经常涉及到distutils.setuptools.distribute.setup.py.easy_install.easy_instal ...
python文件和文件夹訪问File and Directory Access
http://blog.csdn.net/pipisorry/article/details/47907589 os.path - Common pathname manipulations 都是和路 ...

随机推荐

[源码分析] 分布式任务队列 Celery 之发送Task & AMQP
[源码分析] 分布式任务队列 Celery 之发送Task & AMQP 目录 [源码分析] 分布式任务队列 Celery 之发送Task & AMQP 0x00 摘要 0x01 ...
Spring Boot+MySQL+Spring Data JPA一个Web的Demo
2020.06.23 更新 1 概述一个简单的web项目配合MySQL+Hibernate+Tomcat的简单示例demo,很容易在此基础上扩展成自己的项目. 2 创建工程笔者IDE为Intell ...
曾侯乙编钟引发的遐想之Java设计模式：状态模式
目录示例简单例子改进代码状态模式定义意图主要解决问题何时使用优缺点曾侯乙编钟状态模式-命令模式-策略模式示例一个类对外提供了多个行为,同时该类对象有多种状态,不同状态下对外的 ...
什么是SQL注入漏洞？
什么是SQL注入: SQL是操作数据库数据的结构化查询语言,网页的应用数据和后台数据库中的数据进行交互时会采用SQL. SQL注入,就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字 ...
k8s 安装 rabbitMQ 单机版
rabbitMQ docker镜像使用rabbitmq:3.8-management service.yaml文件 apiVersion: v1 kind: Service metadata: nam ...
[ Laravel 5.6 文档 ] 进阶系列 —— 任务调度
简介 Cron 是 UNIX.SOLARIS.LINUX 下的一个十分有用的工具,通过 Cron 脚本能使计划任务定期地在系统后台自动运行.这种计划任务在 UNIX.SOLARIS.LINUX下术语为 ...
Spring Cloud 微服务架构整理记录与示例首页
---------------------------目录-------------------------------- 一.SpringCloud系列组件实战(Eureka.Ribbon.Hyst ...
从苏宁电器到卡巴斯基（后传）第03篇：我与鱼C论坛的是是非非
前言与铺垫当我刚读研一的时候,对自己的未来还是非常迷茫的.尽管我读的是数字媒体技术专业,但是我对这一行根本就不感兴趣,对于平面设计.三维建模以及游戏引擎的使用这一类知识根本就不会,也不太想学(由于我 ...
Windows核心编程第十五章在应用程序中使用虚拟内存
第1 5章在应用程序中使用虚拟内存 Wi n d o w s提供了3种进行内存管理的方法,它们是: • 虚拟内存,最适合用来管理大型对象或结构数组. • 内存映射文件,最适合用来管理大型数据流(通常 ...
IOCP实现高并发以及与传统socke编程的对比
前言传统socket编程中服务端一般为每一个客户端创建一个线程(一对一).这样虽然可以使程序的结构简单明了并且方便对数据处理,但是这些都是建立在创建多个线程的基础上,也就是以牺牲线程为代价.一旦有大 ...

python文件处理（对比和筛选）版本2

python文件处理（对比和筛选）版本2的更多相关文章

随机推荐

热门专题