doc文件转txt
doc文件转txt
# -*- coding:utf-8 -*-
# 安装pywin32包 http://sourceforge.net/projects/pywin32/files/pywin32/
# windows 7下使用通过
#
import os, sys
from fnmatch import fnmatch
import win32com.client
if len(sys.argv)<=2:
    print "python %s inputdir  outputdir" % os.path.basename(sys.argv[1])
    sys.exit(1)
input = sys.argv[1]
output = sys.argv[2]
if not os.path.exists(output): os.mkdir(output)
i = 1
wordapp = win32com.client.gencache.EnsureDispatch("Word.Application")
wordapp.Visible = 0
wordapp.DisplayAlerts = 0
for path, dirs, files in os.walk(input):
    docs = [os.path.abspath(os.path.join(path, f)) for f in files if fnmatch(f, '*.doc')]
    for doc in docs:
        doc2txt = os.path.join(output, os.path.basename(doc.rstrip('doc') + 'txt'))
        doc2txt = os.path.abspath(doc2txt)
        if os.path.exists(doc2txt): continue
        print " processing [%d] %s " % (i, doc)
        i +=1
        wddoc = wordapp.Documents.Open(doc)
        wddoc.SaveAs(doc2txt, FileFormat=win32com.client.constants.wdFormatTextLineBreaks)
        wddoc.Close()
wordapp.Quit()
												
											doc文件转txt的更多相关文章
- POI转换word doc文件为(html,xml,txt)
		
在POI中还存在有针对于word doc文件进行格式转换的功能.我们可以将word的内容转换为对应的Html文件,也可以把它转换为底层用来描述doc文档的xml文件,还可以把它转换为底层用来描述doc ...
 - Java基础-输入输出-3.编写BinIoDemo.java的Java应用程序,程序完成的功能是:完成1.doc文件的复制,复制以后的文件的名称为自己的学号姓名.doc。
		
3.编写BinIoDemo.java的Java应用程序,程序完成的功能是:完成1.doc文件的复制,复制以后的文件的名称为自己的学号姓名.doc. try { FileInputStream in = ...
 - 15个最好的PDF转word的在线转换器,将PDF文件转换成doc文件
		
PDF是一种文件格式,包含文本,图像,数据等,这是独立于操作系统的文件类型.它是一个开放的标准,压缩,另一方面DOC文件和矢量图形是由微软文字处理文件.该文件格式将纯文本格式转换为格式化文档.它支持几 ...
 - 使用POI转换word doc文件
		
目录 1 转换为Html文件 2 转换为Xml文件 3 转换为Text文件 在POI中还存在有针对于word doc文件进行格式转换的功能.我们可以将word的内容 ...
 - Python2 获取docx/doc文件内容
		
整体思路: 下载文件并修改后缀为zip文件,解压zip文件,所要获取的内容在固定的文件夹下:work/temp/word/document.xml 所用包,全部是python自带,不需要额外下载安装. ...
 - xls文件转化txt
		
xls文件转化txt # -*- coding:utf-8 -*- # 安装pywin32包 http://sourceforge.net/projects/pywin32/files/pywin32 ...
 - 编写BinIoDemo.java的Java应用程序,程序完成的功能是:完成1.doc文件的复制,复制以后的文件的名称为自己的学号姓名.doc。
		
package zuoye; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; ...
 - 将doc文件批量转为pdf文件
		
需要将不少doc文件转为pdf,WPS带有这种功能,但是鼠标点击次数太多以后整个人都变得很烦躁 用了一下午去搜这方面的工具软件,找到若干.有一些免费,有一些试用的,但总归就找到一个真正能用,虽说生成的 ...
 - Django 1.6 最佳实践: 如何设置django项目的设置(settings.py)和部署文件(requirements.txt)
		
Django 1.6 最佳实践: 如何设置django项目的设置(settings.py)和部署文件(requirements.txt) 作者: Desmond Chen,发布日期: 2014-05- ...
 
随机推荐
- POJ 1320:Street Numbers
			
Street Numbers Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 2753 Accepted: 1530 De ...
 - windows  driver 映射小文件
			
NTSTATUS status; UNICODE_STRING strFileSrc = RTL_CONSTANT_STRING(L"\\??\\C:\\网络调试工具.exe"); ...
 - tx2的一些系统命令
			
查看TX2 ubuntu系统版本命令:https://blog.csdn.net/zhengxiangwen/article/details/60324802 sudo uname --m
 - leetcode股票问题方法收集 转载自微信公众号labuladong
			
一.穷举框架首先,还是一样的思路:如何穷举?这里的穷举思路和上篇文章递归的思想不太一样. 递归其实是符合我们思考的逻辑的,一步步推进,遇到无法解决的就丢给递归,一不小心就做出来了,可读性还很好.缺点就 ...
 - oracle(3)select语句中常用的关键字说明
			
1.select 查询表中的数据 select * from stu: ---查询stu表所有的数据,*代表所有2.dual ,伪表,要查询的数据不存在任何表中时使用 select sysdate f ...
 - BZOJ:2243: [SDOI2011]染色
			
题解: 树剖,线段树维护区间颜色段数 记录两端点的颜色,做到O(1)合并 问题: 非递归建树实现 #include<iostream> #include<cstdio> #in ...
 - 一文说透 Spring 循环依赖问题
			
https://zhuanlan.zhihu.com/p/62382615 循环依赖发生的时机 Bean 实例化主要分为三步,如图: 问题出现在:第一步和第二步的过程中,也就是填充属性 / 方法的过程 ...
 - UVA - 10934 Dropping water balloons(装满水的气球)(dp)
			
题意:有k个气球,n层楼,求出至少需要多少次实验能确定气球的硬度.气球不会被实验所“磨损”. 分析: 1.dp[i][j]表示第i个气球,测试j次所能确定的最高楼层. 2.假设第i-1个气球测试j-1 ...
 - sendmail 的安装、配置与发送邮件的具体实现
			
Ubuntu 中sendmail 的安装.配置与发送邮件的具体实现 centos安装sendmail与使用详解 CentOS下搭建Sendmail邮件服务器 使用外部SMTP发送邮件 使用mailx ...
 - Fedora、SuSE、Redhat、Ubuntu、Centos
			
想学Linux,但版本太多了,如Fedora.SuSE.Redhat.Ubuntu等,不免让人眼花缭乱,那么初学者该如何选择呢?也许很多人会不屑的说,Linux不就是个操作系统么.错!Linux不是一 ...