Python处理Excel文件

因为工作需求，需要审核一部分query内容是否有效，query储存在Excel中，文本内容为页面的Title，而页面的URL以HyperLink的格式关联到每个Cell。

于是本能的想到用Python读取Excel文件之后进行文本分析，之后对每个链接进行一次HttpRequest，通过分析HttpResponse的内容来判断当前链接是否有效。

于是上网搜了下，发现比较主流的是用xlrd的插件，但是实际使用过程中发现，无论如何，最终获取的hyperlink_map值一直都是None，也没空去分析到底是为什么。最后经过搜索发现一个叫xlwings的Python库，可以有效使用。

具体的代码如下：

# -*- coding=utf-8 -*-

import xlwings as xw

import urllib

import sys

type = sys.getfilesystemencoding()  

def get_html(url):

    page = urllib.urlopen(url)

    html = page.read()

    return unzip(html)


## Debug的时候发现无论怎样做Decode，最后的结果都是乱码
## 后来发现是因为对应的网页做了压缩处理，所以需要对获取的网页内容手动解压缩

def unzip(data):

    import gzip

    import StringIO

    data = StringIO.StringIO(data)

    gz = gzip.GzipFile(fileobj=data)

    data = gz.read()

    gz.close()

    return data

wb = xw.Book(r"C:\Users\hasee\Desktop\Test.xlsx")

main_data = wb.sheets["Sheet2"]
## 通过获取Last Cell来确定当前Sheet的有效行数与列数

rownum = main_data.range('A1').current_region.last_cell.row

colnum = main_data.range('A1').current_region.last_cell.column


## 定位column对应的列

col_dict = {"":"B","":"C","":"D","":"E","":"F"}

for row in range(1, rownum + 1):

    for col in range(2, colnum + 1):

        query = main_data.range(row, 1).value

        cell =  main_data.range(row, col)

        link = cell.hyperlink

        html = get_html(link)

        if "error-container" in html:

            print "%s,%s,%s,%s" % (query, col_dict.get(str(col))+str(row), cell.value, cell.hyperlink)
            ## 对无效的链接所属的Cell染色，直接写入文件

            cell.color = (253,218,4)

Python处理Excel文件的更多相关文章

[转]用Python读写Excel文件
[转]用Python读写Excel文件转自:http://www.gocalf.com/blog/python-read-write-excel.html#xlrd-xlwt 虽然天天跟数据打交 ...
python读写Excel文件的函数--使用xlrd/xlwt
python中读取Excel的模块或者说工具有很多,如以下几种: Packages 文档下载说明 openpyxl Download | Documentation | Bitbucket The ...
python之路-随笔 python处理excel文件
小罗问我怎么从excel中读取数据,然后我百了一番,做下记录以下代码来源于:http://www.cnblogs.com/lhj588/archive/2012/01/06/2314181.html ...
记录：python读取excel文件
由于最近老是用到python读取excel文件,所以特意记录一下python读取excel文件的大体框架. 库:xlrd(读),直接pip安装即可.想要写excel文件的话,安装xlwd库即可,也是直 ...
Python解析excel文件并存入sqlite数据库
最近由于工作上的需求需要使用Python解析excel文件并存入sqlite 就此做个总结功能:1.数据库设计建立数据库2.Python解析excel文件3.Python读取文件名并解析4.将解 ...
使用Python处理Excel文件的一些代码示例
笔记:使用Python处理Excel文件的一些代码示例,以下代码来自于<Python数据分析基础>一书,有删改 #!/usr/bin/env python3 # 导入读取Excel文件的库 ...
Python读写Excel文件和正则表达式
Python 读写Excel文件这里使用的是 xlwt 和 xlrd 这两个excel读写库. #_*_ coding:utf-8 _*_ #__author__='观海云不远' #__date__ ...
python处理Excel文件的几个模块
在python中简单地处理excel文件,有几个相关的模块,各有千秋,本文将不定时收录. Python Excel网站收集了关于python处理excel文件的各种信息. [注意]使用python处理 ...
用python处理excel文件有多轻松？工作从未如此简单
最近需要频繁读写 excel 文件,想通过程序对 excel 文件进行自动化处理,发现使用 python 的 openpyxl 库进行 excel 文件读写实在太方便了,结构清晰,操作简单.本文对 o ...

随机推荐

用 Python 编写网络爬虫笔记
Chapter I 简介为什么要写爬虫? 每个网站都应该提供 API,然而这是不可能的即使提供了 API,往往也会限速,不如自己找接口注意已知条件(robots.txt 和 sitemap.xm ...
TFS下载文件已损坏问题
近日在把一个数千人使用的TFS环境进行机房迁移时,从现有的服务器集群中整体迁移到另外一个服务器集群中,经过周密的设计迁移方案,充分验证方案中的各个关键过程,最终在几乎对数千人用户完全透明,没有任何感知 ...
ES6之"let"能替代"var"吗?
译者按: 使用let的确会比var安全很多. 原文: Why You Shouldn't Use 'var' Anymore 译者: Fundebug 为了保证可读性,本文采用意译而非直译. 我已经使 ...
Hadoop集群
你可以用以下三种支持的模式中的一种启动Hadoop集群: 单机模式伪分布式模式完全分布式模式单机模式的操作方法默认情况下,Hadoop被配置成以非分布式模式运行的一个独立Java进程.这对调试 ...
最准确的单点登录SSO图示和讲解（有代码范例）|手把手教做单点登录（SSO）系列之二
写第一篇博客<手把手教做单点登录(SSO)系列之一:概述与示例>,就获得了园子里朋友们热情的评论和推荐,感谢各位. 我那篇文章同时发了CSDN和博客园.对比一下,更感受到博客园童鞋们的技术 ...
产品经理学Python：条件控制
条件控制其实就是if...else...(如果...条件是成立的,就做...:反之,就做...)的使用,其基本结构是: 具体看下面这个例子: def account_login(): # 定义函数 p ...
ECMAScript迭代语句
迭代语句又叫循环语句,声明一组要反复执行的命令,直到满足某些条件为止. 循环通常用于迭代数组的值(因此而得名),或者执行重复的算术任务. do-while, while, for, for-in -- ...
kotlin 语言入门指南(二)--代码风格
语言风格这里整理了 kotlin 惯用的代码风格,如果你有喜爱的代码风格,可以在 github 上给 kotlin 提 pull request . 创建DTOs(POJSs/POCOs) 文件: ...
js事件中的event对象
addEvent(oDiv,"click",function(event){ console.log(event.bubbles+"事件是否冒泡"); cons ...
使用DFA算法对敏感词进行过滤
项目目录结构如下: 其中resources资源目录中: stopwd.txt :停顿词,匹配时间直接过滤. wd.txt:敏感词库. 1.WordFilter敏感词过滤类: package com.s ...

Python处理Excel文件

Python处理Excel文件的更多相关文章

随机推荐

热门专题