Python带你轻松进行网页爬虫

前不久DotNet开源大本营通过为.NET程序员演示如何在.NET下使用C#+HtmlAgilityPack+XPath进行网页数据的抓取，从而为我们展示了HtmlAgilitypack利器的优点和使用技巧，不熟悉的朋友可以去他的园子里看看这篇文章，真的很不错！我本身也是一名.NET程序员，只是个人兴趣和一些实际需求，所以就打算自学Python。在还没有学它的时候就听说用它来进行网页爬虫和自然语言处理非常方便，所以也就尝试了，结果让我真的很满意！这篇博文就当是对我这一阶段的学习总结吧！
1.准备工作：
工欲善其事必先利其器，因此我们有必要在进行Coding前先配置一个适合我们自己的开发环境，我搭建的开发环境是：
操作系统：Ubuntu 14.04 LTS
Python版本：2.7.6
代码编辑器：Sublime Text 3.0

这次的网络爬虫需求背景我打算延续DotNet开源大本营在他的那篇文章中的需求，这里就不再详解。我们只抓取某一省中所有主要城市从2015-11-22到2015-10-24的白天到夜间的所有天气情况。这里以湖北省为例。
2.实战网页爬虫：
2.1.获取城市列表：
首先，我们需要获取到湖北省所有城市的网页，然后进行网页解析。网络地址为：http://www.tianqihoubao.com/weather/province.aspx?id=420000
我们查看该网页的源码可以发现所有的城市列表都是以<td style="height: 22px" align="center"><a href="城市天气链接+城市名称">，因此，我们可以封装一个函数来通过使用正则表达式获取我们想要的数据，示例代码如下所示：

def  ShowCity():

    html=requests.get("http://www.tianqihoubao.com/weather/province.aspx?id=420000")

    citys= re.findall('<td style="height: 22px" align="center"><a href="(.*?)">', html.text,re.S)

    for city in citys:

        print city

抓取的结果如下所示：

 top/anlu.html" title="安陆历史天气查询

 top/badong.html" title="巴东历史天气查询

 top/baokang.html" title="保康历史天气查询

 top/caidian.html" title="蔡甸历史天气查询

 top/changyang.html" title="长阳历史天气查询

 top/chibi.html" title="赤壁历史天气查询

 top/chongyang.html" title="崇阳历史天气查询

 top/dawu.html" title="大悟历史天气查询

 top/daye.html" title="大冶历史天气查询

 top/danjiangkou.html" title="丹江口历史天气查询

 top/dangyang.html" title="当阳历史天气查询

 top/ezhou.html" title="鄂州历史天气查询

 top/enshi.html" title="恩施历史天气查询

 top/fangxian.html" title="房县历史天气查询

 top/gongan.html" title="公安历史天气查询

 top/gucheng.html" title="谷城历史天气查询

 top/guangshui.html" title="广水历史天气查询

 top/hanchuan.html" title="汉川历史天气查询

 top/hanyang.html" title="汉阳历史天气查询

 top/hefeng.html" title="鹤峰历史天气查询

 top/hongan.html" title="红安历史天气查询

 top/honghu.html" title="洪湖历史天气查询

 top/huangpi.html" title="黄陂历史天气查询

 top/huanggang.html" title="黄冈历史天气查询

 top/huangmei.html" title="黄梅历史天气查询

 top/huangshi.html" title="黄石历史天气查询

 top/jiayu.html" title="嘉鱼历史天气查询

 top/jianli.html" title="监利历史天气查询

 top/jianshi.html" title="建始历史天气查询

 top/jiangxia.html" title="江夏历史天气查询

 top/jingshan.html" title="京山历史天气查询

 top/jingmen.html" title="荆门历史天气查询

 top/jingzhou.html" title="荆州历史天气查询

 top/laifeng.html" title="来凤历史天气查询

 top/laohekou.html" title="老河口历史天气查询

 top/lichuan.html" title="利川历史天气查询

 top/lvtian.html" title="罗田历史天气查询

 top/macheng.html" title="麻城历史天气查询

 top/nanzhang.html" title="南漳历史天气查询

 top/qichun.html" title="蕲春历史天气查询

 top/qianjiang.html" title="潜江历史天气查询

 top/sanxia.html" title="三峡历史天气查询

 top/shennongjia.html" title="神农架历史天气查询

 top/shiyan.html" title="十堰历史天气查询

 top/shishou.html" title="石首历史天气查询

 top/songzi.html" title="松滋历史天气查询

 top/suizhou.html" title="随州历史天气查询

 top/tianmen.html" title="天门历史天气查询

 top/hbtongcheng.html" title="通城历史天气查询

 top/tongshan.html" title="通山历史天气查询

 top/wufeng.html" title="五峰历史天气查询

 top/wuchang.html" title="武昌历史天气查询

 top/wuhan.html" title="武汉历史天气查询

 top/wuxue.html" title="武穴历史天气查询

 top/hbxishui.html" title="浠水历史天气查询

 top/xiantao.html" title="仙桃历史天气查询

 top/xianfeng.html" title="咸丰历史天气查询

 top/xianning.html" title="咸宁历史天气查询

 top/xiangyang.html" title="襄阳历史天气查询

 top/xiaogan.html" title="孝感历史天气查询

 top/hbxinzhou.html" title="新洲历史天气查询

 top/xingshan.html" title="兴山历史天气查询

 top/xuanen.html" title="宣恩历史天气查询

 top/hbyangxin.html" title="阳新历史天气查询

 top/yiling.html" title="夷陵历史天气查询

 top/yichang.html" title="宜昌历史天气查询

 top/yicheng.html" title="宜城历史天气查询

 top/yidu.html" title="宜都历史天气查询

 top/yingcheng.html" title="应城历史天气查询

 top/hbyingshan.html" title="英山历史天气查询

 top/yuanan.html" title="远安历史天气查询

 top/yunmeng.html" title="云梦历史天气查询

 top/yunxi.html" title="郧西历史天气查询

 top/hbyunxian.html" title="郧县历史天气查询

 top/zaoyang.html" title="枣阳历史天气查询

 top/zhijiang.html" title="枝江历史天气查询

 top/zhongxiang.html" title="钟祥历史天气查询

 top/zhushan.html" title="竹山历史天气查询

 top/zhuxi.html" title="竹溪历史天气查询

 top/zigui.html" title="秭归历史天气查询

 [Finished in 15.4s]

2.2.获取对应城市的所有天气信息：
然后我们需要根据抓取到的城市链接去抓取对应城市的天气情况，这里我们再封装一个函数用于显示对应城市的所有天气状况：

def ShowWeather(city):

    res =str(city).split('" title="')

    print res[1],'(白天-->夜间)'

    html=requests.get("http://www.tianqihoubao.com/weather/{0}".format(res[0]))

    weather=re.search('<table width="100%" border="0" class="b" cellpadding="1" cellspacing="1">(.*?)</table>', html.text,re.S).group(1)

    res=re.findall('<tr>(.*?)</tr>', weather,re.S)

    for x in res[2:]:

        w = re.findall('>(.*?)<', x,re.S)

        for y in w[1:]:

            if len(y.strip())<=0:

                pass

             else:

                 print y

        print '--'*40

这样以来，我们就可以获取到了对应城市的天气情况了！！

完整代码：

 #coding:UTF-8

 import re

 import requests

 import sys

 reload(sys)

 sys.setdefaultencoding('UTF-8')

 def ShowWeather(city):

     res =str(city).split('" title="')

     print res[1],'(白天-->夜间)'

     html=requests.get("http://www.tianqihoubao.com/weather/{0}".format(res[0]))

     weather=re.search('<table width="100%" border="0" class="b" cellpadding="1" cellspacing="1">(.*?)</table>', html.text,re.S).group(1)

     res=re.findall('<tr>(.*?)</tr>', weather,re.S)

     for x in res[2:]:

         w = re.findall('>(.*?)<', x,re.S)

         for y in w[1:]:

             if len(y.strip())<=0:

                 pass

             else:

                 print y

         print '--'*40

     print  '\n','*'*40

 def  ShowCity():

     html=requests.get("http://www.tianqihoubao.com/weather/province.aspx?id=420000")

     citys= re.findall('<td style="height: 22px" align="center"><a href="(.*?)">', html.text,re.S)

     for city in citys:

         ShowWeather(city)

 def  main():

     ShowCity()

 if __name__=='__main__':

     main()

是的，你没有看错，短短34行代码就可以爬取湖北省所有的主要城市1个月的所有天气情况，是不是很厉害呀！！？？？不过不要高兴的太早，凡事有利有弊，看看它的运行结果吧：[Finished in 371.8s]
3.知识总结：　　
3.1.编码问题：

#在ubuntu上，由于编码问题，我们需要在代码的开始位置添加一行注释，告诉Pyhton解释器我们指定的编码格式：

#此外，我们还需要设置默认的编码格式，否则Sublime Text会无法识别中文，报告一个错误：“UnicodeEncodeError: 'ascii' codec can't encode characters in position”


#-*-coding:utf8-*-
import sys

reload(sys)

sys.setdefaultencoding('UTF-8')

3.2.正则表达式：
导入正则表达式库：import re
匹配任意字符：.
匹配前一个字符0次或无限次:*
匹配前一个字符0次或一次：？
贪心算法：.*
非贪心算法：.*?
匹配数字：(\d+)
常用函数：

re.findall(pattern, string)

re.search(pattern, string)

re.sub(pattern, repl, string)

最后的最后，如果你尝试过运行我贴出来的完整代码，或许你会遇到和我一样的瓶颈，就是运行的速度不够快（尤其像我这种机器配置不是很好的电脑）。在我的机器上运行这段脚本总共花费了 371.8s。我运行过多次，每次都是在350+。因此，如果你的程序不在乎运行速度，那么可能Python还是挺适合的，毕竟可以通过它写更少的代码去做更多的事情！！！！

Python带你轻松进行网页爬虫的更多相关文章

Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...
【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
本文转载自:https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9 ...
Python 3实现网页爬虫
1 什么是网页爬虫网络爬虫( 网页蜘蛛,网络机器人,网页追逐者,自动索引,模拟程序)是一种按照一定的规则自动地抓取互联网信息的程序或者脚本,从互联网上抓取对于我们有价值的信息.Tips:自动提取网页 ...
Python网页爬虫（一）
很多时候我们想要获得网站的数据,但是网站并没有提供相应的API调用,这时候应该怎么办呢?还有的时候我们需要模拟人的一些行为,例如点击网页上的按钮等,又有什么好的解决方法吗?这些正是python和网页爬 ...
python 网页爬虫+保存图片+多线程+网络代理
今天,又算是浪费了一天了.python爬虫,之前写过简单的版本,那个时候还不懂原理,现在算是收尾吧. 以前对网页爬虫不了解,感觉非常神奇,但是解开这面面纱,似乎里面的原理并不是很难掌握.首先,明白一个 ...
Python编写网页爬虫爬取oj上的代码信息
OJ升级,代码可能会丢失. 所以要事先备份. 一開始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启示和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 p ...
Python十分适合用来开发网页爬虫
Python十分适合用来开发网页爬虫,理由如下:1.抓取网页自身的接口比较与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简练:比较其他动态脚本语言,如perl,shel ...
多线程网页爬虫 python 实现
采用了多线程和锁机制,实现了广度优先算法的网页爬虫. 对于一个网络爬虫,如果要按广度遍历的方式下载,它就是这样干活的: 1.从给定的入口网址把第一个网页下载下来 2.从 ...
python实现的一个简单的网页爬虫
学习了下python,看了一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html 自己实现了一个简单的网页爬虫,获取豆瓣的最新电影信息. 爬虫主要是获 ...

随机推荐

Ngui分辨率适配
必备知识点 1.分辨率适配必然是Orthographic Camera 2.Camera下对应的“Size”(图1)属性大小的理解:当前摄像机高度 = Size * 2 * UnityUnit(Uni ...
冲刺博客NO.9
今天做了什么: 看书,看视频学UI设计,尝试设计并美化,然并没有美感,感觉自己设计的界面太丑. 主体进度差不多完成了,美化.
TortoiseSVN与TortoiseGit
TortoiseSVN与TortoiseGit 功能:版本控制+备份处理差异:SVN二段式,没有中间存储点,直接提交后到达了远程存储点:要想对本地的修改进行记录,必须要与SVN服务器进行通讯,无法只 ...
samba服务配置（二）
需求: 某公司销售部门提出一个文件共享需求,要求部门共享目录有三个,第一个共享目录所有销售部门人员都具有可读可写权限: 第二个共享目录所有销售人员只读权限,经理级别的销售人员具有可读可写权限:第三个共 ...
Apollo配置管理系统使用
python基础的几个小练习题
题目: 1.写一个程序,判断2008年是否是闰年. 2.写一个程序,用于计算2008年10月1日是这一年的第几天?(2008年1月1日是这一年的第一天) 3.(文件题)有一个“record.txt”的 ...
Spring Boot - Profile配置
Profile是什么 Profile我也找不出合适的中文来定义,简单来说,Profile就是Spring Boot可以对不同环境或者指令来读取不同的配置文件. Profile使用假如有开发.测试.生 ...
Liferay7 BPM门户开发之11: Activiti工作流程开发的一些统一规则和实现原理（完整版）
注意:以下规则是我为了规范流程的处理过程,不是Activiti公司的官方规定. 1.流程启动需要设置启动者,在Demo程序中,“启动者变量”名统一设置为initUserId 启动时要做的: ident ...
不要再说我简历上Java项目都好low！【offer收割机必备】
获取精品学习资料私信欢迎加入QQ群架构华山论剑:836442475(大牛聚集地)一起交流学习探讨! 目录高级工程师必备:系统设计能力如何让你的项目更有技术含量这篇文章我们继续来聊一聊,在系统设 ...
vue 父子组件之间传参
父组件中有子组件 msg 为父组件向子组件传的内容, 子组件向父组件传参数子组件:this.$emit("shownumber",[this.num]);//this.$emi ...

Python带你轻松进行网页爬虫

Python带你轻松进行网页爬虫的更多相关文章

随机推荐

热门专题