Scraping_regex

上面链接爬虫只是能将我们所需的网页下载下来，但是，我们没办法得到我们想要的数据。因此，我们只有URL管理器和URL下载器是不足以组成一个完整的网络爬虫的。我们还需要URL解析器，对数据进行提取。

数据抓取（Scraping）有三种方式：1.正则表达式；2.第三方包——BeautifulSoup；3.lxml模块

1.正则表达式（regex）方法。

'''

数据抓取：从网页中抓取一些感兴趣的数据，然后实现某些事情。主要有三种方法——正则；BeautifulSoup模块和lxml模块。

'''

# 正则表达式

# 帮助文档https://docs.python.org/2/howto/regex.html

import urllib2

import re

def download(url, user_agent= "wswp", num_retries= 2):

    print "Download :", url

    headers= {"User_agent": user_agent}

    request= urllib2.Request(url, headers=headers)

    try:

        html= urllib2.urlopen(request).read()

    except urllib2.URLError as e:

        print "Download Error :", e.reason

        html= None

        if num_retries> 0:

            if hasattr(e,"code") and 500<= e.code< 600:

                return download(url, user_agent, num_retries-1)

    return html

if __name__ == "__main__":

    url = "http://example.webscraping.com/view/United-Kingdom-239"

    html = download(url)

    kingdom = re.findall('<td class="w2p_fw">(.*?)</td>',html)

    # print kingdom

    # 只提取面积属性

    kingdom_square_1 = re.findall('<td class="w2p_fw">(.*?)</td>', html)[1]

    print kingdom_square_1

# 上面例子只能抓取固定不变的网页中的面积，但是，如果网页发生改变，第二行不再是面积时，就不能抓取到了。所以，下面做一些改进。

'''

<tr id="places_area__row"><td class="w2p_fl"><label for="places_area" id="places_area__label">Area: </label></td><td class="w2p_fw">244,820 square kilometres</td><td class="w2p_fc"></td></tr>

'''

# 将其父元素<tr>加入进来，由于该元素有ID属性，所以，应该是唯一的。

kingdom_square_2 = re.findall('<tr id="places_area__row"><td class="w2p_fl"><label for="places_area" id="places_area__label">Area: </label></td><td class="w2p_fw">(.*?)</td><td class="w2p_fc"></td></tr>', html)

print kingdom_square_2

# 上一个版本虽然比上一个的要精准一些，但是也会遇到一些问题，比如：双引号变为单引号，<td>标签之间添加多余的空格，或者变更area_label等

kingdom_square_3 = re.findall('<tr id="places_area__row">.*?<td\s*class=["\']w2p_fw["\']>(.*?)</td>', html)

print kingdom_square_3

# 总结：正则表达式比较便捷，但是这种方式太过脆弱，只能抓取静态的网页，容易在网页更新后出现问题。

Scraping_regex的更多相关文章

随机推荐

计算机程序的思维逻辑 (75) - 并发容器 - 基于SkipList的Map和Set
上节我们介绍了ConcurrentHashMap,ConcurrentHashMap不能排序,容器类中可以排序的Map和Set是TreeMap和TreeSet,但它们不是线程安全的.Java并发包中与 ...
noip2008(最优贸易)
C 国有 n 个大城市和 m 条道路,每条道路连接这 n 个城市中的某两个城市.任意两个城市之间最多只有一条道路直接相连.这 m 条道路中有一部分为单向通行的道路,一部分为双向通行的道路,双向通行的道 ...
Beautils工具类实现的原理
关于内省机制和反射机制请看这一篇博客[还没写完,在草稿中]. 先说一下什么叫做 bean 属性,bean 属性指的是 get / set 方法后的名称,而不是类的属性: 比如: private Str ...
java学习笔记 --- StringBuffer类
1.定义:字符串缓冲区,即它是一个容器,容器中可以装很多字符.并且能够对其中的字符进行各种操作. StringBuffer的特点: 1.是一个字符串缓冲区,其实就是一个容器. 2.长度是可变,任意类型 ...
Linux中web服务运行情况的方法
监控一般通过脚本实现,使用定时任务定期执行检测. 1.端口本地:ss,netstat,lsof 远程:telnet,namp,nc 2.本地进程数例如: lsof -i:80|wc -l ps - ...
RabbitMQ集群搭建
准备三个节点,系统为CentOS7 Node IP rabbitmq01 172.50.0.64 rabbitmq02 172.50.0.65 rabbitmq03 172.50.0.66 这里把no ...
taobao-pamirs-proxycache开源缓存代理框架实现原理剖析
写在前面 taobao-pamirs-proxycache 是一款开源缓存代理框架, 它将缓存代码与业务代码解耦.让开发专注coding业务, 缓存通过xml配置即可实现.本文先从此工具如何使 ...
XJOI1680阿猫的实验
阿猫的实验阿猫很喜欢生物学.他还在今年的全国中学生生物学联赛中获得了一等奖.一天,阿猫在实验室听说了这样一种繁殖能力很强的老鼠.这种老鼠在出生后的第一个月,可以生出a 对老鼠:第二个月,可以生出b ...
使用EPPlus读写xlsx文件
朋友有个需求,想对N张excel表做过滤和合并的处理,拜托我写个小程序.因为用户的背景是非专业用户,因此最好的选择是写个GUI程序,再加上读写excel的需求,所以我的首选就是C#的WinForm了. ...
使用SevenZipSharp压缩/解压7z格式
7z格式采用的LZMA算法,号称具有现今最高压缩率.笔者在nuget上搜索7z,在搜索结果中最终选择了SevenZipSharp来进行压缩/解压.不得不说,SevenZipSharp的API设计得非常 ...

Scraping_regex

Scraping_regex的更多相关文章

随机推荐

热门专题