【python】一个简单的贪婪爬虫

这个爬虫的作用是，对于一个给定的url，查找页面里面所有的url连接并依次贪婪爬取

主要需要注意的地方：

1.lxml.html.iterlinks() 可以实现对页面所有url的查找

2.获取页面要设置超时，否则遇到没有响应的页面，代码容易卡死

3.对所有异常的捕获

4.广度优先搜索实现

具体代码如下：

#!/usr/bin/env python

#encoding:utf8

#这是一个爬虫代码，从初始url页面中查找所有的url并根据广度优先的顺序依次贪婪爬取

#爬取的页面以1.html,2.html...的方式命名
#author：匡子语

import re

import time

import lxml.html

import urllib2

from collections import deque

class ScrawURL:

    def __init__(self):

        self.total = 50000   #要获取的页面数

        self.urls = ["http://www.cnblogs.com/"]  #初始url

        self.html_num = 13047   #当前存储的是第几个页面

        self.url_num = 0   #当前要爬取的url在urls中的位置

    def getHtml(self, url):

        print "url:%s" % url

        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

        headers = { 'User-Agent' : user_agent }

        try:

            request = urllib2.Request(url, headers = headers)

            response = urllib2.urlopen(request, timeout=5)   #要设置timeout,有时页面长时间无法响应不加timeout会导致程序卡死

            content = response.read()

            self.html_num += 1

            name = "htmls/%d.html" % self.html_num

            with open(name, "w") as f:

                f.write(content)

            print self.html_num

            return content

        except urllib2.HTTPError, e:

            return ''

        except urllib2.URLError, e:

            return ''

        except Exception, ex:   #对于所有异常形式，都返回空内容

            return ''

    def getUrl(self, content):

        try:

            print "getUrl"

            html = lxml.html.fromstring(content)

            links = lxml.html.iterlinks(html)   #这个函数可以自动获取页面中的所有url，非常好用

            urls = []

            for link in links:

                if "http" in link[2]:

                    urls.append(link[2])

            return urls

        except Exception, ex:

            return []

    def scrawl(self):   #广度优先爬取

        print "scrawl"

        while len(self.urls) < self.total and len(self.urls) > self.url_num:   #获取足够的url

            url = self.urls[self.url_num]

            self.url_num += 1

            content = self.getHtml(url)

            if content:

                urls = self.getUrl(content)

                if urls:

                    for url in urls:

                        if url not in self.urls:   #对于已经爬取过的url跳过

                            self.urls.append(url)

        while self.html_num < self.total and len(self.urls) > 0:   #获取足够的页面

            url = self.urls[self.url_num]

            self.url_num += 1

            self.getHtml(url)

if __name__ == "__main__":

    surl = ScrawURL()

    surl.scrawl()

【python】一个简单的贪婪爬虫的更多相关文章

python实现的一个简单的网页爬虫
学习了下python,看了一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html 自己实现了一个简单的网页爬虫,获取豆瓣的最新电影信息. 爬虫主要是获 ...
做一个简单的scrapy爬虫
前言: 做一个简单的scrapy爬虫,带大家认识一下创建scrapy的大致流程.我们就抓取扇贝上的单词书,python的高频词汇. 步骤: 一,新建一个工程scrapy_shanbay 二,在工程中中 ...
Java实现一个简单的网络爬虫
Java实现一个简单的网络爬虫 import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileWri ...
一个简单的C#爬虫程序
这篇这篇文章主要是展示了一个C#语言如何抓取网站中的图片.实现原理就是基于http请求.C#给我们提供了HttpWebRequest和WebClient两个对象,方便发送请求获取数据,下面看如何实 1 ...
python -----一个简单的小程序（监控电脑内存，cpu，硬盘）
一个简单的小程序用函数实现!~~ 实现: cpu 使用率大于百分之50 时 , C 盘容量不足5 G 时, 内存低于2G 时. 出现以上其中一种情况,发送自动报警邮件! 主要运用到了两个模 ...
Python—一个简单搜索引擎索引库
因为课业要求,搭建一个简单的搜索引擎,找了一些相关资料并进行了部分优化(坑有点多) 一.数据数据是网络上爬取的旅游相关的攻略页面这个是travels表,在索引中主要用到id和url两个字段. 页面 ...
python一个简单的爬虫测试
之前稍微学了一点python,后来一直都没用,今天稍微做一个小爬虫试一试.. 参考了: http://www.cnblogs.com/fnng/p/3576154.html 太久没用了,都忘记pych ...
利用python写一个简单的小爬虫爬虫日记（1）（好好学习）
打开py的IDLE >>>import urllib.request >>>a=urllib.request.urlopen("http://www.ba ...
一个简单的scrapy爬虫抓取豆瓣刘亦菲的图片地址
一.第一步是创建一个scrapy项目 sh-3.2# scrapy startproject liuyifeiImage sh-3.2# chmod -R 777 liuyifeiImage/ 二.分 ...

随机推荐

hive 使用笔记（partition; HDFS乱码）
6. insert 语句 1) 因为目标表有partition, 所以刚开始我使用的语句是 insert overwrite table sa_r_item_sales_day_week_month ...
Bsoj 1322 第K小数
第K小数 Description 现在已有N个整数,你有以下三种操作: 1 A:表示加入一个值为A的整数: 2 B:表示删除其中值为B的整数: 3 K:表示输出这些整数中第K小的数: Input 第一 ...
IM通信协议逆向分析、Wireshark自定义数据包格式解析插件编程学习
相关学习资料 http://hi.baidu.com/hucyuansheng/item/bf2bfddefd1ee70ad68ed04d http://en.wikipedia.org/wiki/I ...
ubuntu安装spark on yarn
安装spark 安装hadoop 安装ssh,调试免密钥登录配置hadoop 配置yarn 测试
String类的常用方法
package stringUse; public class StringUse { public static void main(String[] args) { //获取 //indexOf, ...
微型 ORM-FluentData 温故知新系列
http://www.cnblogs.com/_popc/archive/2012/12/26/2834726.html 引言:FluentData 是微型 ORM(micro-ORM)家族的一名新成 ...
Android Studio集成SVN报错：can't use subversion command line client : svn
Android Studio集成SVN插件,check out出代码后,每次开启都会在右上角出现如下错误: Can't use Subversion command line client: svn ...
smarty 操作符号，大于、小于。。。
eq相等,6 w% x7 w6 |3 _ne.neq不相等,( i" }" ~( `# V( t& C, k; [gt大于,lt小于,gte.ge大于等于,lte.le 小 ...
Linux建立软连接
实例:ln -s /home/gamestat /gamestat linux下的软链接类似于windows下的快捷方式 ln -s a b 中的 a 就是源文件,b是链接文件名,其作用是当进入 ...
XSS 探索
1. 什么是XSS攻击? 正常的页面被渗出了攻击者的js脚本,这些脚本可以非法地获取用户信息,然后将信息发送到attacked的服务端. XSS是需要充分利用输出环境来构造攻击脚本的 2. 危害非法 ...

【python】一个简单的贪婪爬虫

【python】一个简单的贪婪爬虫的更多相关文章

随机推荐

热门专题