python 网络爬虫（二） BFS不断抓URL并放到文件中

上一篇的python 网络爬虫（一）简单demo 还不能叫爬虫，只能说基础吧，因为它没有自动化抓链接的功能。

本篇追加如下功能：

【1】广度优先搜索不断抓URL，直到队列为空

【2】把所有的URL写入文件中

【3】对于不可访问或错误访问的URL，有try except 处理

spider.py

# -*- coding: cp936 -*-

import urllib,Queue,sgmllib,re,os

class URLList(sgmllib.SGMLParser):

    def reset(self):

        sgmllib.SGMLParser.reset(self)

        #maxsize < 1 表示无穷队列

        self.URLqueue = Queue.Queue(maxsize = -1)

    def start_a(self,attrs):

        href = [v for k,v in attrs if k == 'href']

        if href:

            for u in href:

                #判断URL是不是正确的，href都必须有"http://"

                pat = re.compile(r'http://(.+?)')

                #False,0,'',[],{},()都可以视为假，也可以用len()==0判断列表为空

                if len(re.findall(pat,u)) == 0:

                    continue

                self.URLqueue.put(u)

def getURLList(url,parser):

    try:

        URLdata = urllib.urlopen(url)

        parser.feed(URLdata.read())

        URLdata.close()

    except:

        return 

startURL = "http://www.baidu.com"

parser = URLList()

getURLList(startURL,parser)

outfile = startURL[7:len(startURL)]+".txt"

out = open(outfile,'w+')

try:

    #BFS

    while parser.URLqueue.empty() == False:

        url = parser.URLqueue.get()

        print url

        out.writelines(url+'\n')

        getURLList(url,parser)

finally:

    parser.close()

    out.close()

python 网络爬虫（二） BFS不断抓URL并放到文件中的更多相关文章

Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接，并下载这些URL链接的源代码
通过正则表达式来获取一个网页中的所有的 URL链接,并下载这些 URL链接的源代码使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 ...
【Python网络爬虫二】使用urllib2抓去网页内容
在Python中通过导入urllib2组件,来完成网页的抓取工作.在python3.x中被改为urllib.request. 爬取具体的过程类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求 ...
Python网络爬虫(二)
Urllib库之解析链接 Urllib库里有一个parse这个模块,定义了处理URL的标准接口,实现 URL 各部分的抽取,合并以及链接转换.它支持如下协议的 URL 处理:file.ftp.goph ...
[Python]网络爬虫（一）：抓取网页的含义和URL基本构成
一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一个 ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化
前几天给大家分享了如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,感兴趣的小伙伴可以点击链接进行查看.今天小编给大家介绍如何利用Python网络爬虫抓取微信好友的省位和城市,并且将 ...
如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例
前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态(上)和利用Python网络爬虫爬取微信朋友圈动态——附代码(下),并且对抓取到的数据进行了Python词云和wordart可视化,感兴趣 ...
python网络爬虫之自动化测试工具selenium[二]
目录前言一.获取今日头条的评论信息(request请求获取json) 1.分析数据 2.获取数据二.获取今日头条的评论信息(selenium请求获取) 1.分析数据 2.获取数据房源案例(仅供 ...
python 网络爬虫（二）
一.编写第一个网络爬虫为了抓取网站,我们需要下载含有感兴趣的网页,该过程一般被称为爬取(crawling).爬取一个网站有多种方法,而选择哪种方法更加合适,则取决于目标网站的结构. 首先探讨如何安全 ...

随机推荐

ZOJ 2968 Difference Game 【贪心 + 二分】
题意: 有Ga.Gb两堆数字,初始时两堆数量相同.从一一堆中移一一个数字到另一一堆的花费定义为两堆之间数量差的绝对值,初始时共有钱C.求移动后Ga的最小小值减Gb的最大大值可能的最大大值. 思路: ...
POJ 2208 Pyramids 欧拉四面体
给出边长,直接就可以求出体积咯关于欧拉四面体公式的推导及证明过程 2010-08-16 14:18 1,建议x,y,z直角坐标系.设A.B.C少拿点的坐标分别为(a1,b1,c1),(a2,b2,c ...
springmvc+mybatis+redis（转）
最近在学习redis的使用方法,它的本地使用方法比较简单,只需要先启动Redis服务器,然后运行测试代码即可.但是现在我想要在网站上访问数据库的时候采用Redis缓存,问题就出来了.要么是缓存直接失效 ...
华为s5700 添加与删除vlan
新建vlan 删除vlan ① 检查该VLAN下是否存在成员接口,使用如下命令:display vlan all② 如存在成员接口,则进入该接口视图,删除该成员,否则可略过此步骤,例如:interfa ...
Jsp的include指令静态导入和动态导入的区别
1.什么是静态导入? 静态导入指的是,将一个外部文件嵌入到当前JSP文件中,同时解析这个页面的JSP语句,它会把目标页面的其他编译指令也包含进来. include的静态导入指令使用语法: <%@ ...
演练5-7：Contoso大学校园管理系统（实现继承）
***操作视频下载:1 *** 在上一次教程中,你已经能够处理并发异常.这个教程将会展示如何在数据模型中实现继承. 在面向对象的程序设计中,你可以通过继承来清除冗余的代码.在这个教程中,你将要 ...
基于visual Studio2013解决C语言竞赛题之0810链表去重
题目
简单的方式实现javascript 小数取整
JS: function truncateNumber(n){ return n|0; } 測试: console.log(truncateNumber(12.345)); 浏览器打印出12
linux c setitimer使用方法说明
在linux c编程中.setitimer是一个比較经常使用的函数.可用来实现延时和定时的功能,网上有各种零零散散的使用方法说明,都仅仅提到了个别使用方法,今天抽出时间实践整理了一份比較具体的: 使用 ...
javascript每日一练（二）——javascript（函数，数组）
一.函数什么是函数 function show(){}//不带参数 function show(){return 123;}//不带参数,有返回值 function show(arg1, arg2, ...

python 网络爬虫（二） BFS不断抓URL并放到文件中

python 网络爬虫（二） BFS不断抓URL并放到文件中的更多相关文章

随机推荐

热门专题