第二只Python爬虫

同样参照网上教程，同时把会的不多的html标签又复习了一下

同时安利一个网站，我唯一加入过的一个社团官网（web开发协会

www.nutjs.com

前任会长是属于大牛级的存在，目前网站已多次重构，花生太神辣。

好了，于是用这个网站做了下练习

import re

import urllib.request

import urllib

from collections import deque

queue = deque()

visited = set()

url = 'http://www.nutjs.com/'

# 初始抓取网站

queue.append(url)

cnt = 0 #抓取网页计数器

while queue:    #队列循环bfs抓取

    url = queue.popleft()

    visited |= {url}     #去重，防止重复抓取

    print('正在抓取:'+ url)

    cnt+=1

    urlop = urllib.request.urlopen(url)

    if 'html' not in urlop.getheader('Content-Type'): continue

    #过滤出合法所需的文本

    try:

        data = urlop.read().decode('utf-8')

    except:

        continue

    linkre = re.compile('href=\"(.+?)\"')

    for x in linkre.findall(data):

        # print(x)

        if 'http' in x and x not in visited:

            queue.append(x)

运行效果如下：

第二只Python爬虫的更多相关文章

第一只python爬虫
import urllib.request response = urllib.request.urlopen("http://www.baidu.com") html = res ...
Python爬虫第二天
Python爬虫第二天超时设置有时候访问网页时长时间未响应,系统就会判断网页超时,无法打开网页.如果需要自己设置超时时间则: 通过urlopen()打开 ...
路飞学城—Python爬虫实战密训班第二章
路飞学城—Python爬虫实战密训班第二章一.Selenium基础 Selenium是一个第三方模块,可以完全模拟用户在浏览器上操作(相当于在浏览器上点点点). 1.安装 - pip instal ...
【学习笔记】第二章 python安全编程基础---python爬虫基础（urllib）
一.爬虫基础 1.爬虫概念网络爬虫(又称为网页蜘蛛),是一种按照一定的规则,自动地抓取万维网信息的程序或脚本.用爬虫最大的好出是批量且自动化得获取和处理信息.对于宏观或微观的情况都可以多一个侧面去了 ...
python爬虫08 | 你的第二个爬虫，要过年了，爬取豆瓣最受欢迎的250部电影慢慢看
马上就要过年啦过年在家干啥咧准备好被七大姑八大姨轮番「轰炸」了没? 你的内心 os 是这样的但实际上你是这样的应付完之后闲暇时刻不妨看看电影接下来咱们就来爬取豆瓣上评分最高的 250部电影 ...
[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈
我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点: 1.可以了解Python简单爬取图片的一些思路和方法 ...
[python爬虫] Selenium定向爬取虎扑篮球海量精美图片
前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...
Python爬虫实战（4）：豆瓣小组话题数据采集—动态网页
1, 引言注释:上一篇<Python爬虫实战(3):安居客房产经纪人信息采集>,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功.本篇是针对动态网页的数据 ...
Python爬虫实战（3）：安居客房产经纪人信息采集
1, 引言 Python开源网络爬虫项目启动之初,我们就把网络爬虫分成两类:即时爬虫和收割式网络爬虫.为了使用各种应用场景,该项目的整个网络爬虫产品线包含了四类产品,如下图所示: 本实战是上图中的“独 ...

随机推荐

JBOSS整套开发组件整合和配置方法
http://blog.csdn.net/laigood/article/details/5743712主要是集成jboss,jboss esb,jboss portal,jboss seam,jbo ...
大规模分布式数据处理平台Hadoop的介绍一种可靠、高效、可伸缩的处理方案
http://www.nowamagic.net/librarys/veda/detail/1767 Hadoop是什么 Hadoop原来是Apache Lucene下的一个子项目,它最初是从Nutc ...
sql 数据类型论可变长度字符串与定长性能差异（my sql版）
首先从字节上来说CHAR是定长,意思就是只要输入在我这个定长以下,不管是几个字符,它的实际占用空间都是CHAR定长的长度.而VARCHAR则相对来说会节省一点空间,比如:你VARCHAR的长度设为10 ...
mongodb - Replication Set搭建过程
1.创建目录 mkdir -p /mongodb/data/r1 mkdir -p /mongodb/data/r2 mkdir -p /mongodb/data/r3 mkdir -p /mongo ...
atitit.it企业管理项目管理中的授权机制的来源君权神授的一定合理性
atitit.it企业管理项目管理中的授权机制的来源君权神授的一定合理性 1. 授权(权利来源)的5种模式 1 2. 企业的组织机构与管理运作来源于国家的管理...而国家的管理又来源于宗教 ...
Android收起虚拟键盘
关于收起虚拟键盘,网上能找到的大多是这个: InputMethodManager imm = (InputMethodManager) getSystemService(Context.INPUT_M ...
druid问题记录
1 {"error":"Instantiation of [simple type, class io.druid.indexing.kafka.supervisor.K ...
.htaccess中的apache rewrite规则写法详解
.htaccess中的apache rewrite写法: 1 RewriteEngine On 2 RewriteCond %{HTTP_HOST} ^(www\.)?xxx\.com$ 3 Rewr ...
django的html模板中获取字典的值
在django的html模板中获取字典中的值应当直接使用字典.[key] 的方式 {% for i in lists %} <li id="{{i.id}}" class ...
Oracle连接远程数据库的四种设置方法
Oracle数据库的远程连接可以通过多种方式来实现,本文我们主要介绍四种远程连接的方法和注意事项,并通过示例来说明,接下来我们就开始介绍第一种方法: 若oracle服务器装在本机上,那就不多说了,连 ...

第二只Python爬虫

第二只Python爬虫的更多相关文章

随机推荐

热门专题