1.4.3 ID遍历爬虫（每天一更）

# -*- coding: utf-8 -*-

'''

Created on 2019年5月7日

@author: 薛卫卫

'''

import itertools

import urllib.request

import re

def download(url, user_agent="wswp",num_retries=2):

    print("Downloading: " , url)

    headers = { 'User-agent': user_agent}

    request = urllib.request.Request(url, headers=headers)

    try:

        html = urllib.request.urlopen(request).read()

    except urllib.request.URLError as e:

        print('Download error:' , e.reason)

        html = None

        if num_retries > 0 :

            if hasattr(e, 'code') and 500 <= e.code < 600:

                return download(url, user_agent, num_retries-1)

    return html

for page in itertools.count(1):

    url = 'http://example.webscraping.com/view/-%d' % page

    html = download(url)

    if html is None:

        break

    else:

        # success - can scrape the result

        pass

#

# # maximum number of consecutive download errors allowed

# max_error = 5

# # current number of consecutive download errors

# nun_errors = 0

# for page in itertools.count(1):

#     url = 'http://example.webcraping.com/view/-%d' % page

#     html = download(url)

#     if html is None:

#         # received an error trying to download this webpage

#         num_errors +=1

#         if num_errors == max_errors:

#             # reached maxinum number of

#             # consecutive errors so exit

#             break

#         else:

#             # success - can scrape the result

#             # ...

#             num_errors = 0

1.4.3 ID遍历爬虫（每天一更）的更多相关文章

java xml文件中相同Id遍历
import java.io.File;import java.util.List;import org.dom4j.Document;import org.dom4j.DocumentExcepti ...
《用Python写爬虫》学习笔记（二）编写第一个网络爬虫
1.首先,下载网页使用Python的urllib2模块,或者Python HTTP模块request来实现 urllib2会出现问题,解决方法1.重试下载(设置下载次数) 2.设置用户代理 2.其次, ...
用Python写网络爬虫第二版
书籍介绍书名:用 Python 写网络爬虫(第2版) 内容简介:本书包括网络爬虫的定义以及如何爬取网站,如何使用几种库从网页中抽取数据,如何通过缓存结果避免重复下载的问题,如何通过并行下载来加速数据 ...
python 网络爬虫（三）
一.网站地图爬虫在一个简单的爬虫中,我们将使用实例网站 robots.txt 文件中发现的网站地图来下载所有网站,为了解析网站地图,我们将会使用一个简单的正则表达式,从<loc>标签中提 ...
用python写网路爬虫 PDF高清完整版免费下载 Python基础教程免费电子书 python入门书籍免费下载
<用python写网路爬虫PDF免费下载>PDF书籍下载内容简介作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用.使用Python这样的简单编程语言,你 ...
用 Python 编写网络爬虫笔记
Chapter I 简介为什么要写爬虫? 每个网站都应该提供 API,然而这是不可能的即使提供了 API,往往也会限速,不如自己找接口注意已知条件(robots.txt 和 sitemap.xm ...
自己动手实现爬虫scrapy框架思路汇总
这里先简要温习下爬虫实际操作: cd ~/Desktop/spider scrapy startproject lastspider # 创建爬虫工程 cd lastspider/ # 进入工程 sc ...
使用Python + Selenium打造浏览器爬虫
Selenium 是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起,它提供了一套简单易用的 API,模拟浏览器的各种操 ...
python高级—— 从趟过的坑中聊聊爬虫、反爬以及、反反爬，附送一套高级爬虫试题
前言: 时隔数月,我终于又更新博客了,然而,在这期间的粉丝数也就跟着我停更博客而涨停了,唉是的,我改了博客名,不知道为什么要改,就感觉现在这个名字看起来要洋气一点. 那么最近到底咋不更新博客了呢?说 ...

随机推荐

Ubuntu --- Xshell 连接 VirtualBox下安装的Ubuntu
1.桥接模式打开VirtualBox管理器---设置---网络---连接方式选择桥接网卡 2.安装ssh服务安装: sudo apt-get install openssh-server 启动: ...
Laravel --- 自动生成数据
1.创建填充文件:php artisan make:seeder UserTableSeeder 2.在run方法里面写填充数据的代码: use Illuminate\Database\Seeder; ...
Electron构建一个文件浏览器应用(二)
在前一篇文章我们已经学习到了使用Electron来构建我们的文件浏览器了基础东西了,我们之前已经完成了界面功能和显示文件或文件夹的功能了,想看之前文章,请点击这个链接 .现在我们需要在之前的基础上来 ...
初步接触 Java Net 网络编程
本文目的是大概了解 Java 网络编程体系,需要一点点 Java IO 基础,推荐教程系统学习 Java IO.主要参考 JavaDoc 和 Jakob Jenkov 的英文教程<Java N ...
HTML行内元素、块级元素、行内块级元素的特点与区别
元素 HTML 元素指的是从开始标签(start tag)到结束标签(end tag)的所有代码. 元素分类方式 HTML 可以将元素分类方式分为行内元素.块状元素和行内块状元素三种,这三者可以通过设 ...
java泛型的作用及其基本概念
一.泛型的基本概念 java与c#一样,都存在泛型的概念,及类型的参数化.java中的泛型是在jdk5.0后出现的,但是java中的泛型与C#中的泛型是有本质区别的,首先从集合类型上来说,java 中 ...
Android中控件属性详细总结（转载）
转载地址:https://www.cnblogs.com/nanguojs/p/5950510.html 1.LinearLayout(线性布局): 可以分为水平线性:android:orientat ...
Web自动化测试一
Web自动化测试一.为什么要进行web自动化测试接口测试只能测试后端返回的数据,定位的是后端开发工程师的问题.如果前段出现了问题,我们要使用web测试去发现错误. 具体定位的问题有: 显示的数据: ...
POJ 1741：Tree（树上点分治）
题目链接题意给一棵边带权树,问两点之间的距离小于等于K的点对有多少个. 思路 <分治算法在树的路径问题中的应用> 图片转载于http://www.cnblogs.com/Paul-Gu ...
HihoCoder 1496：寻找最大值（思维DP）
http://hihocoder.com/problemset/problem/1496 题意:中文. 思路:一开始做有一种想法,把所有的数都变成二进制后,最优的情况肯定是挑选所有数中最高位的1能同时 ...

1.4.3 ID遍历爬虫（每天一更）

1.4.3 ID遍历爬虫（每天一更）的更多相关文章

随机推荐

热门专题