1.4.1python下载网页（每天一更）

# -*- coding: utf-8 -*-

'''

Created on 2019年4月27日

@author: lenovo

'''

# import urllib3

# def download(url):

#     return urllib3.connection_from_url(url)

#

# print(download('http://now.qq.com'))

# 在python中,urllib2被urllib。request所取代

# import urllib.request

# def download(url):

#     return urllib.request.urlopen(url).read()

#

# print(download('https://baijiahao.baidu.com/s?id=1632775818269407606&wfr=spider&for=pc'))

# import urllib.request

# def download(url):

#     print("Downloading:" + url)

#     try:

#         html = urllib.request.urlopen(url).read()

#     except urllib.request.URLError as e:

#         print("Download error:" , e.reason)

#         html = None

#     return html

#

# print(download("htp://www.baidu.co"))

# import urllib.request

# def download(url, num_retries=2):

#     try:

#         html = urllib.request.urlopen(url).read()

#     except urllib.request.URLError as e:

#         print("Download error:" , e.reason)

#         html = None

#         if num_retries > 0 :

#             if hasattr(e, "code") and 500 <= e.code < 600 :

#                 return download(url, num_retries-1)

#     return html

#

# # print(download("http://httpstat.us/500"))

# print(download("http://www.meetup.com/"))

import urllib.request

def download(url, user_agent="wswp",num_retries=2):

    print("Downloading: " , url)

    headers = { 'User-agent': user_agent}

    request = urllib.request.Request(url, headers=headers)

    try:

        html = urllib.request.urlopen(request).read()

    except urllib.request.URLError as e:

        print('Download error:' , e.reason)

        html = None

        if num_retries > 1 :

            if hasattr(e, 'code') and 500 <= e.code < 600:

                return download(url, user_agent, num_retries-1)

    return html

print(download("http://www.meetup.com/"))

1.4.1python下载网页（每天一更）的更多相关文章

C# 网络编程之webBrowser获取网页url和下载网页中图片
该文章主要是通过C#网络编程的webBrowser获取网页中的url并简单的尝试瞎子啊网页中的图片,主要是为以后网络开发的基础学习.其中主要的通过应用程序结合网页知识.正则表达式实现浏览.获取url. ...
Python下载网页的几种方法
get和post方式总结 get方式:以URL字串本身传递数据参数,在服务器端可以从'QUERY_STRING'这个变量中直接读取,效率较高,但缺乏安全性,也无法来处理复杂的数据(只能是字符串,比如在 ...
JavaWeb学习之转发和重定向、会话技术：cookie、session、验证码实例、URLConnection使用（下载网页）（4）
1.转发和重定向 HttpServletResponse response 转发: RequestDispatcher dispatcher = request.getRequestDispatche ...
windows phone 7,sliverlight 下载网页的解析,关于wp7 gb2312编码
原文:windows phone 7,sliverlight 下载网页的解析,关于wp7 gb2312编码关于silverlight和wp7(windows phone 7)是默认不支持gb2312 ...
Java的URL来下载网页源码
import java.io.BufferedInputStream; import java.io.BufferedReader; import java.io.IOException; impor ...
http下载网页
//http.c #include <stdio.h>#include <stdlib.h>#include <string.h>#include <sys/ ...
PHP下载网页
<?php /* author:whq 作用:获取网页的内容 */ include "../Snoopy/Snoopy.class.php";class Cute ...
Java如何读取和下载网页？
在Java编程中,如何读取和下载网页? 以下示例显示如何使用net.URL类的URL()构造函数来读取和下载网页. package com.yiibai; import java.io.Buffere ...
用firefox的插件下载网页中的视频
对于网页中的一些视频,直接下载不了,可以用专用下载软件下载,也可以用firefox的NetVideohunter Video Downloader插件下载网页中的视频,方便快捷. 工具/原料 fi ...

随机推荐

接口和抽象类是否继承了Object
我们先看一下Java的帮助文档对于Object的描述: Class Object is the root of the class hierarchy. Every class has Object ...
ChannelPipeline----贯穿io事件处理的大动脉
ChannelPipeline贯穿io事件处理的大动脉上一篇,我们分析了NioEventLoop及其相关类的主干逻辑代码,我们知道netty采用线程封闭的方式来避免多线程之间的资源竞争,最大限度地减 ...
Ubuntu --- 【转】安装lamp（php7.0）
本篇转自:http://www.laozuo.org/8303.html.以防丢失,再次记录 PHP7已经出来有一段时间,根据网友的实践测试比之前的版本效率会高不少,而且应用到网站中打开速度会有明显的 ...
15 BOM的介绍
avaScript基础分为三个部分: ECMAScript:JavaScript的语法标准.包括变量.表达式.运算符.函数.if语句.for语句等. DOM:文档对象模型,操作网页上的元素的API.比 ...
Java面试通关宝典
1.说说Java中异常的分类: 答:可分为Error和Exception. 从概念角度分析: Error:是程序无法处理的系统错误,编译器不做检查: Exception:是程序可以处理的异常,捕获后可 ...
基于cxf开发的WebService
Node.jshttps://www.cnblogs.com/goldlong/p/8027997.htmlQQ音乐apihttps://juejin.im/post/5a35228e51882506 ...
JVM中的本机内存跟踪
1.概述有没有想过为什么Java应用程序通过众所周知的-Xms和-Xmx调优标志消耗的内存比指定数量多得多?出于各种原因和可能的优化,JVM可以分配额外的本机内存.这些额外的分配最终会使消耗的内存超 ...
ZOJ 3795：Grouping（缩点+最长路）
http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemId=5303 题意:有n个人m条边,每条边有一个u,v,代表u的年龄大于等于v,现在要 ...
Vue技术点整理-Vue Router
路由 Vue Router 对于单页面应用来说,如果涉及到多个页面的话,就必须要使用到路由,一般使用官方支持的 vue-router 库一,Vue Router 在项目中的安装引用 1,在页面中使用 ...
django ORM中的RelatedManager(关联管理器)
关联管理器应用在一对多的表或者多对多的表多对多表中的用法: 在多对多的表中正向查询 #基于对象的查询 #正查 # author_obj = Author.objects.get(id=1) ...

1.4.1python下载网页（每天一更）

1.4.1python下载网页（每天一更）的更多相关文章

随机推荐

热门专题