爬虫——urllib.request包

一、引用包

　　import urllib.request

二、常用方法

　　（1）urllib.request.urlretrieve(网址，本地文件存储地址)：直接下载网页到本地

　　　　urllib.request.urlretrieve("http://www.baidu.com","D:\1.html")

　　（2）urllib.request.urlcleanup()：清理缓存

　　（3）查看网页基本内容

　　　　file = urllib.request.urlopen("http://www.baidu.com")

　　　　print(file.info()) #查看网页信息

　　　　print(file.code())#查看网页状态码

　　　　print(file.geturl())#获取当前网页的url

　　（4）设置网页超时时间

　　　　urllib.request.urlopen("http"//www.baidu.com",timeout=1)

　　　　timeout就是网页的超时时间设定

三、POST请求

import urllib.request

import urllib.parse

post_url = "http://www.baidu.com"

post_data = urllib.parse.urlencode{

    "username":"username"

    "password":"password"

    }.encode("utf-8")

req = urllib.request.Request(post_url,post_data)

四、异常处理

import urllib.request

import urllib.error

try:

    urllib.request.urlopen("http://www.baidu.com")

except urllib.error.URLError as e:

    if hasattr(e,"code"):

        print(e.code)

    if hasattr(e,"reason"):

        print(e.reason)

爬虫——urllib.request包的更多相关文章

爬虫——urllib.request库的基本使用
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地.在Python中有很多库可以用来抓取网页,我们先学习urllib.request.(在python2.x中为urllib2 ...
在python3中使用urllib.request编写简单的网络爬虫
转自:http://www.cnblogs.com/ArsenalfanInECNU/p/4780883.html Python官方提供了用于编写网络爬虫的包 urllib.request, 我们主要 ...
网络爬虫urllib：request之urlopen
网络爬虫urllib:request之urlopen 网络爬虫简介定义:按照一定规则,自动抓取万维网信息的程序或脚本. 两大特征: 能按程序员要求下载数据或者内容能自动在网络上流窜(从一个网页跳转 ...
python3爬虫初探（一）之urllib.request
---恢复内容开始--- #小白一个,在此写下自己的python爬虫初步的知识.如有错误,希望谅解并指出. #欢迎和大家交流python爬虫相关的问题 #2016/6/18 #----第一把武器--- ...
python3.6 urllib.request库实现简单的网络爬虫、下载图片
#更新日志:#0418 爬取页面商品URL#0421 更新添加爬取下载页面图片功能#0423 更新添加发送邮件功能# 优化爬虫异常处理.错误页面及空页面处理# 优化爬虫关键字黑名单.白名单,提 ...
爬虫之urllib.request基础使用（一）
urllib模块 urllib模块简介: urllib提供了一系列用于操作URL的功能.包含urllib.request,urllib.error,urllib.parse,urllib.robotp ...
Python做简单爬虫（urllib.request怎么抓取https以及伪装浏览器访问的方法）
一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...
爬虫初探(1)之urllib.request
-----------我是小白------------ urllib.request是python3自带的库(python3.x版本特有),我们用它来请求网页,并获取网页源码. # 导入使用库 imp ...
爬虫小探-Python3 urllib.request获取页面数据
使用Python3 urllib.request中的Requests()和urlopen()方法获取页面源码,并用re正则进行正则匹配查找需要的数据. #forex.py#coding:utf-8 ' ...

随机推荐

Jenkins自动部署spring boot
Jenkins自动部署spring boot 背景介绍本公司属于微小型企业,初期业务量不高,所有程序都写在一个maven项目里面,不过是多模块开发. 分了login模块,service模块,cms模 ...
ctfshow—web—web2
打开靶机,根据提示是SQL注入打开后看到登录窗口方法一.手工注入抓取数据包开始SQL注入测试利用万能密码,登录成功查看回显位置查询数据库查询数据库内数据表如果想整齐一点显示可以添加g ...
[Usaco2006 Nov]Corn Fields牧场的安排
题目描述 Farmer John新买了一块长方形的牧场,这块牧场被划分成M列N行(1<=M<=12; 1<=N<=12),每一格都是一块正方形的土地.FJ打算在牧场上的某几格土 ...
MYSQL基础知识的复习1
数据库(是存放数据的仓库) 1.根据存储量以及安全性上来划分: 大型数据库:DB2 Oracle(毕业) Hbase 银行公安局(不加班没网) 移动中型数据库:mysql sqlserver(. ...
全栈性能测试修炼宝典-JMeter实战笔记（三）
JMeter体系结构简介 JMeter是一款开源桌面应用软件,可用来模拟用户负载来完成性能测试工作. JMeter体系结构 X1~X5是负载模拟的一个过程,使用这些组件来完成负载的模拟 Y1:包含的 ...
moco框架加入cookies
一.带cookie信息的get请求注意:cookie是放在request里的,一般登录的场景这些会用到 1.代码 2.接口管理工具添加注意:cooike的域和路径都要添加二.带cookie信息的 ...
P5858 Golden Swold
写在前面简单的单调队列优化 DP 处理略微有点恶心,于是乎,用来取 \(\max\) 的极小值直接开到了 long long 的最小极限,了 define int long long /cy 算法思 ...
安装kettle
保证安装了jdk 在window 下载解压解压到任意目录下运行startZK.bat 在Linux安装 1.将kettle上传到Linux服务器的/opt/server目录下(如果该目录不存在则创 ...
ThreadLocal全面解析,一篇带你入门
===================== 大厂面试题: 1.Java中的引用类型有哪几种? 2.每种引用类型的特点是什么? 3.每种引用类型的应用场景是什么? 4.ThreadLocal你了解吗 5 ...
动态代理+静态代理+cglib代理详解
代理定义:代理(Proxy):是一种设计模式,提供了对目标对象另外的访问方式;即通过代理对象访问目标对象.好处是:可以在目标对象实现的基础上,增强额外的功能操作,即扩展目标对象的功能. 动态代理+静态 ...

爬虫——urllib.request包

爬虫——urllib.request包的更多相关文章

随机推荐

热门专题