爬虫——urllib.request包

一、引用包

　　import urllib.request

二、常用方法

　　（1）urllib.request.urlretrieve(网址，本地文件存储地址)：直接下载网页到本地

　　　　urllib.request.urlretrieve("http://www.baidu.com","D:\1.html")

　　（2）urllib.request.urlcleanup()：清理缓存

　　（3）查看网页基本内容

　　　　file = urllib.request.urlopen("http://www.baidu.com")

　　　　print(file.info()) #查看网页信息

　　　　print(file.code())#查看网页状态码

　　　　print(file.geturl())#获取当前网页的url

　　（4）设置网页超时时间

　　　　urllib.request.urlopen("http"//www.baidu.com",timeout=1)

　　　　timeout就是网页的超时时间设定

三、POST请求

import urllib.request

import urllib.parse

post_url = "http://www.baidu.com"

post_data = urllib.parse.urlencode{

    "username":"username"

    "password":"password"

    }.encode("utf-8")

req = urllib.request.Request(post_url,post_data)

四、异常处理

import urllib.request

import urllib.error

try:

    urllib.request.urlopen("http://www.baidu.com")

except urllib.error.URLError as e:

    if hasattr(e,"code"):

        print(e.code)

    if hasattr(e,"reason"):

        print(e.reason)

爬虫——urllib.request包的更多相关文章

爬虫——urllib.request库的基本使用
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地.在Python中有很多库可以用来抓取网页,我们先学习urllib.request.(在python2.x中为urllib2 ...
在python3中使用urllib.request编写简单的网络爬虫
转自:http://www.cnblogs.com/ArsenalfanInECNU/p/4780883.html Python官方提供了用于编写网络爬虫的包 urllib.request, 我们主要 ...
网络爬虫urllib：request之urlopen
网络爬虫urllib:request之urlopen 网络爬虫简介定义:按照一定规则,自动抓取万维网信息的程序或脚本. 两大特征: 能按程序员要求下载数据或者内容能自动在网络上流窜(从一个网页跳转 ...
python3爬虫初探（一）之urllib.request
---恢复内容开始--- #小白一个,在此写下自己的python爬虫初步的知识.如有错误,希望谅解并指出. #欢迎和大家交流python爬虫相关的问题 #2016/6/18 #----第一把武器--- ...
python3.6 urllib.request库实现简单的网络爬虫、下载图片
#更新日志:#0418 爬取页面商品URL#0421 更新添加爬取下载页面图片功能#0423 更新添加发送邮件功能# 优化爬虫异常处理.错误页面及空页面处理# 优化爬虫关键字黑名单.白名单,提 ...
爬虫之urllib.request基础使用（一）
urllib模块 urllib模块简介: urllib提供了一系列用于操作URL的功能.包含urllib.request,urllib.error,urllib.parse,urllib.robotp ...
Python做简单爬虫（urllib.request怎么抓取https以及伪装浏览器访问的方法）
一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...
爬虫初探(1)之urllib.request
-----------我是小白------------ urllib.request是python3自带的库(python3.x版本特有),我们用它来请求网页,并获取网页源码. # 导入使用库 imp ...
爬虫小探-Python3 urllib.request获取页面数据
使用Python3 urllib.request中的Requests()和urlopen()方法获取页面源码,并用re正则进行正则匹配查找需要的数据. #forex.py#coding:utf-8 ' ...

随机推荐

su3和SU01中参数说明
对于SU3和SU01中的的"参数"tab栏中的参数可以自己添加和删除. 所有的参数都存在表TPARA中,并且有对应的参数的说明. 那么这些参数如何使用呢? 通常的使用是,通过类似 ...
Development desciptor
概述与作用: 部署描述符是用于描述Web应用程序的元数据,并为Java EE Web应用程序服务器部署和运行Web应用程序提供指令.从传统上来说,所有元数据都来自于部署描述符文件/WEB-INF/we ...
两种方式，花五分钟就能构建一个 Spring Boot 应用
前言 Spring Boot 的好处自然不必多说,对于想要从事 Java 工作的朋友们来说,可谓是必学的技能. 在我看来,它的优势就是多快好省. 功能多,很多常用的能力都有集成: 接入快,简单的几行代 ...
linux通过ntpd同步服务器时间，
ntpd得rpm包下载地址:https://pkgs.org/download/ntp 比如我得服务器版本是centos7 x86的,那选择我点击的这一个: 下拉到最下面就有安装包下载了,我选择的是二 ...
Java并发组件二之CyclicBarriar
使用场景: 多个线程相互等待,直到都满足条件之后,才能执行后续的操作.CyclicBarrier描述的是各个线程之间相互等待的关系. 使用步骤: 正常实例化:CyclicBarrier sCyclic ...
Xamarin.Forms: 无限滚动的ListView（懒加载方式）
说明在本博客中,学习如何在Xamarin.Forms应用程序中设计一个可扩展的无限滚动的ListView.这个无限滚动函数在默认的Xamarin.Forms不存在,因此我们需要为此添加插件.在这里我 ...
Markdown 编辑器+同步预览+文件笔记管理+静态博客 metadata 管理
Leanote: 1. 笔记管理, 支持富文本, markdown, 写作模式.... 编辑器绝对好用. 另外特意为coder制作了一个贴代码的插件, 真是太贴心(因为作者也是coder) 2. 博客 ...
数据水印 watermark
外发数据创建水印产品通过对外发数据进行添加数据标记.自动生成水印.数据源追溯等功能,避免了内部人员外发数据泄露无法对事件追溯,提高了数据传递的安全性和可追溯能力. 数据水印系统_数据安全管理工具_[ ...
How to kill go routine?
How to kill go routine? https://stackoverflow.com/questions/37997608/kill-a-method-in-an-infinite-lo ...
实用 nginx.conf 用法大全
服务器拒绝非GET方式请求保障安全性,因为 DELETE.POST.PUT 是可以修改数据的. Nginx 解决方案在 nginx.conf 配置文件的网站配置区域中添加如下代码片段: 非 GET ...

爬虫——urllib.request包

爬虫——urllib.request包的更多相关文章

随机推荐

热门专题