六 web爬虫讲解2—urllib库爬虫—基础使用—超时设置

利用python系统自带的urllib库写简单爬虫

urlopen()获取一个URL的html源码
read()读出html源码内容
decode("utf-8")将字节转化成字符串

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import urllib.request

html = urllib.request.urlopen('http://edu.51cto.com/course/8360.html').read().decode("utf-8")

print(html)

<!DOCTYPE html>

<html lang="zh-CN">

<head>

    <meta charset="UTF-8">

    <meta name="viewport" content="width=device-width, initial-scale=1">

    <meta name="csrf-param" content="_csrf">

    <meta name="csrf-token" content="X1pZZnpKWnQAIGkLFisPFT4jLlJNIWMHHWM6HBBnbiwPbz4/LH1pWQ==">

正则获取页面指定内容

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import urllib.request

import re

html = urllib.request.urlopen('http://edu.51cto.com/course/8360.html').read().decode("utf-8")   #获取html源码

pat = "51CTO学院Python实战群\((\d*?)\)"      #正则规则，获取到QQ号

rst = re.compile(pat).findall(html)

print(rst)

#['325935753']

urlretrieve()将网络文件下载保存到本地，参数1网络文件URL，参数2保存路径

#!/usr/bin/env python

# -*- coding:utf-8 -*-

from urllib import request

import re

import os

file_path = os.path.join(os.getcwd() + '/222.html')    #拼接文件保存路径

# print(file_path)

request.urlretrieve('http://edu.51cto.com/course/8360.html', file_path) #下载这个文件保存到指定路径

urlcleanup()清除爬虫产生的内存

#!/usr/bin/env python

# -*- coding:utf-8 -*-

from urllib import request

import re

import os

file_path = os.path.join(os.getcwd() + '/222.html')    #拼接文件保存路径

# print(file_path)

request.urlretrieve('http://edu.51cto.com/course/8360.html', file_path) #下载这个文件保存到指定路径

request.urlcleanup()

info()查看抓取页面的简介

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import urllib.request

import re

html = urllib.request.urlopen('http://edu.51cto.com/course/8360.html')   #获取html源码

a = html.info()

print(a)

# C:\Users\admin\AppData\Local\Programs\Python\Python35\python.exe H:/py/15/chshi.py

# Date: Tue, 25 Jul 2017 16:08:17 GMT

# Content-Type: text/html; charset=UTF-8

# Transfer-Encoding: chunked

# Connection: close

# Set-Cookie: aliyungf_tc=AQAAALB8CzAikwwA9aReq63oa31pNIez; Path=/; HttpOnly

# Server: Tengine

# Vary: Accept-Encoding

# Vary: Accept-Encoding

# Vary: Accept-Encoding

getcode()获取状态码

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import urllib.request

import re

html = urllib.request.urlopen('http://edu.51cto.com/course/8360.html')   #获取html源码

a = html.getcode()  #获取状态码

print(a)

#200

geturl()获取当前抓取页面的URL

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import urllib.request

import re

html = urllib.request.urlopen('http://edu.51cto.com/course/8360.html')   #获取html源码

a = html.geturl()  #获取当前抓取页面的URL

print(a)

#http://edu.51cto.com/course/8360.html

timeout抓取超时设置，单位为秒

是指抓取一个页面时对方服务器响应太慢，或者很久没响应，设置一个超时时间，超过超时时间就不抓取了

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import urllib.request

import re

html = urllib.request.urlopen('http://edu.51cto.com/course/8360.html',timeout=30)   #获取html源码

a = html.geturl()  #获取当前抓取页面的URL

print(a)

#http://edu.51cto.com/course/8360.html

自动模拟http请求

http请求一般常用的就是get请求和post请求

get请求

比如360搜索，就是通过get请求并且将用户的搜索关键词传入到服务器获取数据的

所以我们可以模拟百度http请求，构造关键词自动请求

quote()将关键词转码成浏览器认识的字符，默认网站不能是中文

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import urllib.request

import re

gjc = "手机"     #设置关键词

gjc = urllib.request.quote(gjc)         #将关键词转码成浏览器认识的字符，默认网站不能是中文

url = "https://www.so.com/s?q="+gjc     #构造url地址

# print(url)

html = urllib.request.urlopen(url).read().decode("utf-8")  #获取html源码

pat = "(\w*<em>\w*</em>\w*)"            #正则获取相关标题

rst = re.compile(pat).findall(html)

# print(rst)

for i in rst:

    print(i)                            #循环出获取的标题

    # 官网 < em > 手机 < / em >

    # 官网 < em > 手机 < / em >

    # 官网 < em > 手机 < / em > 这么低的价格

    # 大牌 < em > 手机 < / em > 低价抢

    # < em > 手机 < / em >

    # 淘宝网推荐 < em > 手机 < / em >

    # < em > 手机 < / em >

    # < em > 手机 < / em >

    # < em > 手机 < / em >

    # < em > 手机 < / em >

    # 苏宁易购买 < em > 手机 < / em >

    # 买 < em > 手机 < / em >

    # 买 < em > 手机 < / em >

post请求

urlencode()封装post请求提交的表单数据，参数是字典形式的键值对表单数据
Request()提交post请求，参数1是url地址，参数2是封装的表单数据

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import urllib.request

import urllib.parse

posturl = "http://www.iqianyue.com/mypost/"

shuju = urllib.parse.urlencode({                #urlencode()封装post请求提交的表单数据，参数是字典形式的键值对表单数据

    'name': '123',

    'pass': '456'

    }).encode('utf-8')

req = urllib.request.Request(posturl,shuju)     #Request()提交post请求，参数1是url地址，参数2是封装的表单数据

html = urllib.request.urlopen(req).read().decode("utf-8")  #获取post请求返回的页面

print(html)

六 web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求的更多相关文章

第三百二十七节，web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求
第三百二十七节,web爬虫讲解2—urllib库爬虫利用python系统自带的urllib库写简单爬虫 urlopen()获取一个URL的html源码read()读出html源码内容decode(& ...
第三百三十节，web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解封装模块 #!/usr/bin/env python # -*- coding: utf- ...
第三百二十九节，web爬虫讲解2—urllib库爬虫—ip代理—用户代理和ip代理结合应用
第三百二十九节,web爬虫讲解2—urllib库爬虫—ip代理使用IP代理 ProxyHandler()格式化IP,第一个参数,请求目标可能是http或者https,对应设置build_opener ...
第三百二十八节，web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术、设置用户代理
第三百二十八节,web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术.设置用户代理如果爬虫没有异常处理,那么爬行中一旦出现错误,程序将崩溃停止工作,有异常处理即使出现错误也能继续执 ...
七 web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术、设置用户代理
如果爬虫没有异常处理,那么爬行中一旦出现错误,程序将崩溃停止工作,有异常处理即使出现错误也能继续执行下去 1.常见状态吗 301:重定向到新的URL,永久性302:重定向到临时URL,非永久性304: ...
九 web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
封装模块 #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib from urllib import request import j ...
八 web爬虫讲解2—urllib库爬虫—ip代理—用户代理和ip代理结合应用
使用IP代理 ProxyHandler()格式化IP,第一个参数,请求目标可能是http或者https,对应设置build_opener()初始化IPinstall_opener()将代理IP设置成全 ...
第三百三十六节，web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础
第三百三十六节,web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块 ...
十五 web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础
在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块,然后将网页数据通过lxml下的etree转化为treedata的形式 urllib库中使用xpath表 ...

随机推荐

基于vue + typescrpt +vuecli 搭建开发环境
打算学习typeScript与vue集成,先放几个链接,留着自己学习用,后续自己写使用新的~ https://segmentfault.com/a/1190000013676663 https://j ...
MySQL数据库Date型数据插入问题
MySQL数据库中,Date型数据插入问题,总是提示如下错误: “java.util.Date cannot be cast to java.sql.Date” 解决办法: 1.首先,获取Date型数 ...
JSP使用网站访问人数统计功能，方法与技巧
实现网站访问人数统计功能的步骤: 创建静态登录页面,并指定表单提交由登录处理页面进行处理. 创建登录处理页面获得登录信息,查询数据库,判断该用户是否注册,如果该用户已注册,把已登录用户的信息保存在一个 ...
安装vue-cli脚手架
一.安装node.js 1.什么是node.js? Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境. Node.js 使用了一个事件驱动.非阻塞式 I/O 的模 ...
C# 创建单例你会几种方式？
关于为什么需要创建单例?这里不过多介绍,具体百度知. 关于C# 创建单例步骤或条件吧 1.声明静态变量:2.私有构造函数(无法实例化)3.静态创建实例的方法:至于我这里的Singleton是seal ...
Linux基础——硬盘分区、格式化及文件系统的管理
1. 硬件设备与文件名的对应关系掌握在Linux系统中,每个设备都被当初一个文件来对待. 设备设备在Linux内的文件名 IDE硬盘 /dev/hd[a-d] SCSI硬盘 /dev/sd[a-p ...
day5笔记列表 list 增删改查
列表的使用一.索引和切片 # 索引和切片,用法与字符串一样 l = [1,2,3,'af','re',4,'45'] print(l[0]) print(l[3]) print(l[-1]) # ' ...
python之路前段之html，css
一.HTML 超级文本标记语言是标准通用标记语言下的一个应用,也是一种规范,一种标准, 它通过标记符号来标记要显示的网页中的各个部分.网页文件本身是一种文本文件,通过在文本文件中添加标记符,可以告诉浏 ...
nodejs多核处理
前言大家都知道nodejs是一个单进程单线程的服务器引擎,不管有多么的强大硬件,只能利用到单个CPU进行计算.所以,有人开发了第三方的cluster,让node可以利用多核CPU实现并行. 随着nod ...
EasyUI：所有的图标
EasyUI:所有的图标所有的图标在 jquery-easyui-1.2.6/themes/icons 目录下: jquery-easyui-1.2.6/themes/icon.css .icon- ...

六 web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求

六 web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求的更多相关文章

随机推荐

热门专题