Python3编写网络爬虫01-基本请求库urllib的使用

安装python后自带urllib库

模块篇分为几个模块如下：

1. urllib.request 请求模块

2. urllib.parse 分析模块

3. urllib.error 异常处理模块

4. urllib.robotparser robots文本协议识别用的比较少

方法篇分为以下几种方法：

urlopen()

示例：

import urllib.request

response = urllib.request.urlopen("https://www.python.org")

print(response.read().decode('utf-8'))

type()方法 read()方法 status 方法 getheaders（） getheader('Server')

示例

import urllib.request

response = urllib.request.urlopen("https://www.python.org")

print(type(response))

print(response.read())

print(response.status)

print(response.getheaders())

print(response.getheader('Server'))

参数篇 url data timeout

url 请求的URL地址

data 内容

示例

import urllib.parse
import urllib.request

data = bytes(urllib.parse.urlencode({'name':'hello','pass':'123'}),encoding='utf-8')
response = urllib.request.urlopen('http://www.iqianyue.com/mypost',data=data)
print(response.read())

timeout 请求超时

示例

import urllib.request

response = urllib.request.urlopen('httpbin.org/get',timeout=1)

print(respons.read())

import socket

import urllib.request

import urllib.error

try:

response = urllib.request.urlopen('http://httpbin.org/get',timeout=0.1)

except urllib.error.URLError as e:

if isinstance(e.reason,socket.timeout):

print('TIME OUT')

requests urllib自带的请求模块

示例

import urllib.request

request = urllib.request.Request("http://www.baidu.com")

response = urllib.request.urlopen(request)

print(response.read().decode('utf-8'))

add_header

quote() 将内容转化为URL编码

unquote() 解码

爬虫爬取百度贴吧实例

import urllib

import urllib.request

import urllib.parse

#百度贴吧爬虫接口 组合url地址 起始页和终止页

def tiebaSpider(url,beginPage,endPage):

"""

作用：负责处理 url 分配每一个url去发送请求

:param url: 处理第一个url

:param beginPage: 爬虫起始页

:param endPage: 爬虫终止页

:return: null

"""

for Page in range(beginPage,endPage+1):

pn = (Page-1)*50

filename = "第" + str(Page) + "页.html"

#组合url 发送请求

fullurl = url + "&pn=" + str(pn)

# print fullurl

# 调用loadPage（）函数发送请求获取HTML页面

html = loadPage(fullurl,filename)

# 调用writePage()函数 将服务器响应文件保存到本地磁盘

writeFile(html,filename)

def loadPage(url,filename):

"""

作用：根据url发送请求 获取服务器响应数据

:param url: 请求地址

:param filename: 文件名

:return:服务器响应文件

"""

print("正在下载" + filename)

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"}

request = urllib.request.Request(url,headers = headers)

response = urllib.request.urlopen(request)

return response.read()

def writeFile(html,filename):

"""

作用：保存服务器文件到本地磁盘

:param html: 服务器文件

:param filename:本地磁盘文件名

:return:null

"""

print("正在存储" + filename)

with open(filename,"wb+") as f:

f.write(html)

print("-"*20)

#模拟main 函数

if __name__ == "__main__":

kw = input("请输入要爬取的贴吧名")

#输入起始页和终止页 str转化为int类型

beginPage = int(input("请输入爬取的起始页"))

endPage = int(input("请输入爬取的终止页"))

url = "http://tieba.baidu.com/f?"

key = urllib.parse.urlencode({"kw":kw})

#组合后的url示例 http://tieba.baidu.com/f?kw=lol

url = url + key

tiebaSpider(url,beginPage,endPage)

作业：

page 页码不出现负数

去贴吧帖子下级目录里面获取信息

# str为字符串
# str.isalnum() 所有字符都是数字或者字母
# str.isalpha() 所有字符都是字母
# str.isdigit() 所有字符都是数字
# str.islower() 所有字符都是小写
# str.isupper() 所有字符都是大写
# str.istitle() 所有单词都是首字母大写，像标题
# str.isspace() 所有字符都是空白字符、\t、\n、\r

beginPage = input('请输入开始页（整数）： ')

while True:

if beginPage.isdigit():

if int(beginPage) <= 0:

beginPage = 1

break

else:

beginPage = int(beginPage)

break

else:

beginPage = input('请重新输入开始页（整数）：')

Python3编写网络爬虫01-基本请求库urllib的使用的更多相关文章

Python3编写网络爬虫02-基本请求库requests的使用
一.requests 库使用需要安装 pip install requests import requests #导入requests库 request = requests.get("h ...
Python3编写网络爬虫07-基本解析库pyquery的使用
三.pyquery 简介:同样是一个强大的网页解析工具它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便安装: pip install pyquery 验证: im ...
Python3编写网络爬虫06-基本解析库Beautiful Soup的使用
二.Beautiful Soup 简介就是python的一个HTML或XML的解析库可以用它来很方便的从网页中提取数据 0.1 提供一些简单的 python式的函数来处理导航,搜索,修改分析树等功 ...
Python3编写网络爬虫05-基本解析库XPath的使用
一.XPath 全称 XML Path Language 是一门在XML文档中查找信息的语言最初是用来搜寻XML文档的但是它同样适用于HTML文档的搜索 XPath 的选择功能十分强大,它提供了 ...
python3编写网络爬虫20-pyspider框架的使用
二.pyspider框架的使用简介 pyspider是由国人binux 编写的强大的网络爬虫系统 github地址 : https://github.com/binux/pyspider 官方文档 ...
python3编写网络爬虫18-代理池的维护
一.代理池的维护上面我们利用代理可以解决目标网站封IP的问题在网上有大量公开的免费代理或者我们也可以购买付费的代理IP但是无论是免费的还是付费的,都不能保证都是可用的因为可能此IP被其他人使用 ...
python3编写网络爬虫17-验证码识别
一.验证码识别 1.图形验证码的识别识别图形验证码需要 tesserocr 库 OCR技术识别(光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程.)例如中国知网注册页面 ht ...
Python3编写网络爬虫04-爬取猫眼电影排行实例
利用requests库和正则表达式抓取猫眼电影TOP100 (requests比urllib使用更方便,由于没有学习HTML系统解析库选用re) 1.目标抓取电影名称时间评分图片等 url ...
python3编写网络爬虫21-scrapy框架的使用
一.scrapy框架的使用前面我们讲了pyspider 它可以快速的完成爬虫的编写不过pyspider也有一些缺点例如可配置化不高异常处理能力有限对于一些反爬虫程度非常强的网站爬取显得力不从 ...

随机推荐

并发编程——ConcurrentHashMap#helpTransfer() 分析
前言 ConcurrentHashMap 鬼斧神工,并发添加元素时,如果 map 正在扩容,其他线程甚至于还会帮助扩容,也就是多线程扩容.就这一点,就可以写一篇文章好好讲讲.今天一起来看看. 源码分析 ...
Spring Security认证配置(二)
学习本章之前,可以先了解下上篇Spring Security基本配置. 本篇想要达到这样几个目的: 1.访问调用者服务时,如果是html请求,则跳转到登录页,否则返回401状态码和错误信息 2.调用方 ...
NIO学习笔记六：channel 之前数据传输及scatter/gather
在Java NIO中,如果两个通道中有一个是FileChannel,那你可以直接将数据从一个channel传输到另外一个channel. FileChannel的transferFrom()方法可以将 ...
python学习之老男孩python全栈第九期_第一次周末考试题（over）第三次添加完毕
day 6python基础数据类型考试题考试时间:两个半小时满分100分(80分以上包含80分及格) 一,基础题. 1. 简述变量命名规范(3分) 答:(1) 变量为数字,字母以及下划线的任意组合 ...
微信小程序css画三角形内有文字
<view class="productStatus"> <span> <em>已上架</em> </span> < ...
js-ES6学习笔记-数值的扩展
1.ES6 提供了二进制和八进制数值的新的写法,分别用前缀0b(或0B)和0o(或0O)表示. 2.如果要将0b和0o前缀的字符串数值转为十进制,要使用Number方法. 3.ES6在Number对象 ...
数据库查询字段为null 时，返回0
oracle select nvl(字段名,0) from 表名; sqlserver select isnull(字段名,0) from 表名; mysql select ifnull(字段名,0) ...
ArcGIS 中取出面上最大的Z值的坐标点
def MaxZ(shape): line = shape.getPart(0) pnt = line.next() maxValue = float("-in ...
【葡萄城报表】还在为画“类Word文档报表”而发愁吗？
Word 是非常强大的文档编辑工具,一些行业制式文档都是使用Word来创建的,像教育行业的申请表,履历表,审批表等,像石油业的勘探记录表,记录报告,检测报告等,如房地产业的制式合同,不仅包含大量的文 ...
KCF跟踪算法入门详解
一.算法介绍 KCF全称为Kernel Correlation Filter 核相关滤波算法.是在2014年由Joao F. Henriques, Rui Caseiro, Pedro Martins ...

Python3编写网络爬虫01-基本请求库urllib的使用

Python3编写网络爬虫01-基本请求库urllib的使用的更多相关文章

随机推荐

热门专题