python爬虫 urllib库基本使用

以下内容均为python3.6.*代码

学习爬虫，首先有学会使用urllib库，这个库可以方便的使我们解析网页的内容，本篇讲一下它的基本用法

解析网页

#导入urllib

from urllib import request

# 明确url

base_url = 'http://www.baidu.com/'

# 发起一个http请求,返回一个类文件对象

response = request.urlopen(base_url)

# 获取网页内容

html = response.read().decode('utf-8')

#将网页写入文件当中

with open('baidu.html','w',encoding='utf-8') as f:

    f.write(html)

构造请求

有些网站通过获取浏览器信息判断是否是机器在操作因此我们需要构造请求头

#导入模块

from urllib import request

base_url = 'http://www.xicidaili.com/'

# 构造请求头

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'

}

# 构造请求对象

req = request.Request(base_url,headers=headers)

# 发起请求

response = request.urlopen(req)

# 获取网页内容

html = response.read().decode()

#打印获取的页面代码

print(html)

get请求传输数据

提交表单经常用到的就是post发送或者get发送。区别在于后者对于提交的内容会直接显示到url上。那么下面让我们尝试实现他们

from urllib import request,parse

import random

#get要带的值

qs = {

    'wd' : '妹子',

    'a' : 1

}

#将携带的值转换为浏览器识别的值

qs = parse.urlencode(qs)

#拼接url

base_url = 'http://www.baidu.com/s?' + qs

#定义一个头列表用来随机获取

ua_list = [

    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',

    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'

]

# 构造请求头

headers = {

    # 随机构造user-agent

    'User-Agent': random.choice(ua_list)

}

# 构造请求对象

req = request.Request(base_url,headers=headers)

# 发起请求

response = request.urlopen(req)

# 获取请求内容

html = response.read().decode()html = response.read().decode()

post请求传输数据

from urllib import request,parse

            

base_url = 'http://fanyi.baidu.com/sug'

# 构造请求表单数据

form = {

    'kw' : "一只羊"

}

#将携带的值转换为浏览器识别的值

form = parse.urlencode(form)

# 构建post请求 ,如果指定data参数 ，则请求是post请求

req = request.Request(base_url,data=bytes(form,encoding='utf-8'))

# 发起http post请求

response = request.urlopen(req)

# 获取响应内容(json)

data= response.read().decode()

这样就模拟了简单的登录，当然，大部分网站是无法这样轻易的就登录的，但这段代码是模拟登录的核心

python爬虫 urllib库基本使用的更多相关文章

Python爬虫Urllib库的高级用法
Python爬虫Urllib库的高级用法设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Head ...
Python爬虫Urllib库的基本使用
Python爬虫Urllib库的基本使用深入理解urllib.urllib2及requests 请访问: http://www.mamicode.com/info-detail-1224080.h ...
python爬虫 - Urllib库及cookie的使用
http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...
对于python爬虫urllib库的一些理解（抽空更新）
urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数: 在Python3的urllib库中,所有和网 ...
Python爬虫--Urllib库
Urllib库 Urllib是python内置的HTTP请求库,包括以下模块:urllib.request (请求模块).urllib.error( 异常处理模块).urllib.parse (url ...
python爬虫---urllib库的基本用法
urllib是python自带的请求库,各种功能相比较之下也是比较完备的,urllib库包含了一下四个模块: urllib.request 请求模块 urllib.error 异常处理模块 u ...
Python爬虫urllib库的使用
urllib 在Python2中,有urllib和urllib2两个库实现请求发送,在Python3中,统一为urllib,是Python内置的HTTP请求库 request:最基本的HTTP请求模块 ...
Python爬虫 Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
python爬虫urllib库使用
urllib包括以下四个模块: 1.request:基本的HTTP请求模块,可以用来模拟发送请求.就像在浏览器里输入网址然后回车一样,只需要给库方法传入URL以及额外的参数,就可以模拟实现这个过程. ...

随机推荐

python3 得到a.txt中有的而b.txt中没有的汉字
已知两个文本文档,求a.txt中有的而b.txt中没有的汉字 #读取list1中的汉字 f1=open('/Users/tanchao/Documents/pythonwork/tensorflow/ ...
io输出流变为输入流
java 输出流转化为输入流 new ByteArrayInputStream(byteArrayOutputStream.toByteArray());
Navicat远程连接不上mysql解决方案（已测试过）
内容参考网上的文章,此处只做记录. 一.can‘t connect to MySql server on ‘192.168.X.X’ 这是因为mysql端口被防火墙拦截,需用linux执行如下指令:( ...
zookeeper 集群配置采坑 Connection refused WARN [QuorumPeer[myid=1]/0:0:0:0:0:0:0:0:2181:QuorumCnxManager@584] - Cannot open channel to 3 at election address slave2/192.168.127.133:3888
坑一: Cannot open channel to at election address slave1/ java.net.ConnectException: Connection refused ...
MVC002之获取当前用户失败(Context.User.Identity.Name)
通过Context.User.Identity.Name想获取当前用户的域帐号信息(如:Greatwall\Snow) 可值等于"",什么原因呢. 该问题和MVC关系不大,主要是I ...
取消掉maven
Android Studio 中的FindBugs插件使用，轻松帮你发现Bug (转)
在日常开发过程中难免会因为一时疏忽而留下一些Bug,这些Bug就是埋在程序里的定时炸弹,如果不能及时铲除就会导致程序的不稳定,异常或闪退的现象,从而导致用户的体验的下降.那么怎么才能找出这些埋在程序里 ...
RecyclerView的单击和长按事件（转）
转自:http://www.jianshu.com/p/f2e0463e5aef 前言上一篇文章揭开RecyclerView的神秘面纱(一):RecyclerView的基本使用中,主要讲述了Recy ...
STL::unordered_map/unordered_multimap
unordered_map: 和 unorder_set 相似,该容器内部同样根据 hash value 把键值对存放到相应的 bucket(slot)中,根据单个 key 来访问 value 的速度 ...
Android 环境搭建与Android SDK目录介绍
Android SDK下载和安装本地已有合适版本Android SDK,则无需再下载,或者可以使用SDK Manager更新SDK: 没有SDK,则需要下载. 这里说一下使用SDK Manager下 ...

python爬虫 urllib库基本使用

以下内容均为python3.6.*代码

解析网页

构造请求

get请求传输数据

post请求传输数据

python爬虫 urllib库基本使用的更多相关文章

随机推荐

热门专题