商业爬虫学习笔记day2
1. get传参
(1)url中包含中文报错解决方法
urllib.request.quote("包含中文的url", safe = "string.printtable")
(2)字典传参
最终url由url和参数拼接而成,而参数(params)的类型为字典,所以拼接要将字典参数转化为字符串类型,如下:
import urllib.request
import urllib.parse
import string def get_params():
url = "http://www.baidu.com/s?" params = {
"wd": "中文",
"key": "zhang",
"value": "san"
}
str_params = urllib.parse.urlencode(params)
print(str_params) #此处打印的结果为 wd=%E4%B8%AD%E6%96%87&key=zhang&value=san
final_url = url + str_params
# 将带有中文的url 转译成计算机可以识别的url
end_url = urllib.parse.quote(final_url, safe=string.printable)
print(end_url)
response = urllib.request.urlopen(end_url)
data = response.read().decode("utf-8")
print(data)
get_params()
2. post
urllib.request.openurl(url, data = "服务器接收的数据")
3.请求头:
urlib.request.openurl(),查看源码可发现此方法并没有headers属性,所以得要自己定义一个请求对象,而这个对象中有headers属性
request = urllib.request.Request(url)
request_headers = request.headers # 获取到请求头的信息
(1)创建请求对象:urllib.request.Request(url)
(2)加User-Agent: 模拟真实的浏览器发送请求(若使用同一个User-Agent短时间发送多次请求,对方服务器就能察觉出是爬虫,所以可以定义一个User-Agent池,随机从中获取代理)
import urllib.request
import random def load_baidu(): url = "http://www.baidu.com"
user_agent_list = [
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1",
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
"Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50" ]
#每次请求的浏览器都是不一样的
random_user_agent = random.choice(user_agent_list)
request = urllib.request.Request(url)
#增加对应的请求头信息(user_agent)
request.add_header("User-Agent",random_user_agent) #请求数据
response = urllib.request.urlopen(request)
#请求头的信息
print(request.get_header("User-agent")) load_baidu()
(3)request.add_header(动态添加head数据)
(4)响应头response.header
代码
import urllib.request def load_baidu():
url = "http://www.baidu.com"
header = {
# 浏览器的版本
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",
"Haha": "hehe" # 无效,请求头中无此信息,在后面打印请求头也可看出无此项
}
# 创建请求对象
request = urllib.request.Request(url)
# print(request)
# print(request.headers)
# 动态去添加head的信息
request.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36")
# 请求网络数据(不在此处加请求头信息是因为此方法系统没有提供参数)
response = urllib.request.urlopen(request)
data = response.read().decode("utf-8") # 获取完整的url
final_url = request.get_full_url()
print(final_url)
# 获取请求头的信息(所有header信息)
request_headers = request.headers # 第一种方法
print(request_headers)
# 第二种方法,注意:首字母需要大写,其它字母都小写
request_headers = request.get_header("User-agent")
print(request_headers)
with open("02header.html", "w", encoding="utf-8")as f:
f.write(data) load_baidu()
4. IP代理:
若使用同一个IP短时间发送多个请求,被请求的服务器也能发现是爬虫,此时就要用不同的ip去发送请求,就涉及到IP代理
(1)免费的IP:时效性差,错误率高
付费的IP:贵花钱,也有失效不能用的
(2)IP分类:
透明:对方知道我们的真实IP
匿名:对方不知道我们真实的ip,但知道你使用了代理
高匿:对方不知道我们真实的IP,也不知道我们使用了代理
5. handler
(1)urllib.request.urlopen()方法中并没有添加代理的功能,需要我们自己定义这个功能,所以要讲下handler,由urlopen()方法的源码可知,其也是创建相应的handler,然后根据此handler创建opener,最后通过opener.open()发送请求
代码:
import urllib.request
import urllib.request def handler_openner():
#系统的urlopen并没有添加代理的功能所以需要我们自定义这个功能
#urlopen为什么可以请求数据 handler处理器
#自己的oppener请求数据
# urllib.request.urlopen()
url = "https://blog.csdn.net/m0_37499059/article/details/79003731"
#创建自己的处理器
handler = urllib.request.HTTPHandler()
#创建自己的oppener
opener=urllib.request.build_opener(handler)
#用自己创建的opener调用open方法请求数据
response = opener.open(url)
# data = response.read()
data = response.read().decode("utf-8")
with open("02header.html", "w", encoding="utf-8")as f:
f.write(data) handler_openner()
(2)创建对应的处理器(handler)
1. 代理处理器:ProxyHandler
2. 利用ProxyHandler创建opener:
3. opener.open(url)就可以请求数据
具体代码如下
import urllib.request
def proxy_user():
proxy_list = [
{"https":""},
# {"https":"106.75.226.36:808"},
# {"https":"61.135.217.7:80"},
# {"https":"125.70.13.77:8080"},
# {"https":"118.190.95.35:9001"}
]
for proxy in proxy_list:
print(proxy)
#利用遍历出来的ip创建处理器
proxy_handler = urllib.request.ProxyHandler(proxy)
#创建opener
opener = urllib.request.build_opener(proxy_handler)
try:
data = opener.open("http://www.baidu.com",timeout=1)
haha = data.read()
print(haha)
except Exception as e:
print(e)
proxy_user()
商业爬虫学习笔记day2的更多相关文章
- 商业爬虫学习笔记day1
day1 一. HTTP 1.介绍: https://www.cnblogs.com/vamei/archive/2013/05/11/3069788.html http://blog.csdn.ne ...
- 商业爬虫学习笔记day4
一.获取登录后页面信息的两种方法 1.第一种方法: 人为把有效cookies加到请求头中,代码如下 import urllib.request # 确定url url = "https:// ...
- 商业爬虫学习笔记day3
一. 付费代理发送请求的两种方式 第一种方式: (1)代理ip,形式如下: money_proxy = {"http":"username:pwd@192.168.12. ...
- 商业爬虫学习笔记day8-------json的使用
一. 简介 JSON,全称为JavaScript Object Notation(JavaScript对象标记),它通过对象和数组的组合来表示数据,是一种轻量级的数据交换格式.它基于 ECMAScri ...
- 商业爬虫学习笔记day7-------解析方法之bs4
一.Beautiful Soup 1.简介 Beautiful Soup 是python的一个库,最主要的功能是从网页抓取数据.其特点如下(这三个特点正是bs强大的原因,来自官方手册) a. Beau ...
- 商业爬虫学习笔记day6
一. 正则解析数据 解析百度新闻中每个新闻的title,url,检查每个新闻的源码可知道,其title和url都位于<a></a>标签中,因为里面参数的具体形式不一样,同一个正 ...
- 商业爬虫学习笔记day5
一. 发送post请求 import requests url = "" # 发送post请求 data = { } response = requests.post(url, d ...
- python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
- python网络爬虫学习笔记(二)BeautifulSoup库
Beautiful Soup库也称为beautiful4库.bs4库,它可用于解析HTML/XML,并将所有文件.字符串转换为'utf-8'编码.HTML/XML文档是与“标签树一一对应的.具体地说, ...
随机推荐
- cf14C Four Segments(计算几何)
题意: 给四个线段(两个端点的坐标). 判断这四个线段能否构成一个矩形.(矩形的四条边都平行于X轴或Y轴) 思路: 计算几何 代码: class Point{ public: int x,y; voi ...
- Typora简介
Typora是什么 Typora是一款支持实时预览的Markdown文本编辑器,拥有macOS.Windows.Linux三个平台的版本,并且完全免费. 下载地址:https://www.typora ...
- 基于消息队列 RocketMQ 的大型分布式应用上云最佳实践
作者|绍舒 审核&校对:岁月.佳佳 编辑&排版:雯燕 前言 消息队列是分布式互联网架构的重要基础设施,在以下场景都有着重要的应用: 应用解耦 削峰填谷 异步通知 分布式事务 大数据处理 ...
- MYSQL5.7下载安装图文教程
MYSQL5.7下载安装图文教程 一. MYSQL两种安装包格式 MySQL安装文件分为两种,一种是msi格式的,一种是zip格式的.zip格式相当于绿色版,不需要安装,只需解压缩之后就可以使用了,但 ...
- JMeter学习笔记--关联
1.什么是关联? 本次请求需要的数据,需要上一步的请求返回给提供的过程. 2.JMeter关联中常用的两种方式 正则表达式提取器 正则表达式提取器用于对页面任何文本的提取,提取的内容是根据正则表达式在 ...
- 利用DNS缓存和TLS协议将受限SSRF变为通用SSRF
本文首发于先知社区 前言 这是今年BlackHat上的一个议题:When TLS Hacks You,作者是latacora的Joshua Maddux 议题提出了一个新的ssrf攻击思路,利用DNS ...
- 解读Java8的Thread源码
1.创建的一个无参的Thread对象,默认会有一个线程名,以Thread-开头,从0开始计数,采用了一个static修饰的int变量,当对象初始化一次时一直存放在jvm方法区中 2.构造Thread的 ...
- 大一C语言学习笔记(5)---函数篇-定义函数需要了解注意的地方;定义函数的易错点;详细说明函数的每个组合部分的功能及注意事项
博主学习C语言是通过B站上的<郝斌C语言自学教程>,对于C语言初学者来说,我认为郝斌真的是在全网C语言学习课程中讲的最全面,到位的一个,这个不是真不是博主我吹他哈,大家可以去B站去看看,C ...
- Flink 实践教程:入门(6):读取 PG 数据写入 ClickHouse
作者:腾讯云流计算 Oceanus 团队 流计算 Oceanus 简介 流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发.无缝连接.亚 ...
- 12组-Alpha冲刺-2/6
一.基本情况 队名:字节不跳动 组长博客:https://www.cnblogs.com/147258369k/p/15535639.html 小组人数:10人 二.冲刺概况汇报 侯钦凯 过去两天完成 ...