代理

代理简述

代理服务器:实现请求转发,从而可以实现更换请求的ip地址

	在requests中如何将请求的ip进行更换

代理的匿名度:

	透明:服务器知道你使用了代理并且知道你的真实ip

	匿名:服务器知道你使用了代理,但是不知道你的真实ip

	高匿:服务器不知道你使用了代理,更不知道你的真实ip

代理的类型:

	http:该类型的代理只可以转发http协议的请求

	https:只可以转发https协议的请求

免费代理ip的网站

    快代理

    西祠代理

    goubanjia

    代理精灵(推荐):http://http.zhiliandaili.cn/

在爬虫中遇到ip被禁掉如何处理?

    使用代理

    构建一个代理池

    拨号服务器

案例

import requests

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'

}

url = 'https://www.baidu.com/s?wd=ip'

#proxies={'http/https':'ip:port'}

page_text = requests.get(url=url,headers=headers,proxies={'https':'1.197.203.187:9999'}).text

with open('ip.html','w',encoding='utf-8') as fp:

    fp.write(page_text)

from lxml import etree

all_ips = [] #列表形式的代理池

proxy_url = 'http://t.11jsq.com/index.php/api/entry?method=proxyServer.generate_api_url&packid=1&fa=0&fetch_key=&groupid=0&qty=52&time=1&pro=&city=&port=1&format=html&ss=5&css=&dt=1&specialTxt=3&specialJson=&usertype=2'

#在购买完代理ip后生成的HTML页面的url

proxy_page_text = requests.get(url=proxy_url,headers=headers).text  #爬取这个页面中的数据,也就是购买后的ip代理

tree = etree.HTML(proxy_page_text)

proxy_list = tree.xpath('//body//text()')

for ip in proxy_list:

    dic = {'https':ip}

    all_ips.append(dic)

all_ips

爬取西祠代理中的免费代理ip

import requests

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'

}

url = 'https://www.xicidaili.com/nn/%d'

free_proxies = []

for page in range(1,30):

    new_url = format(url%page)

    page_text = requests.get(new_url,headers=headers,proxies=random.choice(all_ips)).text # all_ips在上面的代码中

    tree = etree.HTML(page_text)

    tr_list = tree.xpath('//*[@id="ip_list"]//tr')[1:] #xpath表达式中不可以出现tbody

    for tr in tr_list:

        ip = tr.xpath('./td[2]/text()')[0]

        port = tr.xpath('./td[3]/text()')[0]

        t_type = tr.xpath('./td[7]/text()')[0]

        dic = {

            'ip':ip,

            'port':port,

            'type':t_type

        }

        free_proxies.append(dic)

    print('第{}页爬取完毕!!!'.format(page))

print(len(free_proxies))

python爬虫--代理.让你的ip在坚挺一会!!的更多相关文章

Python 爬虫入门（二）—— IP代理使用
上一节,大概讲述了Python 爬虫的编写流程, 从这节开始主要解决如何突破在爬取的过程中限制.比如,IP.JS.验证码等.这节主要讲利用IP代理突破. 1.关于代理简单的说,代理就是换个身份.网络 ...
Python爬虫代理池
爬虫代理IP池在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代理IP,从而保证爬虫快速稳定的运行,当然在公司做的东西不能开源出来 ...
Python爬虫代理IP池
目录[-] 1.问题 2.代理池设计 3.代码模块 4.安装 5.使用 6.最后在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代 ...
Python爬虫-代理池-爬取代理入库并测试代理可用性
目的:建立自己的代理池.可以添加新的代理网站爬虫,可以测试代理对某一网址的适用性,可以提供获取代理的 API. 整个流程:爬取代理 ----> 将代理存入数据库并设置分数 ----> 从数 ...
23个Python爬虫开源项目代码，让你一次学个够
今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [1]– 微信公众号 ...
Python爬虫开源项目代码，爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等代码整理
作者:SFLYQ 今天为大家整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [ ...
23个Python爬虫开源项目代码
今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [1]– 微信公众号 ...
23个Python爬虫开源项目代码，包含微信、淘宝、豆瓣、知乎、微博等
今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心,所有链接指向GitHub,微信不能直接打开,老规矩,可以用电脑打开. 关注公众号「Pyth ...
32个Python爬虫实战项目，满足你的项目慌
爬虫项目名称及简介一些项目名称涉及企业名词,小编用拼写代替 1.[WechatSogou]- weixin公众号爬虫.基于weixin公众号爬虫接口,可以扩展成其他搜索引擎的爬虫,返回结果是列表,每 ...

随机推荐

领扣（LeetCode）字符串相加个人题解
给定两个字符串形式的非负整数 num1 和num2 ,计算它们的和. 注意: num1 和num2 的长度都小于 5100. num1 和num2 都只包含数字 0-9. num1 和num2 都不包 ...
vim查询替换
查询: 在民令模式输入/或者? n/N 替换:
Android加载大量图片内存溢出解决办法
当我们在做项目过程中,一遇到显示图片时,就要考虑图片的大小,所占内存的大小,原因就是Android分配给Bitmap的大小只有8M,试想想我们用手机拍照,普通的一张照片不也得1M以上,所以androi ...
新闻实时分析系统Hive与HBase集成进行数据分析
(一)Hive 概述 (二)Hive在Hadoop生态圈中的位置 (三)Hive 架构设计 (四)Hive 的优点及应用场景 (五)Hive 的下载和安装部署 1.Hive 下载 Apache版本的H ...
图解 Spring：HTTP 请求的处理流程与机制【4】
4. HTTP 请求在 Spring 框架中的处理流程在穿越了 Web 容器和 Web 应用之后,HTTP 请求将被投送到 Spring 框架,我们继续剖析后续流程.Web 应用与 Spring M ...
图解 Spring：HTTP 请求的处理流程与机制【5】
5. HTTP 请求处理相关配置文件说明 HTTP 请求穿越的整个空间是分层的,包括:Web 容器.Web 应用.Spring 框架等,它们每层都是通过配置文件配置初始化的,这是一种松耦合的架构设计. ...
模型量化原理及tflite示例
模型量化什么是量化模型的weights数据一般是float32的,量化即将他们转换为int8的.当然其实量化有很多种,主流是int8/fp16量化,其他的还有比如二进制神经网络:在运行时具有二进 ...
Solr搜索引擎【索引提交、事务日志、原子更新】
一.索引提交当一个文档被添加到Solr中,但没有提交给索引之前,这个文档是无法被搜索的.换句话说,从查询的角度看,文档直到提交之后才是可见的.Solr有两种类型的提交:软提交和正常提交[也称硬提交] ...
Mac OS 终端利器 iTerm2（怕以后找不到，自存自用）
之前一直使用 Mac OS 自带的终端,用起来虽然有些不太方便,但总体来说还是可以接受的,是有想换个终端的想法,然后今天偶然看到一个终端利器 iTerm2,发现真的很强大,也非常的好用,按照网上配置了 ...
zabbix企业微信报警实现
企业微信配置 # 注册企业微信注册地址:https://work.weixin.qq.com 笔者注册的企业微信名称为 5iik # 配置 # 在主干5iik(企业名称)下添加子部门(监控组),并将 ...

python爬虫--代理.让你的ip在坚挺一会!!

代理

代理简述

案例

爬取西祠代理中的免费代理ip

python爬虫--代理.让你的ip在坚挺一会!!的更多相关文章

随机推荐

热门专题