爬虫-ip代理

代理(proxy)

代理服务器:实现请求转发,从而可以实现更换请求的ip地址
代理的匿名度:
- 透明:服务器知道你使用了代理并且知道你的真实ip
- 匿名:服务器知道你使用了代理,但是不知道你的真实ip
- 高度匿名(高匿):服务器不知道你使用了代理,更不知道你的真实ip
代理的类型:
- http:该类型的代理只可以转发http协议的请求
- https:只可以转发https协议的请求

requests请求中更换ip:

在requests添加一个参数 proxies={'http/https':'ip:port'}

import requests

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'

}

url = 'https://www.baidu.com/s?wd=ip'

#proxies={'http/https':'ip:port'}

page_text = requests.get(url=url,headers=headers,proxies={'https':'1.197.203.187:9999'}).text

with open('ip.html','w',encoding='utf-8') as fp:

    fp.write(page_text)

免费代理ip的网站
- 快代理
- 西祠代理
- goubanjia
  - 代理精灵(推荐):http://http.zhiliandaili.cn/
在爬虫中遇到ip被禁掉如何处理?
- 使用代理
- 构建一个代理池
- 拨号服务器

代理池构建

#基于代理精灵构建一个ip池

from lxml import etree

all_ips = [] # 列表形式的代理池

proxy_url = 'http://t.11jsq.com/index.php/api/entry?method=proxyServer.generate_api_url&packid=1&fa=0&fetch_key=&groupid=0&qty=52&time=1&pro=&city=&port=1&format=html&ss=5&css=&dt=1&specialTxt=3&specialJson=&usertype=2'  # 代理ip地址

proxy_page_text = requests.get(url=proxy_url,headers=headers).text

tree = etree.HTML(proxy_page_text)

proxy_list = tree.xpath('//body//text()')

for ip in proxy_list:

    dic = {'https':ip}

    all_ips.append(dic)

all_ips

import random

#爬取西祠代理中的免费代理ip

url = 'https://www.xicidaili.com/nn/%d'

free_proxies = []

for page in range(1,30):

    new_url = format(url%page)

    page_text = requests.get(new_url,headers=headers,proxies=random.choice(all_ips)).text

    tree = etree.HTML(page_text)

    tr_list = tree.xpath('//*[@id="ip_list"]//tr')[1:]#xpath表达式中不可以出现tbody

    for tr in tr_list:

        ip = tr.xpath('./td[2]/text()')[0]

        port = tr.xpath('./td[3]/text()')[0]

        t_type = tr.xpath('./td[7]/text()')[0]

        dic = {

            'ip':ip,

            'port':port,

            'type':t_type

        }

        free_proxies.append(dic)

    print('第{}页爬取完毕!!!'.format(page))

print(len(free_proxies))

爬虫-ip代理的更多相关文章

第三百二十九节，web爬虫讲解2—urllib库爬虫—ip代理—用户代理和ip代理结合应用
第三百二十九节,web爬虫讲解2—urllib库爬虫—ip代理使用IP代理 ProxyHandler()格式化IP,第一个参数,请求目标可能是http或者https,对应设置build_opener ...
反反爬虫 IP代理
0x01 前言一般而言,抓取稍微正规一点的网站,都会有反爬虫的制约.反爬虫主要有以下几种方式: 通过UA判断.这是最低级的判断,一般反爬虫不会用这个做唯一判断,因为反反爬虫非常容易,直接随机UA即可 ...
八 web爬虫讲解2—urllib库爬虫—ip代理—用户代理和ip代理结合应用
使用IP代理 ProxyHandler()格式化IP,第一个参数,请求目标可能是http或者https,对应设置build_opener()初始化IPinstall_opener()将代理IP设置成全 ...
设置python爬虫IP代理(urllib/requests模块)
urllib模块设置代理如果我们频繁用一个IP去爬取同一个网站的内容,很可能会被网站封杀IP.其中一种比较常见的方式就是设置代理IP from urllib import request proxy ...
免费IP代理池定时维护，封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池，并制作简易流量爬虫
前言我们之前的爬虫都是模拟成浏览器后直接爬取,并没有动态设置IP代理以及UserAgent标识,本文记录免费IP代理池定时维护,封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池,并制作 ...
python之squid实现免费 IP代理 (windows win7 单机本机本地正向代理区分 HTTPS)
0.目录 1.思路2.windows安装3.相关命令行4.简单配置和初步使用5.问题:squid是否支持HTTPS6.问题:配置多个代理条目,相同ip不同port报错7.问题:根据代理请求区分HTTP ...
打造IP代理池，Python爬取Boss直聘，帮你获取全国各类职业薪酬榜
爬虫面临的问题不再是单纯的数据一把抓多数的网站还是请求来了,一把将所有数据塞进去返回,但现在更多的网站使用数据的异步加载,爬虫不再像之前那么方便很多人说js异步加载与数据解析,爬虫可以做到啊,恩 ...
python获取ip代理列表爬虫
最近练习写爬虫,本来爬几张mm图做测试,可是爬到几十张的时候就会返回403错误,这是被网站服务器发现了,把我给屏蔽了. 因此需要使用代理IP.为了方便以后使用,我打算先写一个自动爬取ip代理的爬虫,正 ...
记一次企业级爬虫系统升级改造（六）：基于Redis实现免费的IP代理池
前言: 首先表示抱歉,春节后一直较忙,未及时更新该系列文章. 近期,由于监控的站源越来越多,就偶有站源做了反爬机制,造成我们的SupportYun系统小爬虫服务时常被封IP,不能进行数据采集. 这时候 ...

随机推荐

Typora下载及MarkDown语法详解
写博客的重要性作为一名程序员,写博客已经成了一项基本技能和素养.为什么要写博客?因为它能将我们学习的知识总结起来,提高我们对知识的深层次理解,还能将我们所学知识记录下来,以便于以后回忆.要想写博客, ...
WIN10:IE浏览器的默认主页以及通过链接搜索的默认引擎
主页设置: 地址栏搜索引擎:
2020.9.28 多进程multiprocess 进程池pool 子进程subprocess 进程间通信
1.multiprocessing模块--跨平台版本的多进程模块 multiprocessing模块提供了一个Process类来代表一个进程对象,下面的例子演示了启动一个子进程并等待其结束: from ...
python刷剑指offer（21-40）（一刷）
21.输入两个整数序列,第一个序列表示栈的压入顺序,请判断第二个序列是否可能为该栈的弹出顺序.假设压入栈的所有数字均不相等.例如序列1,2,3,4,5是某栈的压入顺序,序列4,5,3,2,1是该压栈序 ...
SHA算法（及示例）演变历史
安全散列算法(英语:Secure Hash Algorithm,缩写为SHA)是一个密码散列函数家族,是FIPS所认证的安全散列算法.能计算出一个数字消息所对应到的,长度固定的字符串(又称消息摘要)的 ...
Flask 自建扩展
自建扩展介绍 Flask扩展分两类纯功能, 如: Flask-Login 提供用户认证对已有的库和工具包装(简化继承操作,并提供有用的功能,更方便) 如: Flask-SQLAlchemy 包装了 ...
map, reduce和filter（函数式编程）
# map可以用于对可遍历结构的每个元素执行同样的操作,批量操作: map(lambda x: x**2, [1, 2, 3, 4]) # [1, 4, 9, 16] map(lambda x, y: ...
BBS项目分布搭建五(评论相关功能实现)
BBS项目分布搭建五(评论相关) 1. 根评论逻辑实现 # 在models.py文件中修改: # 7. 评论表 parent = models.ForeignKey(to='self', null= ...
Windows 10平台安装PostgreSQL 14.2详细教程
Windows 10平台安装postgreSQL 14.2.1,安装步骤很简单,基本上是点击下一步(next). 使用SQL Shell(psql)进行交互:使用pgAdmin工具进行管理. tips ...
options has an unknown property 'modifyVars'. These properties are valid: 处理方法
webpack 编译时提示 ValidationError: Invalid options object. Less Loader has been initialized using an opt ...

爬虫-ip代理

代理(proxy)

爬虫-ip代理的更多相关文章

随机推荐

热门专题