免费 IP 代理池示例

使用文档

import requests

import re

import random

from concurrent.futures import ThreadPoolExecutor

import time

start = time.time()

pool = ThreadPoolExecutor(12)

def get_proxy():

    return requests.get('http://127.0.0.1:5010/get/').json()

def delete_proxy(proxy):

    requests.get("http://127.0.0.1:5010/delete/?proxy={}".format(proxy))

url = 'https://www.pearvideo.com/category_loading.jsp?reqType=5&categoryId=9&start=0'

video_list=[]

ret = requests.get(url)

reg = '<a href="(.*?)" class="vervideo-lilink actplay">'

video_urls = re.findall(reg, ret.text)

print(video_urls)

for url in video_urls:

    proxy = get_proxy().get('proxy')

    print(proxy)

    try:

        ret_detail = requests.get('https://www.pearvideo.com/' + url, proxies={"http": "http://{}".format(proxy)})

        print(proxy)

        reg = 'srcUrl="(.*?)",vdoUrl=srcUrl'

        mp4_url = re.findall(reg, ret_detail.text)[0]  # type:str

        video_name = mp4_url.rsplit('/', 1)[-1]

        dic = {

            'v_name': video_name,

            'v_url': mp4_url

        }

        video_list.append(dic)

    except Exception:

        delete_proxy(proxy)

def get_video(dic):

    url = dic['v_url']

    name = dic['v_name']

    print(f'开始下载{name}')

    video_data = requests.get(url=url)

    print(url)

    with open(name, 'wb') as f:

        for line in video_data.iter_content():

            f.write(line)

        print(f'{name}下载完成')

        end = time.time()

        ctime = end - start

        print(ctime)

print(video_list)

def main():

    for url in video_list:

        done = pool.submit(get_video, url)

if __name__ == '__main__':

    main()

    pool.shutdown(wait=True)

免费 IP 代理池示例的更多相关文章

免费IP代理池定时维护，封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池，并制作简易流量爬虫
前言我们之前的爬虫都是模拟成浏览器后直接爬取,并没有动态设置IP代理以及UserAgent标识,本文记录免费IP代理池定时维护,封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池,并制作 ...
记一次企业级爬虫系统升级改造（六）：基于Redis实现免费的IP代理池
前言: 首先表示抱歉,春节后一直较忙,未及时更新该系列文章. 近期,由于监控的站源越来越多,就偶有站源做了反爬机制,造成我们的SupportYun系统小爬虫服务时常被封IP,不能进行数据采集. 这时候 ...
爬取西刺ip代理池
好久没更新博客啦~,今天来更新一篇利用爬虫爬取西刺的代理池的小代码先说下需求,我们都是用python写一段小代码去爬取自己所需要的信息,这是可取的,但是,有一些网站呢,对我们的网络爬虫做了一些限制, ...
scrapy_随机ip代理池
什么是ip代理? 我们电脑访问网站,其实是访问远程的服务器,通过ip地址识别是那个机器访问了服务器,服务器就知道数据该返回给哪台机器,我们生活中所用的网络是局域网,ip是运营商随机分配的,是一种直接访 ...
Python爬虫之ip代理池
可能在学习爬虫的时候,遇到很多的反爬的手段,封ip 就是其中之一. 对于封IP的网站.需要很多的代理IP,去买代理IP,对于初学者觉得没有必要,每个卖代理IP的网站有的提供了免费IP,可是又很少,写了 ...
python之squid实现免费 IP代理 (windows win7 单机本机本地正向代理区分 HTTPS)
0.目录 1.思路2.windows安装3.相关命令行4.简单配置和初步使用5.问题:squid是否支持HTTPS6.问题:配置多个代理条目,相同ip不同port报错7.问题:根据代理请求区分HTTP ...
使用免费ip代理进行投票
只要是投票系统,必然要限制一个用户投多张票. 如何限制呢?限制ip是最直观最简单的思路,可是代理池可以解决限制ip的情况. 如果投票页面前面加上一个验证码,那程序就会有点困难了. 有些投票使用微信号, ...
python开源IP代理池--IPProxys
今天博客开始继续更新,谢谢大家对我的关注和支持.这几天一直是在写一个ip代理池的开源项目.通过前几篇的博客,我们可以了解到突破反爬虫机制的一个重要举措就是代理ip.拥有庞大稳定的ip代理,在爬虫工作中 ...
反爬虫之搭建IP代理池
反爬虫之搭建IP代理池听说你又被封 ip 了,你要学会伪装好自己,这次说说伪装你的头部.可惜加了header请求头,加了cookie 还是被限制爬取了.这时就得祭出IP代理池!!! 下面就是requ ...

随机推荐

「雕爷学编程」Arduino动手做（34）——三色LED交通灯模块
37款传感器与模块的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止37种的.鉴于本人手头积累了一些传感器和模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的,这里 ...
AI技术原理|机器学习算法
摘要机器学习算法分类:监督学习.半监督学习.无监督学习.强化学习基本的机器学习算法:线性回归.支持向量机(SVM).最近邻居(KNN).逻辑回归.决策树.k平均.随机森林.朴素贝叶斯.降维.梯度增 ...
Django之ORM对象关系模型
MVC或者MVC框架中包括一个重要的部分,就是ORM,它实现了数据模型与数据库的解耦,即数据模型的设计不需要依赖于特定的数据库,通过简单的配置就可以轻松更换数据库,这极大的减轻了开发人员的工作量,不需 ...
hdu3861他的子问题是poj2762二分匹配+Tarjan+有向图拆点其实就是求DAG的最小覆盖点
The King’s Problem Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Other ...
一篇文教你使用python Turtle库画出“精美碎花小清新风格树”快来拿代码！
Turtle库手册可以查询查询 python图形绘制库turtle中文开发文档及示例大全,手册中现有示例,不需要自己动手就可以查看演示. 使用Turtle画树,看了一下网上的代码,基本上核心的方法是使 ...
centos8.0安装docker & docker-compose
centos8.0安装docker&docker-compose 背景简介: 现在centos已经到了8 ,一直在接触容器方面,为了尝鲜,下载了CentOS8,并尝试安装docker& ...
ExtJS动态隐藏Panel中按钮
1.直接隐藏在bbar的按钮中直接加属性:hidden : true 属性,可隐藏:disabled : true 属性,可禁用在columns列中直接加属性:hidden : true 属性,可 ...
js生成一个上限跟下限的随机数
function sj() { //x上限,y下限 var x = 2000; var y = 1800; var rand = parseInt(Math.random() * (x - y + 1 ...
docker的file内容解释
关键字---重点啊) FROM 基础镜像,当前新镜像是基于哪个镜像的 MAINTAINER 镜像维护者的姓名和邮箱地址 RUN 容器构建时需要运行的命令 EXPOSE 当前容器对外暴露的端口 WO ...
JedisPool的使用-连接池
为什么要使用JedisPool 1,获取Jedis实例需要从JedisPool中获取 2,用完Jedis实例需要返还给JedisPool 3,如果Jedis在使用过程中出错,则也需要还给JedisPo ...

免费 IP 代理池示例

免费 IP 代理池示例的更多相关文章

随机推荐

热门专题