python爬虫之建立代理池（一）_CodingInCV的博客-CSDN博客

 python爬虫之建立代理池（二）_CodingInCV的博客-CSDN博客

前面2篇分别介绍了从2个免费代理网站爬取免费代理来构建我们自己的代理池。这一篇我们从实战的角度来将我们的代理池用起来，通过代理的方式访问我们的CSDN博客（CSDN会认为是一次访问，访问量+1）,从而实现访问量的增长，仅供学习爬虫使用···

获取博客文章列表和链接

获取博客列表的链接是https://blog.csdn.net/xxx/article/list/, 通过在后面添加页数，获取不同页的博客列表。

通过分析页面的html，我们可以知道文章都在html的“article-item-box”中，因此我们可以通过在返回的html中查找“article-item-box”来得到所有的文章链接。

html_text = requests.get(url=url, headers=type(self).headers).text

arts = []

soup = BeautifulSoup(html_text, 'html.parser')

articles = soup.findAll('div', {"class": "article-item-box"})

for art in articles:

	tag_a = art.find_next('a')  # 搜索a标签

	url = tag_a.attrs['href']   # 文章链接

	read_num = int((art.find_next('span', {'class': 'read-num'}).text))  # 文章阅读数量

	title = tag_a.text.replace('\n', '')  # 文章标题

	arts.append({

		'title': title,

		'url': url,

		'read_num': read_num

	})

通过代理访问CSDN文章

proxy = self.local_proxy.get_one_proxy()

blog = self.csdn_blog.get_one_blog()

blog_url = blog['url']

headers = {

	'User-Agent': self._refresh_headers()

}

proxies = {

	k:v for k, v in proxy.items() if k !="unusable_cnt"

}

r = requests.get(blog_url, headers=headers, proxies=proxies, timeout=5)

if r.status_code != 200:

	raise Exception('status_code is not 200')

通过设置requests接口的proxies参数，即可以代理的方式访问CSDN的博客。为了更像一个真正的浏览器，我们还要经常切换User-Agent，也就是浏览器的头。

进阶

User-Agent

The Latest and Most Common User Agents List (Updated Weekly)

我们可以从这个网站下载User-Agent列表，每次访问时从中随机一个。

代理池管理

前面只是从代理网站爬取了代理，为了有效管理，我们可以在这些代理基础上，进一步开发代理池的持久化功能，比如当有代理增加或者删除时，立即保存到本地；也可以将代理保存到redis, 实时更新，要获取代理时，也从redis中获取。简单起见，这里以保存到本地json为例：

class ProxyPool:

    lock = Lock()

    def __init__(self):

        self.proxy_file = "proxy.json"

        self.proxies = {}

        self.load_proxies()

    def _dump_proxies(self):

        with self.lock:

            with open(self.proxy_file, "w") as f:

                json.dump(self.proxies, f)

    def load_proxies(self):

        if not os.path.exists(self.proxy_file):

            return

        with open(self.proxy_file, "r") as f:

            self.proxies = json.load(f)

    def set_proxies(self, proxies):

        self.proxies.update(proxies)

        self._dump_proxies()

    def get_one_proxy(self):

        if len(self.proxies) == 0:

            return None

        proxy = random.choice(list(self.proxies.keys()))

        return json.loads(proxy)

    def get_unusable_cnt(self, proxy):

        proxy = json.dumps(proxy)

        if proxy not in self.proxies:

            return 0

        return self.proxies[proxy]

    def remove_proxy(self, proxy):

        proxy = json.dumps(proxy)

        if proxy not in self.proxies:

            return

        self.proxies.pop(proxy)

        self._dump_proxies()

    def update_proxy_unusable_cnt(self, proxy, cnt=0):

        proxy = json.dumps(proxy)

        if proxy not in self.proxies:

            return

        self.proxies[proxy] = cnt

        self._dump_proxies()

定时爬取最新的代理和文章列表

可以借助apscheduler建立2个定时任务,免去自己手动实现定时任务：

from apscheduler.schedulers.blocking import BlockingScheduler

self.scheduler = BlockingScheduler()    

self.scheduler.add_job(self._refresh_proxy_and_blog, 'interval', hours=24, next_run_time=datetime.now())

self.scheduler.add_job(self.read_jobs, 'interval', hours=24,next_run_time=datetime.now())

完整代码：

面包多：https://mbd.pub/o/bread/ZJuam5lx

Python爬虫实战之提高CSDN访问量的更多相关文章

Python爬虫实战——反爬策略之模拟登录【CSDN】
在<Python爬虫实战-- Request对象之header伪装策略>中,我们就已经讲到:=="在header当中,我们经常会添加两个参数--cookie 和 User-Age ...
路飞学城—Python爬虫实战密训班第三章
路飞学城—Python爬虫实战密训班第三章一.scrapy-redis插件实现简单分布式爬虫 scrapy-redis插件用于将scrapy和redis结合实现简单分布式爬虫: - 定义调度器 - ...
路飞学城—Python爬虫实战密训班第二章
路飞学城—Python爬虫实战密训班第二章一.Selenium基础 Selenium是一个第三方模块,可以完全模拟用户在浏览器上操作(相当于在浏览器上点点点). 1.安装 - pip instal ...
【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
Python爬虫实战（4）：豆瓣小组话题数据采集—动态网页
1, 引言注释:上一篇<Python爬虫实战(3):安居客房产经纪人信息采集>,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功.本篇是针对动态网页的数据 ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
Python爬虫实战七之计算大学本学期绩点
大家好,本次为大家带来的项目是计算大学本学期绩点.首先说明的是,博主来自山东大学,有属于个人的学生成绩管理系统,需要学号密码才可以登录,不过可能广大读者没有这个学号密码,不能实际进行操作,所以最主要的 ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...

随机推荐

vsftpd[9183]: warning: can't get client address: Socket operation on non-socket
今天在linux redhat7.2下执行service vsftpd start一直不能开启vsftpd服务,本来怀疑SELINUX的问题(其他ftp下载问题可以看下我的另外一篇博客Linux下ft ...
AutoCAD二次开发系列教程01-如何在AutoCAD中输出Hello World
目录 01项目环境准备 02代码示例 03输出示例 04总结 05源码地址 01项目环境准备 A.开发使用的软件:AutoCAD2016.VisualStudio2022 B.建立依赖的本地库(提前从 ...
Java 新的生态型应用开发框架，Solon v2.2.14 发布
Java 新的生态型应用开发框架,Solon :更快.更小.更简单.从零开始构建,有自己的标准规范与开放生态: 150多个生态插件,可以满足各种场景开发大量的国产框架适配,可以为应用软件国产化提供更 ...
shell自动化脚本，启动、停止应用程序
#!/usr/bin/env bash # 常量初始化 set_runtime_vars(){ # 日期时间 Now_Date=`date +"%Y-%m-%d %H:%M:%S" ...
Python获取jsonp数据
使用python爬取数据时,有时候会遇到jsonp的数据格式,由于不是json的,所以不能直接使用json.loads()方法来解析,需要先将其转换为json格式,再进行解析.在前面讲了jsonp的原 ...
2020-11-24：n个物品每个物品都有一定价值，分给2个人，怎么分两个人的价值差最小？
福哥答案2020-11-24: 背包问题:背包容量是SUM/2. 每个物体的体积是数的大小,然后尽可能的装满背包. golang代码如下: package main import ( "fm ...
2021-03-19：给定一个二维数组matrix，其中的值不是0就是1，返回全部由1组成的最大子矩形，内部有多少个1。
2021-03-19:给定一个二维数组matrix,其中的值不是0就是1,返回全部由1组成的最大子矩形,内部有多少个1. 福大大答案2021-03-19: 按行遍历二维数组,构造直方图. 单调栈,大 ...
2021-05-08：给定两个非负数组x和hp，长度都是N，再给定一个正数range。x有序，x[i]表示i号怪兽在x轴上的位置；hp[i]表示i号怪兽的血量。range表示法师如果站在x位置，用A
2021-05-08:给定两个非负数组x和hp,长度都是N,再给定一个正数range.x有序,x[i]表示i号怪兽在x轴上的位置:hp[i]表示i号怪兽的血量 .range表示法师如果站在x位置,用A ...
defer有什么用呢
1. 简介本文将从一个资源回收问题引入,引出defer关键字,并对其进行基本介绍.接着,将详细介绍在资源回收.拦截和处理panic等相关场景下defer的使用. 进一步,介绍defer的执行顺序,以 ...
IBM小型机 - 检测码：B150B10C，设备卡住不运行
检测码:B150B10C 问题开机后,出现检测码:B150B10C,然后就卡在这里不动,无法进行下一步: 这里的错误码表示--机器的内存控制模块被deconfig(取消配置): 解决方法登录cel ...

Python爬虫实战之提高CSDN访问量