python requests、xpath爬虫增加博客访问量

这是一个分析IP代理网站，通过代理网站提供的ip去访问CSDN博客，达到以不同ip访同一博客的目的，以娱乐为主，大家可以去玩一下。

首先，准备工作，设置User-Agent:

#1.headers

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0'}

然后百度一个IP代理网站，我选用的是https://www.kuaidaili.com/free，解析网页，提取其中的ip、端口、类型，并以list保存：

#1.获取IP地址

html=requests.get('https://www.kuaidaili.com/free').content.decode('utf8')

tree = etree.HTML(html)

ip = tree.xpath("//td[@data-title='IP']/text()")

port=tree.xpath("//td[@data-title='PORT']/text()")

model=tree.xpath("//td[@data-title='类型']/text()")

接着分析个人博客下的各篇文章的url地址，以list保存

#2.获取CSDN文章url地址   ChildrenUrl[]

url='https://blog.csdn.net/weixin_43576564'

response=requests.get(url,headers=headers)

Home=response.content.decode('utf8')

Home=etree.HTML(Home)

urls=Home.xpath("//div[@class='article-item-box csdn-tracking-statistics']/h4/a/@href")

ChildrenUrl=[]

然后通过代理ip去访问个人博客的各篇文章，通过for循环，一个ip将所有文章访问一遍，通过解析"我的博客"网页，获取总浏览量，实时监控浏览量是否发生变化，设置任务数，实时显示任务进度，通过random.randint()设置sleep时间，使得spider更加安全。全代码如下：

import os

import time

import random

import requests

from lxml import etree

#准备部分

#1.headers

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0'}

#1.获取IP地址

html=requests.get('https://www.kuaidaili.com/free').content.decode('utf8')

tree = etree.HTML(html)

ip = tree.xpath("//td[@data-title='IP']/text()")

port=tree.xpath("//td[@data-title='PORT']/text()")

model=tree.xpath("//td[@data-title='类型']/text()")

#2.获取CSDN文章url地址   ChildrenUrl[]

url='https://blog.csdn.net/weixin_43576564'

response=requests.get(url,headers=headers)

Home=response.content.decode('utf8')

Home=etree.HTML(Home)

urls=Home.xpath("//div[@class='article-item-box csdn-tracking-statistics']/h4/a/@href")

ChildrenUrl=[]

for i in range(1,len(urls)):

    ChildrenUrl.append(urls[i])

oldtime=time.gmtime()

browses=int(input("输入需要访问次数："))

browse=0

#3.循环伪装ip并爬取文章

for i in range(1,len(model)):

    #设计代理ip

    proxies={model[i]:'{}{}'.format(ip[i],port[i])}

    for Curl in ChildrenUrl:

        try:

            browse += 1

            print("进度：{}/{}".format(browse,browses),end="\t")

            #遍历文章

            response=requests.get(Curl,headers=headers,proxies=proxies)

            #获取访问人数

            look=etree.HTML(response.content)

            Nuwmunber=look.xpath("//div[@class='grade-box clearfix']/dl[2]/dd/text()")

            count=Nuwmunber[0].strip()

            print("总浏览量：{}".format(count),end="\t")

            '''

            重新实现

            #每个IP进行一次查询

            if Curl==ChildrenUrl[5]:

                ipUrl='http://www.ip138.com/'

                response=requests.get(ipUrl,proxies=proxies)

                iphtml=response.content

                ipHtmlTree=etree.HTML(iphtml)

                ipaddress=ipHtmlTree.xpath("//p[@class='result']/text()")

                print(ip[i],ipaddress)

            '''

            i = random.randint(5, 30)

            print("间隔{}秒".format(i),end="\t")

            time.sleep(i)

            print("当前浏览文章地址:{}".format(Curl))

            if browse == browses:

                print("已完成爬取任务,共消耗{}秒".format(int(time.perf_counter())))

                os._exit(0)

        except:

            print('error')

            os._exit(0)

    #打印当前代理ip

    print(proxies)

实际运行效果图：

python requests、xpath爬虫增加博客访问量的更多相关文章

Python爬虫小实践：爬取任意CSDN博客所有文章的文字内容（或可改写为保存其他的元素），间接增加博客访问量
Python并不是我的主业,当初学Python主要是为了学爬虫,以为自己觉得能够从网上爬东西是一件非常神奇又是一件非常有用的事情,因为我们可以获取一些方面的数据或者其他的东西,反正各有用处. 这两天闲 ...
python之刷博客访问量
通过写刷访问量学习正则匹配说明信息说明:仅仅是为了熟悉正则表达式以及网页结构,并不赞成刷访问量操作. 1.刷访问量第一版 1.1 确定网页url结构,构造匹配模式串首先是要确定刷的网页.第一版实 ...
python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客
python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客 undefined Python多线程抓取代理服务器 | Linux运维笔记 undefined java如 ...
用Python和Django实现多用户博客系统（二）——UUBlog
这次又更新了一大部分功能,这次以app的形式来开发. 增加博客分类功能:博客关注.推荐功能(ajax实现) 增加二级频道功能更多功能看截图及源码,现在还不完善,大家先将就着看.如果大家有哪些功能觉的 ...
Orchard官方文档翻译(八) 为站点增加博客
原文地址:http://docs.orchardproject.net/Documentation/Adding-a-blog-to-your-site 想要查看文档目录请用力点击这里最近想要学习了 ...
这几天有django和python做了一个多用户博客系统（可选择模板）
这几天有django和python做了一个多用户博客系统(可选择模板) 没完成,先分享下断断续续2周时间吧,用django做了一个多用户博客系统,现在还没有做完,做分享下,以后等完善了再慢慢说做的 ...
python环境变量配置 - CSDN博客
一.下载: 1.官网下载python3.0系列(https://www.python.org/) 2.下载后图标为: 二.安装: Window下: 1.安装路径: 默认安装路径:C:\python35 ...
(最新)使用爬虫刷CSDN博客访问量——亲测有效
说明:该篇博客是博主一字一码编写的,实属不易,请尊重原创,谢谢大家! 1.概述前言:前两天刚写了第一篇博客https://blog.csdn.net/qq_41782425/article/deta ...
Python网络数据采集（1）：博客访问量统计
前言 Python中能够爬虫的包还有很多,但requests号称是“让HTTP服务人类”...口气不小,但的确也很好用. 本文是博客里爬虫的第一篇,实现一个很简单的功能:获取自己博客主页里的访问量. ...

随机推荐

HTML连载8-video标签
一.video标签 1.作用:播放视频 2.格式:<video src="视频地址“></video> 3.可添加的属性: (1)autoplay="au ...
js与原生进行交互
由于最近做的项目我作为web前端要和原生开发者合作,所以就去踩了踩坑. 这个功能是在h5页面上点击按钮关闭当前页面. function click_fn() { var u = navigator.u ...
List中的set方法和add方法
public class TestList {public static void main(String[] args){ List l1 = new LinkedList(); for(i ...
auth-booster配置和使用（yii1.5）
auth-booster这个是一个yii框架扩展中的一个模块.是非常好用的(但是里面的说明都是英文的,所以国人用还需要改一点里面的汉化) 1.下载auth-booster这个:http://www.y ...
Knative 初体验：Build Hello World
作者 | 阿里云智能事业群技术专家冬岛 Build 模块提供了一套 Pipeline 机制.Pipeline 的每一个步骤都可以执行一个动作,这个动作可以是把源码编译成二进制.可以是编译镜像也可以是 ...
HDU 5113：Black And White（DFS）
题目链接题意给出一个n*m的图,现在有k种颜色让你对这个图每个格子染色,每种颜色最多可以使用col[i]次,问是否存在一种染色方案使得相邻格子的颜色不同. 思路以为是构造题,结果是爆搜.对于每一 ...
嵊州D2T2 八月惊魂全排列 next_permutation()
嵊州D2T2 八月惊魂这是一个远古时期的秘密,至今已无人关心. 这个世界的每个时代可以和一个 1 ∼ n 的排列一一对应. 时代越早,所对应的排列字典序就越小. 我们知道,公爵已经是 m 个时代前的 ...
.Net Core 使用百度UEditor编辑器
一.准备文件 1. 下载UEditor官方版本.删除其中后端文件.保留后端文件夹中的config.json文件 2. 在NuGet管理器中搜索UEditorNetCore,拿到项目地址,下载源码下载 ...
GreenPlum完全安装_GP5.11.3完整安装
1 概述 1.1 背景 1.2 目标 1.3 使用对象 2 配置系统信息 2.1 配置系统信息,做安装Greenplum的准备工作 Greenplum 数据库版本5.11.3 2.1.1 Greenp ...
Greenplum+mybatis问题解析
1. 问题描述同事团队在使用springboot+mybatis+Greenplum时,发现通过mybatis数据查询正常,但是执行insert和update执行会报"Cause: org ...

python requests、xpath爬虫增加博客访问量

python requests、xpath爬虫增加博客访问量的更多相关文章

随机推荐

热门专题