python 爬取博客访问量

一、代码

"""

Version: Python3.5

Author: OniOn

Site: http://www.cnblogs.com/TM0831/

Time: 2019/3/11 10:46

"""

import re

import queue

import requests

from lxml import etree

class CrawlQueue:

    def __init__(self):

        """

        初始化

        """

        self.q = queue.Queue()  # 爬取队列

        self.username = input("请输入您的博客名称：")

        self.q.put("http://www.cnblogs.com/" + self.username)

        self.urls = ["http://www.cnblogs.com/" + self.username]  # 记录爬取过的url

        self.result = []  # 储存阅读量数据

    def request(self, url):

        """

        发送请求和解析网页

        :param url: 链接

        :return:

        """

        res = requests.get(url)

        et = etree.HTML(res.text)

        lst = et.xpath('//*[@class="postDesc"]/text()')

        for i in lst:

            num = i.split(" ")[5].lstrip("阅读(").rstrip(")")

            self.result.append(int(num))

        # 下一页

        next_page = re.search('<a href="(.*?)">下一页</a>', res.text)

        if next_page:

            href = next_page.group().split('&nbsp;')[-1].replace('<a href="', '').replace('">下一页</a>', '')

            if href not in self.urls:  # 确保之前没有爬过

                self.q.put(href)

                self.urls.append(href)

    def get_url(self):

        """

        从爬取队列中取出url

        :return:

        """

        if not self.q.empty():

            url = self.q.get()

            self.request(url)

    def main(self):

        """

        主函数

        :return:

        """

        while not self.q.empty():

            self.get_url()

if __name__ == '__main__':

    crawl = CrawlQueue()

    crawl.main()

    print("您的博客总阅读量为：{}".format(sum(crawl.result)))

python 爬取博客访问量的更多相关文章

python爬取博客圆首页文章链接+标题
新人一枚,初来乍到,请多关照来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了. 使用python 爬取博客园首页文章链接和标题. 首先当然是环境了,爬虫在window10系统下,python ...
python之刷博客访问量
通过写刷访问量学习正则匹配说明信息说明:仅仅是为了熟悉正则表达式以及网页结构,并不赞成刷访问量操作. 1.刷访问量第一版 1.1 确定网页url结构,构造匹配模式串首先是要确定刷的网页.第一版实 ...
爬虫---lxml爬取博客文章
上一篇大概写了下lxml的用法,今天我们通过案例来实践,爬取我的博客博客并保存在本地爬取博客园博客爬取思路: 1.首先找到需要爬取的博客园地址 2.解析博客园地址 # coding:utf-8 i ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
python 小爬虫爬取博客文章初体验
最近学习 python 走火入魔,趁着热情继续初级体验一下下爬虫,以前用 java也写过,这里还是最初级的爬取html,都没有用html解析器,正则等...而且一直在循环效率肯定### 很低下 imp ...
python爬取安居客二手房网站数据（转）
之前没课的时候写过安居客的爬虫,但那也是小打小闹,那这次呢, 还是小打小闹哈哈,现在开始正式进行爬虫书写首先,需要分析一下要爬取的网站的结构: 作为一名河南的学生,那就看看郑州的二手房信息吧! 在 ...
使用JAVA爬取博客里面的所有文章
主要思路: 1.找到列表页. 2.找到文章页. 3.用一个队列来保存将要爬取的网页,爬取队头的url,如果队列非空,则一直爬取. 4.如果是列表页,则抽取里面所有的文章url进队:如果是文章页,则直接 ...
Java使用Jsoup之爬取博客数据应用实例
导入Maven依赖  <dependency> <g ...
python: 爬取[博海拾贝]图片脚本
练手代码,聊作备忘: # encoding: utf-8 # from __future__ import unicode_literals import urllib import urllib2 ...
Python爬虫小实践：爬取任意CSDN博客所有文章的文字内容（或可改写为保存其他的元素），间接增加博客访问量
Python并不是我的主业,当初学Python主要是为了学爬虫,以为自己觉得能够从网上爬东西是一件非常神奇又是一件非常有用的事情,因为我们可以获取一些方面的数据或者其他的东西,反正各有用处. 这两天闲 ...

随机推荐

Chrome插件之油猴(详尽版本)
官方文档: https://www.tampermonkey.net/documentation.php#google_vignette 1.注释语法: // @match https://passp ...
HEUCPC2021
stral Reflection 在 \([1,n]\)上支持如下操作: 操作一:学习一个新的技能--清除 \([l,r]\)内所有的陨石操作二:给定一个点集\(k\)代表陨石出现在这些位置,询问最 ...
从Delphi到Lazarus——Lazarus开发环境使用入门教程
0.前言曾经有过更换开发环境体验的编程爱好者都会有同样的感受:打开新更换的开发环境后,看到陌生的界面无从下手.想写一段小程序试一试,却你找不到自己需要的组件在哪里. 其实,我们每到一个新地方,首先要 ...
中电资讯 - 一路“标”升，喜迎Q3开门红
Q2收获满满,Q3精彩再启! 近日,中电金信多项业务取得新进展接连中标多个项目中电金信数字科技集团旗下优智汇咨询中标浙江民泰商业银行信息科技战略发展规划(2022-2025)项目.优智汇将根据民泰 ...
JavaFx helloworld 坑
系统 Linux Mint IDEA 创建的 hello world 项目,用 IDEA 运行就僵住,然而用 mvn clean javafx:run 却能成功----在系统 terminal能成功, ...
Java 基于接口的动态代理
UserDao接口 package com.pry.cn; public interface UserDao { public int add(int a,int b); public String ...
【Linux】CentOS7 远程联机
# CentOS7 远程联机哔哩哔哩萌狼蓝天博客:https://mllt.cc 微信公众号:萌狼蓝天检查与安装配置OpenSSH [CentOS7]检查系统是否安装OpenSSH yum - ...
sed 删除替换文件内容
sed添加一行内容使用sed命令添加一行内容有多种实现方法,下面是几种不同的实现方法: 方法一:使用sed命令在指定行前添加一行内容 sed '2i This is a new line ...
Not all slots covered! Only 5461 slots are available. Set checkSlotsCoverage = false to avoid this check
Not all slots covered! Only 5461 slots are available. Set checkSlotsCoverage = false to avoid this c ...
Qt开发经验小技巧221-225
在对表格数据模型操作的时候,经常遇到一种场景就是,删除某条记录后,希望重新选中某一行.QTableView.QTableWidget本身就支持多选全选等操作,比如批量删除可以多选. //拿到表格数据模 ...

python 爬取博客访问量

python 爬取博客访问量的更多相关文章

随机推荐

热门专题