Python网络数据采集（1）：博客访问量统计

前言

Python中能够爬虫的包还有很多，但requests号称是“让HTTP服务人类”...口气不小，但的确也很好用。

本文是博客里爬虫的第一篇，实现一个很简单的功能：获取自己博客主页里的访问量。

当然了，爬虫一般肯定逃不掉要用正则表达式（regular expression），因此Python的re包也是十分常用的。

分析

博客园好像目前没有一个页面能访问完某用户所有随笔的功能，每一页只能显示最近十篇...因此需要使用一个循环，每次打开一个page，直到打开之后为空。

当输入https://www.cnblogs.com/maoerbao/default.html?page=1时：

而再随便输一个数，比如输入page=4时，页面为空：

那么我们就提取每一页的“阅读 ( )”里的内容即可。当提取不到信息时，结束循环。

然后发现每一篇的阅读量表现为“阅读 (”+数字，注意这里的括号之前有空格，括号是英文，正则表达式需要转义，数字的位数不确定。

正则表达式中，数字用'\d'描述即可，

出现0-n次用'*'，出现0-n次用'+'，出现0-1次用'?'，

在这里，“阅读”后面必定有数字，因此用'*'或'+'皆可以。

代码

import requests

import re

import datetime

N=[]

i=1

while True:

   url = 'https://www.cnblogs.com/maoerbao/default.html?page='+str(i)

   f = requests.get(url).text

   a = re.findall('阅读 \(\d+',f)

   if len(a)==0:

        break

   for j in a:

        N.append(int(j[4:]))

   i+=1

print('我的博客总量：{}\n'.format(len(N)))

print('总阅读量:{}'.format(sum(N)))

print('最大单篇阅读量:{}'.format(max(N)))

t = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')

print('\n统计时间：'+t)

运行结果

Python网络数据采集（1）：博客访问量统计的更多相关文章

笔记之Python网络数据采集
笔记之Python网络数据采集非原创即采集一念清净, 烈焰成池, 一念觉醒, 方登彼岸网络数据采集, 无非就是写一个自动化程序向网络服务器请求数据, 再对数据进行解析, 提取需要的信息通常, ...
python实现文章或博客的自动摘要(附java版开源项目)
python实现文章或博客的自动摘要(附java版开源项目) 写博客的时候,都习惯给文章加入一个简介.现在可以自动完成了!TF-IDF与余弦相似性的应用(三):自动摘要 - 阮一峰的网络日志http: ...
[python] 网络数据采集操作清单 BeautifulSoup、Selenium、Tesseract、CSV等
Python网络数据采集操作清单 BeautifulSoup.Selenium.Tesseract.CSV等 Python网络数据采集操作清单 BeautifulSoup.Selenium.Tesse ...
用python爬虫监控CSDN博客阅读量
作为一个博客新人,对自己博客的访问量也是很在意的,刚好在学python爬虫,所以正好利用一下,写一个python程序来监控博客文章访问量效果代码会自动爬取文章列表,并且获取标题和访问量,写入exc ...
【转载】国内网站博客数据统计选免费Google Analytics还是百度统计
[转载]国内网站博客数据统计选免费Google Analytics还是百度统计 Google Analytics谷歌统计是我用的第一个网站统计工具,当然现在也一直在用.Google Analytics ...
Python网络数据采集7-单元测试与Selenium自动化测试
Python网络数据采集7-单元测试与Selenium自动化测试单元测试 Python中使用内置库unittest可完成单元测试.只要继承unittest.TestCase类,就可以实现下面的功能. ...
Python网络数据采集6-隐含输入字段
Python网络数据采集6-隐含输入字段 selenium的get_cookies可以轻松获取所有cookie. from pprint import pprint from selenium imp ...
Python网络数据采集4-POST提交与Cookie的处理
Python网络数据采集4-POST提交与Cookie的处理 POST提交之前访问页面都是用的get提交方式,有些网页需要登录才能访问,此时需要提交参数.虽然在一些网页,get方式也能提交参.比如h ...
Python网络数据采集3-数据存到CSV以及MySql
Python网络数据采集3-数据存到CSV以及MySql 先热热身,下载某个页面的所有图片. import requests from bs4 import BeautifulSoup headers ...

随机推荐

【神经网络与深度学习】如何在Caffe中配置每一个层的结构
如何在Caffe中配置每一个层的结构最近刚在电脑上装好Caffe,由于神经网络中有不同的层结构,不同类型的层又有不同的参数,所有就根据Caffe官网的说明文档做了一个简单的总结. 1. Vision ...
C++学习笔记-构造函数和析构函数
构造函数和析构函数是C++的重要组成部分,了解构造函数和析构函数有助于深入了解C++ 构造函数构造函数产生的原因在C++中,有时候需要在对象创建的时候初始化数据,如果采用普通函数的话,每次初始化都 ...
Java 架构师 -- 必读书单
“学习的最好途径就是看书“,这是我自己学习并且小有了一定的积累之后的第一体会. 个人认为看书有两点好处: 1.能出版出来的书一定是经过反复的思考.雕琢和审核的,因此从专业性的角度来说,一本好书的价值远 ...
MessageBox显示位置
假设存在2个窗口类CImDlg与CChatDlg,如果希望MessageBox跟随CChatDlg,方法是 CChatDlg *pDlg = xxx; pDlg->MessageBox();
python的学习之路（四）
#迭代器,取值只能用next方法,不能随意取值name = iter([11,22,33,44])print(name.__next__())print(name.__next__())print(n ...
JAVAEE 7 api.chm
JAVAEE 7 api.chm 链接:https://pan.baidu.com/s/1LUD3oam5B-Hp8tdpfQYk2w 提取码:x1kc
链表-简单练习题1-数据结构实验之链表一：顺序建立链表 SDUT2117
Problem Description 输入N个整数,按照输入的顺序建立单链表存储,并遍历所建立的单链表,输出这些数据. Input 第一行输入整数的个数N:第二行依次输入每个整数. Output 输 ...
# jsp及servlet学习笔记
目录 jsp及servlet学习笔记 JSP(Java Server Page Java服务端网页) 指令和动作: servlet(小服务程序) jsp及servlet学习笔记 JSP(Java Se ...
SVN简单流程总结
1 创建仓库 2 启动svn服务器 svnserve -d -r 仓库地址(如:D:\SVN\repoDemo1) 3 新的用户第一次与服务器交互时,需要使用checkout将仓库检出到本 ...
linux小白家教学<一>
<数据中心规划与实施> 教学大纲编写人:Allen 一. 课程教学内容及目标: (一) 知识目标 1.掌握企业级LINUX部署以及相关配置: 2.掌握LINUX操作系统基本的创建.删除 ...

Python网络数据采集（1）：博客访问量统计

Python网络数据采集（1）：博客访问量统计的更多相关文章

随机推荐

热门专题