爬虫 | cnblog文章收藏排行榜(“热门文摘”)
背景说明
因为加入cnblog不久,发现上面有很多优秀的文章。
无意中发现cnblog有整理文章的收藏排行榜,也就是热门文摘.
不过有点坑的是,这个页面不支持搜索,所以就写一个简单的脚本把这些热门文章理出来。
整个爬虫的思路:
- 确定页面的
接口,一般常见的格式是html或者json格式; - 确定页面迭代变量,找到page_index
- 对单页进行测试,包括header信息的配置,以及所需字段的提取;
- 对第
3步中的代码进行封装,放到循环内执行;
页面说明
收藏文章排行的url示例
https://wz.cnblogs.com/hot/All/2
最后一个是页数(page index),这个是后面要放入for循环里的迭代变量.
从页面上的显示来看,最多可以抓100页
需要用的module
import requests,re
import pandas as pd
import lxml.html
import time,sys
单页测试
先测试下单个页面,需要解析出页面下的:
- 文章url
- 文章title
- 收藏数
url = ' https://wz.cnblogs.com/hot/All/2'
# 配置header信息
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
,'Cookie': '这里cookie需要自行填写,需要登陆cnblog账号'
}
r = requests.get(url, headers=headers)
# 页面的编码格式
r.encoding = 'utf-8'
接下来用lxml来解析html页面信息
tree = lxml.html.fromstring(r.text)
# 这个的html路径在chrome浏览器的Elements下很容易查到
item_list = tree.cssselect('div.wz_item_content')
# 一页有20篇收藏的问斩个,所以item_list的长度是20
# 取其中一篇文章来解析
item_tmp = item_list[0]
# 可以用如下命令看看文章的信息是都包含在里面了
# item_tmp.text_content()
x = item_tmp.cssselect('h2 > a')[0]
# 链接,可以用x.items()来查看属性
x.get('href')
# 标题
x.text_content()
# 收藏数
item_tmp.cssselect('span.wz_item_count')[0].text_content()
批量抓取
# 定义list来保存数据
data_info = list()
for page_idx in range(1,100+1):
# 进度提示
sys.stdout.write('\r当前进度 第%d页'%(page_idx))
sys.stdout.flush()
time.sleep(0.1)
url = ' https://wz.cnblogs.com/hot/All/'+str(page_idx)
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
,'Cookie': '请自行配置'
}
r = requests.get(url, headers=headers)
if r.status_code == 200:
r.encoding = 'utf-8'
tree = lxml.html.fromstring(r.text)
item_list = tree.cssselect('div.wz_item_content')
for item_tmp in item_list:
x = item_tmp.cssselect('h2 > a')[0]
# 链接
d_url = x.get('href')
# 标题
d_title = x.text_content()
# 收藏数
d_ucnt = item_tmp.cssselect('span.wz_item_count')[0].text_content()
data_info.append([d_url,d_title,d_ucnt])
数据保存
先将list转成dataframe格式
data_df = pd.DataFrame(data_info)
data_df.columns = ['url','title','ucnt']
data_df.head(3)
接下来我们定义一个函数:从url中提取博客的名称
# 从url中提取博主的名称
# 如果是博客文章,具有的特征有两点:1.www.cnblogs.com 2.后面对接的就是博主的账号名称,名称长度是两位以上的
def extract_name(url):
if 'www' in url:
blog_name = re.findall('.com\/(.*?)\/',url)[0]
if len(blog_name)<2:
blog_name = '无名氏'
else:
blog_name = '无名氏'
return(blog_name)
新增一列,标注博客的名称
data_df['blog_name'] = data_df['url'].apply(lambda x: extract_name(x))
data_df.head(5)
将数据导出成csv格式文件,这样方便搜索
# 备份下数据,后面可能还有用
data_df.to_csv('cnblog_收藏文章排行榜_20200322.csv',index=False)
如果你想直接获取该列表,请访问
百度网盘链接 密码: 3yw4
爬虫 | cnblog文章收藏排行榜(“热门文摘”)的更多相关文章
- 利用Python编写网络爬虫下载文章
#coding: utf-8 #title..href... str0='blabla<a title="<论电影的七个元素>——关于我对电影的一些看法以及<后会无期 ...
- DEDECMS之七 如何实现文章推荐排行榜
经常可以看到各种排行榜,这些文章列表的标题之前加了序号,前三条还有显眼样式 1.实现效果 2.实现方法 <ul class="hotPh1"> {dede:arclis ...
- python爬虫——词云分析最热门电影《后来的我们》
1 模块库使用说明 1.1 requests库 requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库.它比 urllib 更 ...
- python爬虫CSDN文章抓取
版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/nealgavin/article/details/27230679 CSDN原则上不让非人浏览訪问. ...
- 测试cnblog文章内部JS
添加几个按钮 行内js 写法: <button onclick="javascript:alert('行内js')">行内js</button> 注意:al ...
- python python 入门学习之网页数据爬虫cnbeta文章保存
需求驱动学习的动力. 因为我们单位上不了外网所以读新闻是那么的痛苦,试着自己抓取网页保存下来,然后离线阅读.今天抓取的是cnbeta科技新闻,抓取地址是http://m.cnbeta.com/wap/ ...
- WinForm控件使用文章收藏整理完成
对C# WinForm开发系列收集的控件使用方面进行整理, 加入了一些文章, 不断补充充实, 完善这方面. 基础 - 常用控件 C# WinForm开发系列 - CheckBox/Button/Lab ...
- Android文章收藏
Android集 1.Himi李华明的<Android游戏开发专栏>http://blog.csdn.net/column/details/androidgame.html2.老罗的&l ...
- Python 学习文章收藏
作者 标题 rollenholt Python修饰器的函数式编程 - Rollen Holt - 博客园 rollenholt python操作gmail - Rollen Holt - 博客园 ro ...
随机推荐
- 初识Mybatis之工程搭建
简介:MyBatis 是一款优秀的持久层框架,它支持定制化 SQL.存储过程以及高级映射.MyBatis 避免了几乎所有的 JDBC 代码和手动设置参数以及获取结果集.MyBatis 可以使用简单的 ...
- iPhone 8价格狂跌:是国产手机的胜利,还是苹果的黄昏
8价格狂跌:是国产手机的胜利,还是苹果的黄昏" title="iPhone 8价格狂跌:是国产手机的胜利,还是苹果的黄昏"> 其实呢,这年头发布新款智能 ...
- 用Python搭建简单的HTTP服务 · Zhangxu's Blog
分享一个快速用Python搭建简单的HTTP服务的方法. 平时我们可能有需要,传输某个文件到手机,或者工作中某台服务器的电脑. 假如这个手机是个测试手机/服务器,并没有微信QQ之类的软件,而且你也不想 ...
- 会员VS广告:陷入两难抉择的视频网站该如何自救
互联网实在是非常奇妙,其在让一个行业兴起时,却又对传统行业造成严重冲击.比如电商不断创造销售神话,由此成为线下实体店严重萎靡,客流量和销售额直线下降的重要原因之一.但与此同时,因互联网而狂奔的新兴 ...
- Web 通信技术 ——跨文档信息传输(JavaScript)
*/ * Copyright (c) 2016,烟台大学计算机与控制工程学院 * All rights reserved. * 文件名:text.html * 作者:常轩 * 微信公众号:Worldh ...
- 7——PHP选择结构
*/ * Copyright (c) 2016,烟台大学计算机与控制工程学院 * All rights reserved. * 文件名:text.cpp * 作者:常轩 * 微信公众号:Worldhe ...
- 30s源码刨析系列之函数篇
前言 由浅入深.逐个击破 30SecondsOfCode 中函数系列所有源码片段,带你领略源码之美. 本系列是对名库 30SecondsOfCode 的深入刨析. 本篇是其中的函数篇,可以在极短的时间 ...
- python settings 中通过字符串导入模块
1. 项目文件结构 set_test ├─ main.py # 入口函数 │ ├─notify # 自定义的模块 │ ├─ email.py # 自定义模块 │ ├─ msg.py # 自定义模块 │ ...
- LeetCode--链表1-单链表
LeetCode--链表1-单链表 单链表模板 初始化 头部插入 尾部插入 删除节点 Index插入 Index返回对应的节点指针和val值 class MyLinkedList { private: ...
- PHP实现 3des加密解密
<?php /** * 3des加密 */ class Encrypt{ public function pkcs5_pad($text, $blocksize) { $pad = $block ...