python3爬取CSDN个人所有文章列表页

前言

我之前写了下载单篇文章的接口函数，结合这篇写的，就可以下载所有个人的所有文章了

代码实现

没什么技术含量就是简单的 xpath 处理，不过有意思的是有一位csdn 员工将自己的博客地址写到源码里面了，是一个隐藏的 div, 不过在代码中我已经给过滤掉了。
优化了响应时长，毕竟需要分页爬去，如果不用多线程响应时间必然会随着文章分页的增多而增多。
传递了一个列表给各个的线程，多线程共用一个列表，但是我没给列表访问的时候加锁，我认为没有删除列表中的元素的情况下，列表中的数据不会损失的，只不过添加顺序是变化的（如果这条想法不对，请评论大神一定要给我解答一下），最后根据更新文章时间重新对各个文章进行排序（捞干的就是一个列表中包含多个字典，要求根据字典指定的键值进行字典的排序），用到了 opertor 这个库

代码实现

import requests

from lxml import etree

import re

import threading

import operator

def get_page(url):

    response = requests.get(url)

    all_page = int(re.findall('var listTotal = (.*?) ;',response.text)[0])//20 +1

    return all_page

def parse_article(url,article_list):

    response = requests.get(url).text

    x = etree.HTML(response)

    x= x.xpath('//div[(@class="article-item-box csdn-tracking-statistics")][not(@style="display: none;")]')

    # article_list = []

    for item in x:

        title = item.xpath('h4/a/text()')[1].strip()

        url = item.xpath('h4/a/@href')[0]

        pubdata = item.xpath('div[@class="info-box d-flex align-content-center"]/p/span[@class="date"]/text()')[0]

        pageviews = item.xpath('div[@class="info-box d-flex align-content-center"]/p[3]/span/span/text()')[0]

        comments = item.xpath('div[@class="info-box d-flex align-content-center"]/p[5]/span/span/text()')[0]

        article = dict(

        title = title,

        url = url,

        pubdata = pubdata,

        pageviews = pageviews,

        comments = comments

            )

        article_list.append(article)

    # print(article_list)

def main(url):

    main_url = url

    all_page = get_page(url)

    thread_list = []

    data = []

    for page in range(1,all_page+1):

        url = main_url + '/article/list/' + str(page)

        t = threading.Thread(target=parse_article,args=(url,data))

        t.start()

        thread_list.append(t)

    for t in thread_list:

        t.join()

    data.sort(key=operator.itemgetter('pubdata'))

    print(data,len(data))

if __name__ == '__main__':

    url = 'https://blog.csdn.net/chouzhou9701'

    main(url)

python3爬取CSDN个人所有文章列表页的更多相关文章

Python实现抓取CSDN热门文章列表
1.使用工具: Python3.5 BeautifulSoup 2.抓取网站: csdn热门文章列表 http://blog.csdn.net/hot.html 3.分析网站代码: 4.实现代码: _ ...
信息领域热词分析系统--java爬取CSDN中文章标题即链接
package zuoye1; import java.sql.Connection;import java.sql.PreparedStatement;import java.sql.SQLExce ...
第4章 scrapy爬取知名技术文章网站(2)
4-8~9 编写spider爬取jobbole的所有文章 # -*- coding: utf-8 -*- import re import scrapy import datetime from sc ...
[Python学习] 简单爬取CSDN下载资源信息
这是一篇Python爬取CSDN下载资源信息的样例,主要是通过urllib2获取CSDN某个人全部资源的资源URL.资源名称.下载次数.分数等信息.写这篇文章的原因是我想获取自己的资源全部的评论信息. ...
python3爬取女神图片，破解盗链问题
title: python3爬取女神图片,破解盗链问题 date: 2018-04-22 08:26:00 tags: [python3,美女,图片抓取,爬虫, 盗链] comments: true ...
Python scrapy爬取带验证码的列表数据
首先所需要的环境:(我用的是Python2的,可以选择python3,具体遇到的问题自行解决,目前我这边几百万的数据量爬取) 环境: Python 2.7.10 Scrapy Scrapy 1.5.0 ...
Python3爬取人人网（校内网）个人照片及朋友照片，并一键下载到本地~~~附源代码
题记: 11月14日早晨8点,人人网发布公告,宣布人人公司将人人网社交平台业务相关资产以2000万美元的现金加4000万美元的股票对价出售予北京多牛传媒,自此,人人公司将专注于境内的二手车业务和在美国 ...
python3爬取微博评论并存为xlsx
python3爬取微博评论并存为xlsx**由于微博电脑端的网页版页面比较复杂,我们可以访问手机端的微博网站,网址为:https://m.weibo.cn/一.访问微博网站,找到热门推荐链接我们打开微 ...
python 使用selenium模块爬取同一个url下不同页的内容（浏览器模拟人工翻页）
页面翻页,下一页可能是一个新的url 也有可能是用js进行页面跳转,url不变,解决方法是实现浏览器模拟人工翻页目标:爬取同一个url下不同页的数据(上述第二种情况) url:http://www. ...
Python3 爬取微信好友基本信息，并进行数据清洗
Python3 爬取微信好友基本信息,并进行数据清洗 1,登录获取好友基础信息: 好友的获取方法为get_friends,将会返回完整的好友列表. 其中每个好友为一个字典列表的第一项为本人的账号信息 ...

随机推荐

【Java面试】面试遇到宽泛的问题，这么回答就稳了，谈谈你对Redis的理解
"谈谈你对Redis的理解"! 面试的时候遇到这类比较宽泛的问题,是不是很抓狂? 是不是不知道从何开始说起? 没关系,今天我用3分钟教你怎么回答. 大家好,我是Mic,一个工作了1 ...
【微服务】- Nacos - 注册中心
微服务 - 注册中心 - Nacos 生命不息,写作不止继续踏上学习之路,学之分享笔记总有一天我也能像各位大佬一样一个有梦有戏的人 @怒放吧德德分享学习心得,欢迎指正,大家一起学习成长! 上一 ...
【学习笔记】Vins-Mono论文阅读笔记（二）
估计器初始化简述单目紧耦合VIO是一个高度非线性的系统,需要在一开始就进行准确的初始化估计.通过将IMU预积分与纯视觉结构进行松耦合对齐,我们得到了必要的初始值. 理解:这里初始化是指通过之前imu ...
MinIO监控指南
官方文档地址:http://docs.minio.org.cn/docs/master/minio-monitoring-guide MinIO服务器通过端点公开监视数据.监视工具可以从这些端点中选择 ...
18个一线工作中常用的Shell脚本
1.检测两台服务器指定目录下的文件一致性 #!/bin/bash ###################################### 检测两台服务器指定目录下的文件一致性 ######### ...
filebeat中增加其他参数用来区分不同的日志来源示例
filebeat.yml配置文件参数在source里加入了一个fields叫做"appach: true". filebeat.inputs: - type: log enabl ...
举例：Network Policies
本文描述了如何在 Kubernetes 集群中通过创建 NetworkPolicy 的方式来声明网络策略,以管理 Pod 之间的网络通信流量. 前提条件创建一个Deployment并配置Servic ...
flask-bootstrap 模版中所需的CSS/JS文件实现本地引入
Flask-Bootstrap默认是加载CDN的css与js文件,每次刷新页面都要访问到外网的cdn来获取css与js文件; 模版扩展来自于bootstrap/base.html,就以bootstra ...
spring cron表达式源码分析
spring cron表达式源码分析在springboot中,我们一般是通过如下的做法添加一个定时任务上面的new CronTrigger("0 * * * * *")中的参数 ...
Ubuntu转到root用户后用户名路径没有颜色
看到好多都直接把普通会用户的.bashrc配置复制到root家目录下,由于本人小白,很多.bashrc配置看不懂,也不敢随便修改.于是找到别的配置方法. 普通用户的os@a:~$和root用户的roo ...

python3爬取CSDN个人所有文章列表页

前言

代码实现

python3爬取CSDN个人所有文章列表页的更多相关文章

随机推荐

热门专题