写在前面

写了一段时间的博客了，忽然间忘记了，其实CSD*博客频道的博客也是可以抓取的，所以我干了.....

其实这事情挺简单的，打开CSDN博客首页，他不是有个最新文章么，这个里面都是最新发布的文章。

打开F12抓取一下数据API，很容易就获取到了他的接口

提取链接长成这个样子

https://blog.csdn.net/api/articles?type=more&category=newarticles&shown_offset=1540381234000000

发现博客最新文章是一个瀑布流页面，不断下拉，只有一个参数shown_offset 在变化，按照我多年的行医经验，这个参数是个时间戳，而且肯定是上一次数据最后一条的时间戳。

基于这个理论，看一下数据，咦，猜对了~~~~~

博客返回的数据看一下，是否对味

撸代码

这个步骤就非常简单了，就是通过requests去抓取这个链接就好了

import requests

import pymongo

import time

START_URL = "https://www.csdn.net/api/articles?type=more&category=newarticles&shown_offset={}"

HEADERS = {

    "Accept":"application/json",

    "Host":"www.csdn.net",

    "Referer":"https://www.csdn.net/nav/newarticles",

    "User-Agent":"你自己的浏览器配置",

    "X-Requested-With":"XMLHttpRequest"

}

def get_url(url):

    try:

        res = requests.get(url,

                           headers=HEADERS,

                           timeout=3)

        articles = res.json()

        if articles["status"]:

            need_data = articles["articles"]

            if need_data:

                collection.insert_many(need_data)  # 数据插入

                print("成功插入{}条数据".format(len(need_data)))

            last_shown_offset = articles["shown_offset"]  # 获取最后一条数据的时间戳

            if last_shown_offset:

                time.sleep(1)

                get_url(START_URL.format(last_shown_offset))

    except Exception as e:

        print(e)

        print("系统暂停60s，当前出问题的是{}".format(url))

        time.sleep(60) # 出问题之后，停止60s，继续抓取

        get_url(url)

数据获取到了，当然要象征性的保存一下，mongo数据库的操作在上一篇文章，你可以去翻翻。

Python爬虫入门教程 17-100 CSD*博客抓取数据的更多相关文章

Python爬虫入门教程 32-100 B站博人传评论数据抓取 scrapy
1. B站博人传评论数据爬取简介今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...
Python爬虫入门教程 20-100 慕课网免费课程抓取
写在前面美好的一天又开始了,今天咱继续爬取IT在线教育类网站,慕课网,这个平台的数据量并不是很多,所以爬取起来还是比较简单的准备爬取打开我们要爬取的页面,寻找分页点和查看是否是异步加载的数据. ...
Python爬虫入门教程 10-100 图虫网多线程爬取
图虫网-写在前面经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy 啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的, ...
Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider
1. 微医挂号网专家团队数据----写在前面今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. github地址: https://github.com ...
Python爬虫入门教程 11-100 行行网电子书多线程爬取
行行网电子书多线程爬取-写在前面最近想找几本电子书看看,就翻啊翻,然后呢,找到了一个叫做周读的网站 ,网站特别好,简单清爽,书籍很多,而且打开都是百度网盘可以直接下载,更新速度也还可以,于是乎, ...
Python爬虫入门教程： All IT eBooks多线程爬取
All IT eBooks多线程爬取-写在前面对一个爬虫爱好者来说,或多或少都有这么一点点的收集癖 ~ 发现好的图片,发现好的书籍,发现各种能存放在电脑上的东西,都喜欢把它批量的爬取下来. 然后放着 ...
Python爬虫入门教程 14-100 All IT eBooks多线程爬取
All IT eBooks多线程爬取-写在前面对一个爬虫爱好者来说,或多或少都有这么一点点的收集癖 ~ 发现好的图片,发现好的书籍,发现各种能存放在电脑上的东西,都喜欢把它批量的爬取下来. 然后放着 ...
Python爬虫入门教程 12-100 半次元COS图爬取
半次元COS图爬取-写在前面今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间联想到了 c ...
Python爬虫入门教程：半次元COS图爬取
半次元COS图爬取-写在前面今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间联想到了 c ...

随机推荐

动态网页获取ajax,post方法,url里面不直接显示参数
记录一下,爬去ajax数据时,需要注意一下是post方法还是get方法,get方法就正常做就行了,但是post方法的话,需要这样,如下 a = requests.request('post',url) ...
Alpha冲刺(4/10)——2019.4.26
作业描述课程软件工程1916|W(福州大学) 团队名称修!咻咻! 作业要求项目Alpha冲刺(团队) 团队目标切实可行的计算机协会维修预约平台开发工具 Eclipse 团队信息队员学号 ...
java简单框架设计
设计框架包可以作为一个工具给大家用,需要有完全不同设计思路给出来,不同于我们去做一个web服务.网站. 或者一个业务微服务,需要从原来使用视角转换成一个构建者视角. 框架或者工具,更多是框架来管理或者 ...
多人合作项目如何去管理git仓库
前记:在git之前依稀记得有SVN去管理代码仓库,现在多用git去管理我们的代码:现在一般的项目大多数是多人同时开发,这样就会存在一个问题就是如何去协调开发:这也是lz当前使用git开发管理的些许经验 ...
ftp无法上传问题
1.背景 ftp服务端和客户端一直未做任何改动,无法上传属于突发状态,除此客户端外其他客户端上传正常客户端(SunOS系统)可以正常连接ftp的xxx21端口,但是传输数据(文件)时无法正常传输上 ...
Java 基础 JRE和JDK的区别
JRE(Java Runtime Environment,Java运行时环境)是Java程序运行所需的软件环境,包含Java虚拟机和Java基础类库. JDK(Java Development Kit ...
PHP调用微信wx_JSSDK录音并播放，
<?php require_once "jssdk.php"; $jssdk = new JSSDK("wx7a862ec806328ca2", &quo ...
关于Promise层层嵌套可读性差问题
Promise 是异步编程的一种解决方案,比传统的解决方案——回调函数和事件——更合理和更强大.它由社区最早提出和实现,ES6 将其写进了语言标准,统一了用法,原生提供了Promise对象 ES6 规 ...
微信小程序统计分析
在微信公众平台社区看到一个不错的东西,小博统计:https://www.wxappdev.com/:用于微信小程序统计分析.
使用Ant Design的select组件时placeholder不生效/不起作用的解决办法
先来说说使用Ant Design和Element-ui的感觉吧. 公司的项目开发中用的是vue+element-ui,使用了一通下来后,觉得element-ui虽然也有一些问题或坑,但这些小问题或坑凭 ...

Python爬虫入门教程 17-100 CSD*博客抓取数据

写在前面

撸代码

Python爬虫入门教程 17-100 CSD*博客抓取数据的更多相关文章

随机推荐

热门专题