关于CSDN获取博客内容接口的x-ca-signature签名算法研究

前言

源码下载
不知道怎么就不通过了，这篇文章放出去几个月了，然后突然告诉我不行了，所以我打算换个平台（至少不能在一棵树吊死），垃圾审核

我最初想直接获取html博客，然后保存在本地，最后发布到别的博客平台，但是html直接爬取样式布局方面很不协调，所以我决定寻早我原始的markdown格式（我都是用markdown写的，而不是用富文本编辑器）

接口

简单调试得到 https://bizapi.csdn.net/blog-console-api/v3/editor/getArticle?id=109204774&model_type= 这个接口
内容：

返回内容是json, 其中 markdowncontent 字段就是 markdown原始数据，简单访问一下，发现访问失败，但是我在请求头和响应头中发现了门道：

很明显是请求头中少东西了，经过研究，请求头中应带

这几个东西，简单调试js发现x-ca-key 和 x-ca-signature-headers是一个常量，而通过名字也能明白，x-ca-nonce是每一次请求都需要从新生成的, 而 x-ca-signature 是一个经过x-ca-nonce和url结合的后加密后得到的，具体如何调试js我就不说了（比较复杂费时间），直接上代码

import hashlib

import hmac

from base64 import b64decode,b64encode

import random

import requests

import http.cookiejar as cookielib

from urllib.parse import urlparse

from get_all_article import get_all

import re

def createUuid():

    text = ""

    char_list = []

    for c in range(97,97+6):

        char_list.append(chr(c))

    for c in range(49,58):

        char_list.append(chr(c))

    for i in "xxxxxxxx-xxxx-4xxx-yxxx-xxxxxxxxxxxx":

        if i == "4":

            text += "4"

        elif i == "-":

            text += "-"

        else:

            text += random.choice(char_list)

    return text

def get_sign(uuid,url):

    s = urlparse(url)

    ekey = "9znpamsyl2c7cdrr9sas0le9vbc3r6ba".encode()

    to_enc = f"GET\n*/*\n\n\n\nx-ca-key:203803574\nx-ca-nonce:{uuid}\n{s.path+'?'+s.query[:-1]}".encode()

    sign = b64encode(hmac.new(ekey, to_enc, digestmod=hashlib.sha256).digest()).decode()

    return sign

def getArticleDetail(url):

    uuid = createUuid()

    sign = get_sign(uuid,url)

    headers = {}

    headers['x-ca-key'] = "203803574"

    headers['x-ca-nonce'] = uuid

    headers['x-ca-signature'] = sign

    headers['x-ca-signature-headers'] = "x-ca-key,x-ca-nonce"

    session = requests.session()

    session.cookies = cookielib.LWPCookieJar(filename='.cookie/csdn.txt')

    session.cookies.load()

    data = session.get(url,headers=headers).json()

    return data

这个代码主要看 createUuid() 和 get_sign() 俩函数，而他们分别对应的是请求头中的x-ca-nonce，x-ca-signature 字段，值得一提的是 createUuid()这个函数主要的格式正确，而不是特别严格的，我没有严格的按照js的算法去写，另外请求这个接口的时候需要带有登陆后的cookie

其他

我也写了微信扫码登陆自动保存cookie的脚本，还要获取所有文章url的脚本，我打包成压缩包了，有需要的可以下载
源码
你要使用的话需要先登陆，login_csdn_qrcode.py 为登陆脚本，get_article_detail.py 为下载markdown脚本

关于CSDN获取博客内容接口的x-ca-signature签名算法研究的更多相关文章

以前的博客内容迁至CSDN，博客名不变，以后博客将在两个平台同步更新
为了更好的利用博客园和csdn这两个博客家园,今天把博客园中的内容迁至csdn,博客名称还是使用cooldream2009,以后的文章将同步在博客园和csdn发表,特此声明.
开发记录_自学Python写爬虫程序爬取csdn个人博客信息
每天刷开csdn的博客,看到一整个页面,其实对我而言,我只想看看访问量有没有上涨而已... 于是萌生了一个想法: 想写一个爬虫程序把csdn博客上边的访问量和评论数都爬下来. 打算通过网络各种搜集资料 ...
一个基于Vue.js+Mongodb+Node.js的博客内容管理系统
这个项目最初其实是fork别人的项目.当初想接触下mongodb数据库,找个例子学习下,后来改着改着就面目全非了.后台和数据库重构,前端增加了登录注册功能,仅保留了博客设置页面,但是也优化了. 一.功 ...
Node.js 从零开发 web server博客项目[接口]
web server博客项目 Node.js 从零开发 web server博客项目[项目介绍] Node.js 从零开发 web server博客项目[接口] Node.js 从零开发 web se ...
获取博客积分排名，存入数据库，读取数据进行绘图(python,selenium,matplotlib)
该脚本的目的:获取博客的排名和积分,将抓取时间,排名,积分存入数据库,然后把最近的积分和排名信息进行绘图,查看积分或者排名的变化情况. 整个脚本的流程:是利用python3来编写,利用selnium获 ...
在CSDN开通博客专栏后如何发布文章（图文）
今天打开电脑登上CSDN发现自己授予了专栏勋章,有必要了解如何在专栏发布文章. 很感谢已经有前辈给出了图文教程,此文章转载自博客:http://blog.csdn.net/upi2u/article/ ...
CSDN的博客搜索功能不又给力了呵呵呵呵
不得不说,CSDN博客的搜索功能是在太弱了.而且一直都很弱,以至于我每次想在自己博客上找自己发的文章都变得那么难.做一个搜索博客内文章的功能没有那么难吧? 还是说CSDN已经放弃了博客这一块了? 我发 ...
关于CSDN 2016博客之星评选活动的感触
一.前言想想去年的这个时候还接到CSDN邀请,参加了"CSDN 2015博客之星"的评选活动, CSDN2015博客之星评选之拉票环节而今年却没有接到CSDN的邀请,内心有点小 ...
我在CSDN开通博客啦！
今天,我最终在CSDN开通博客啦!
接口登录CSDN发布博客---封装方法，使用unittest框架
一个简单的跑接口流程:登录后发表带图片的博客.这里涉及到的知识点: 1.登录时通过cookies去保持登录状态,把cookies添加到一个session中,这样可以保持长时间登录状态: 2.我们通过爬 ...

随机推荐

[Python]-pandas模块-机器学习Python入门《Python机器学习手册》-03-数据整理
<Python机器学习手册--从数据预处理到深度学习> 这本书类似于工具书或者字典,对于python具体代码的调用和使用场景写的很清楚,感觉虽然是工具书,但是对照着做一遍应该可以对机器学习 ...
Gitea 与 Jenkins 的集成实践，打造你的专属 CI/CD 系统
前言 Gitea 是一个用于代码托管的轻量级单体程序,它能与现有的经典应用集成,诸如代码分析工具 SonarQube.持续集成工具 Drone.Jenkins 以及用于工单管理的客户端插件(VSCod ...
Windows服务器限制进程CPU使用率
在Windows server 2012 之前的服务系统 2008和2008 R2中有系统资源管理器System Resource Manager可以管理系统的CPU和内存使用情况.特别对于一些自己开 ...
Python数据科学手册-Pandas:数据取值与选择
Numpy数组取值切片[:,1:5], 掩码操作arr[arr>0], 花哨的索引 arr[0, [1,5]],Pandas的操作类似 Series数据选择方法 Series对象与一维Nump ...
将java的项目jar包打成镜像
一.镜像.容器相关知识的概述 Docker 镜像 docker镜像是一个特殊的文件系统,除了提供容器运行时所需的程序.库.资源.配置等文件外,还包含了一些为运行时准备的一些配置参数(如匿名卷.环境变量 ...
Elasticsearch：设置Elastic账户安全
Logstash：如何使用Elasticsearch，Logstash和Kibana管理Apache日志
05_Java基础知识
Java基础知识一. Java的语言特点面向对象(贴近人类思维模式,模拟现实世界,解决现实问题) 简单性(自动内存管理机制,不易造成内存溢出:简化流程处理.语义清晰) 跨平台(操作系统.服务器.数 ...
云原生强大且灵活的持续集成CI开源框架Tekton实战-上
@ 目录概述定义常见CICD工具使用好处组件基本概念安装前提条件安装Tekton Pipelines 创建并运行任务安装Dashboard 安装Cli Pipelines示例演示 ...
洛谷P2827 [NOIP2016 提高组] 蚯蚓（二叉堆/队列）
容易想到的是用二叉堆来解决,切断一条蚯蚓,其他的都要加上一个值,不妨用一个表示偏移量的delta. 1.取出最大的x,x+=delta: 2.算出切断后的两个新长度,都减去delta和q: 3.del ...

关于CSDN获取博客内容接口的x-ca-signature签名算法研究

前言

接口

其他

关于CSDN获取博客内容接口的x-ca-signature签名算法研究的更多相关文章

随机推荐

热门专题