@

1.说明

之前写的博客都在csdn和博客园中

要将博客同步到自己的博客网站中

因为都是使用markdown格式书写的,所以直接爬取上传就完事

2.思路

分析了下博客园,发现可行。先登录进入自己的博客主页,可以看到有下一页的标志,每一页包含若干个博客详情,博客详情中包含edit页(编辑页面)和正常页面(其他用户访问的),要获取的就是eidt页面的博客名字,博客内容。博客分类在edit页面中不好获取,转而去正常页面获取,发现是一个ajax请求,传入用户id和博客id就可以获取到分类。信息获取到了就保存在本地,按分类保存。保存后就使用post请求发送到自己的博客网站中,或者直接写入数据库

3.代码

从文件读取请求头字典,构造函数传入的是文件名

class getHeaders(object):
def __init__(self,path):
self.dict_ = {}
with open(path, "r",encoding="utf8") as f:
line = f.readline()
while line: a = line.split(":")
self.clean_(a)
try:
self.dict_[a[0]] = a[1]
except:
pass
line = f.readline() def clean_(self,list_):
for i in range(len(list_)):
list_[i] = list_[i].strip() if len(list_) > 2 :#说明有多个:号
try:
#开头为空,说明元字符串开头有:
list_.remove("")
list_[0] = ":"+list_[0]
except:
#说明开头不为空
list_[1] = list_[1]+":"+list_[2]

爬博客园的代码

import requests
from lxml import etree
from GetHeaders import getHeaders
import os #博客园获取分类,传入ID
catagory_url = "https://www.cnblogs.com/simon-idea/ajax/CategoriesTags.aspx?blogId=xxxxxx&postId=%s"
#每一页中包含的url
link_list = []
#筛选详情页的url
detail_list = []
heads = getHeaders("博客园").dict_ for i in range(1,9):
url = "https://www.cnblogs.com/simon-idea/default.html?page=%s" #7
url = url % str(i)
req = requests.get(url, headers=heads)
html = etree.HTML(req.content)
every_page_links = html.xpath('//*[@id="mainContent"]/div/div/div/a/@href')
link_list.extend(every_page_links) for i in link_list:
if "Edit" in i :
detail_list.append(i) # assert 1 ==2 for i in detail_list:
url = i
req = requests.get(url, headers=heads)
a = req.content.decode(req.encoding)
html = etree.HTML(a)
# title //*[@id="Editor_Edit_txbTitle"]/@value
title = html.xpath('//*[@id="Editor_Edit_txbTitle"]/@value')[0]
# body //*[@id="Editor_Edit_EditorBody"]
body = html.xpath('//*[@id="Editor_Edit_EditorBody"]/text()')[0] req = requests.get(catagory_url % i[-8:], headers=heads)
a = req.content.decode(req.encoding)
html = etree.HTML(a)
catagory = html.xpath('//*[@id="BlogPostCategory"]/a/text()')[0] dirs = '博客/%s' % catagory if not os.path.exists(dirs):
os.makedirs(dirs)
with open("博客/%s/%s.md" % (catagory,title),"w",encoding="utf-8") as f:
f.write(body)

上传的代码有很多坑,不完善

因为原博客作者的博客路径定义的有问题

关于作者

个人博客网站

个人GitHub地址

个人公众号:

网站开发学习Python实现-Django项目部署-同步之前写的博客(6.2.2)的更多相关文章

  1. 网站开发学习Python实现-Django项目部署-介绍(6.2.1)

    @ 目录 1.第一步:找源码 2.第二步:在windows中更改代码 2.第三步:同步到linux中 3.第三步:部署 4.第四步:运行 关于作者 1.第一步:找源码 从github上找一个djang ...

  2. 网站开发学习Python实现-Django的models学习-生鲜项目(6.3.2)

    @ 目录 1.说明 2.模型类的设计 3.代码的具体实现 4.详情地址 关于作者 1.说明 models是django的很重要的部分,所以深入研究. 本文章的所研究项目为黑马教育python课程中的项 ...

  3. 网站开发学习Python实现-Django学习-总结(6.1.2)

    @ 目录 1.MVT 2.模型 3.视图 4.模板 5.常用的命令 6.pycharm创建django工程 关于作者 1.MVT 项目结构如下,其中项目同名文件夹为配置文件 每一个项目有多个应用(未考 ...

  4. 网站开发学习Python实现-Django学习-自学注意(6.1.3)

    @ 目录 1.配置文件相关 2.应用创建相关 3.项目相关 4.模板相关 5.其他 关于作者 1.配置文件相关 1.可以更改时间,地区相关(国际化) 2.BASE_DIR很重要,一个工程要有很好的移植 ...

  5. 网站开发学习Python实现-Django学习-介绍(6.1.1)

    @ 目录 1.MVT 2.ORM 关于作者 1.MVT 主要的目的是为了快速,简便的开发数据库驱动的网站,强调代码的复用,多个组件可以很方便以插件的方式服务于整个框架,采用的是MVT设计模式(差不多的 ...

  6. Linux学习笔记之Django项目部署(CentOS)----进阶篇

    一.引入 当我们开发好了一个Django项目之后是需要部署到服务器上的,这样才能正式使用这个项目.之前用了一个运行.sh文件的方法让项目得以在后台运行,其实随着学习的深入,这种方法其实是有点low的, ...

  7. Linux学习笔记之Django项目部署(CentOS)

    一.引入 用Django写了一个测试的项目,现在要部署在Linux上,一般这种情况下,只要在项目里面敲一行命令:python manage.py runserver 0.0.0.0:8000就行了.但 ...

  8. Django项目部署在Linux下以进程方式启动

    Django项目部署在Linux下以进程方式启动 这是一篇关于如何在linux下,以后台进程的方式运行服务,命令改改基本上就通用了. 开发完Django项目后,需要把项目部署到linux环境下.当然, ...

  9. Django项目部署(django+guncorn+virtualenv+nginx)

    一.说明 为了django项目部署到生产环境上,能够稳定的运行,且能够同时指出http和https的访问,对django的部署进行了一些研究,决定采用django + gunicorn + virtu ...

随机推荐

  1. 【MathType教学】表示分类的大括号怎么打

    大括号是一种常见的数学符号,可以用于集合.分段函数中,其实大括号还可以用来总结数学知识,比如对三角形进行分类,此时用的大括号可以称为表示分类的大括号.MathType作为专业的数学公式编辑器,可以快速 ...

  2. 详解FL Studio压缩器——Fruity Limiter(下)

    Hello!小伙伴们又见面啦-接上一篇,本篇咱们继续讲解音乐编曲软件FL Studio20压缩器内容. 包络"ENVELOPE"中包含三个旋钮,它们都有什么作用呢?一起来揭晓吧! ...

  3. 【性能测试】【locust】场景性能测试步骤

    场景设计 实现登陆基本功能,输出相应结果,脚本通 多用户实现随机登陆 添加初始化方法on_start: 每个用户只运行一次 添加检查点: catch_responses = True 脚本设计 # 导 ...

  4. 接入twitter第三方登陆接口遇到的一个问题

    本地开了 Shadowsocks,然后postman模拟的twitter的接口是请求成功的,然后用php-curl去请求网址,出现以下错误 Failed to connect to api.twitt ...

  5. 开始使用 java8 的日期工具类

    例如,现有的类(例如java.util.Date和SimpleDateFormatter)不是线程安全的,这会导致用户潜在的并发问题.而新的LocalDate.LocalDateTime.DateTi ...

  6. Dynamics 365-表单元素取值/赋值

    取值/赋值 参考: 山人丶 提示: 查找类型赋值时需指定目标实体,记录名称及id值 时间和日期类型赋值时需赋值Date类型 //获取new_name的值(单行文本) Xrm.Page.getAttri ...

  7. github搭建html网站到外网

    最近想自己弄个网站,但又没有服务器可以用,只好借用强大得github来帮忙了,不过GitHub确实有这个功能. 感谢以下大佬得教程,非常得详细,但我觉得还是有必要记录下来. 大佬链接: https:/ ...

  8. 【电子取证:FTK Imager篇】FTK Imager制作镜像详细介绍

    FTK Imager制作镜像详细介绍 以DD镜像制造为例,详细介绍了FTK Imager创建镜像的过程,记得大学的时候学习这些没什么教程,找到的资料也是语焉不详,故在此啰嗦一番---[suy] 一.磁 ...

  9. 【鸿蒙开发板试用报告】用OLED板实现FlappyBird小游戏(中)

    小伙伴们久等了,在上一篇<[开发板试用报告]用OLED板实现FlappyBird小游戏(上)>中,我们本着拿来主义的原则,成功的让小鸟在OLED屏幕上自由飞翔起来,下面我们将加入按钮交互功 ...

  10. ABAP CDS-Part 1(ABAP CDS实体)

    文章翻译自Tushar Sharma的文章,转载请注明原作者和译者! 目录 预备条件 一.概述 二.ABAP CDS实体(CDS Entity) a.定义ABAP CDS Views b.ABAP C ...