python实现解析markdown文档中的图片，并且保存到本地~

背景

前阵子简书好像说是凉了，搞得我有点小慌，毕竟我的大部分博客都是放在简书上面的，虽然简书提供了打包导出功能，但是只能导出文字，图片的话还是存在简书服务器上面，再加上我一直想要重新做一个个人博客，于是就有了这篇文章。

思路

首先是要解析markdown文档，然后获取到其中的所有图片，再把图片按md文件分好目录保存。

解析markdown文档

这里我用了misaka模块，据说是python的markdown解析器里性能最好的，不过这个的文档着实是精简，太少内容了，写得不清不楚的，基本功能看来就是把markdown文档解析为html文档，但是好像没有直接操作markdown元素的方法。

没事，我可以像平时写爬虫那样解析html呀，不就曲线救国拿到图片了吗~

这里就用BeautifulSoup啦

下载图片

很简单，就是requests，没啥好说的。

实现

遍历文件

首先要遍历文件夹里面的所有md文档：

def get_files_list(dir):

    """

    获取一个目录下所有文件列表，包括子目录

    :param dir:

    :return:

    """

    files_list = []

    for root, dirs, files in os.walk(dir, topdown=False):

        for file in files:

            files_list.append(os.path.join(root, file))

    return files_list

解析md文档获取所有图片

先用misaka把markdown转换成html，然后再拿出所有img。

def get_pics_list(md_content):

    """

    获取一个markdown文档里的所有图片链接

    :param md_content:

    :return:

    """

    md_render = misaka.Markdown(misaka.HtmlRenderer())

    html = md_render(md_content)

    soup = BeautifulSoup(html, features='html.parser')

    pics_list = []

    for img in soup.find_all('img'):

        pics_list.append(img.get('src'))

    return pics_list

下载图片

def download_pics(url, file):

    img_data = requests.get(url).content

    filename = os.path.basename(file)

    dirname = os.path.dirname(file)

    targer_dir = os.path.join(dirname, f'{filename}.assets')

    if not os.path.exists(targer_dir):

        os.mkdir(targer_dir)

    with open(os.path.join(targer_dir, f'{uuid.uuid4().hex}.jpg'), 'w+') as f:

        f.buffer.write(img_data)

完整代码

本项目的完整代码已经上传到GitHub了，地址如下：

https://github.com/Deali-Axy/Markdown-Image-Parser

运行

pip install -r requirements.txt

python spider.py

欢迎与我交流

打代码直播间：https://live.bilibili.com/11883038
微信公众号：DealiAxy
知乎：https://www.zhihu.com/people/dealiaxy
博客：https://blog.deali.cn

python实现解析markdown文档中的图片，并且保存到本地~的更多相关文章

C#解析Markdown文档，实现替换图片链接操作
前言又是好久没写博客了其实也不是没写,是最近在「做一个博客」,从2月21日开始,大概一个多星期的时间,疯狂刷进度,边写代码边写了一整系列的博客开发笔记,目前为止已经写了16篇了,然后上3月之后工作 ...
01将图片嵌入到Markdown文档中
将图片内嵌入Markdown文档中将图片嵌入Markdown文档中一直是一个比较麻烦的事情.通常的做法是将图片存入本地某个路径或者网络存储空间,使用URL链接的形式插入图片: ![image][ur ...
使用Python从Markdown文档中自动生成标题导航
概述知识与思路代码实现概述 Markdown 很适合于技术写作,因为技术写作并不需要花哨的排版和内容, 只要内容生动而严谨,文笔朴实而优美. 为了编写对读者更友好的文章,有必要生成文章的标题导航 ...
如何在Markdown文档中插入空格?
简单说在 Markdown 文档中,可以直接采用 HTML 标记插入空格(blank space),而且无需任何其他前缀或分隔符.具体如下所示: 插入一个空格 (non-breaking space ...
C# 提取Word文档中的图片
C# 提取Word文档中的图片图片和文字是word文档中两种最常见的对象,在微软word中,如果我们想要提取出一个文档内的图片,只需要右击图片选择另存为然后命名保存就可以了,今天这篇文章主要是实现使 ...
在LaTeX文档中插入图片的几种常用的方法
LaTeX中一般只直接支持插入eps(Encapsulated PostScript)格式的图形文件, 因此在图片插入latex文档之前应先设法得到图片的eps格式的文件. 在LaTeX文档中插入图片 ...
php解析word,获得文档中的图片
背景前段时间在写一个功能:用原生php将获得word中的内容并导入到网站系统中.因为文档中存在公式,图片,表格等,因此写的比较麻烦. 思路大体思路是先将word中格式为doc的文档转化为docx, ...
js 加载并解析Markdown文档
网上有很多网站会通过.md文档来做页面内容(比如,阮一峰老师的es6入门blog: http://es6.ruanyifeng.com/),很好奇,这是怎么做的?(至于.md是什么,或许(https: ...
Python实现读取Excel文档中的配置并下载软件包
问题:现在遇到这样一个问题,服务器存储了很多软件包,这些包输入不同的产品,每个产品都有自己的配置,互相交叉,那么到底某一产品所有配置的软件包下载后,占用多大空间呢? 分析:从这个问题入手,了解到:软件 ...

随机推荐

索引，事务，存储引擎和选择，视图，mysql管理
一.mysql索引:提高数据库的性能(不用加内存,不用改程序,不用调sql,查询速度就可能提高百倍千倍)索引会占用磁盘空间 CREATE INDEX 索引名 ON 数据表 (列名or字 ...
docker中run和start的区别？
docker run 后面指定的是一个镜像而docker start指定的是一个容器 docker run是利用镜像生成容器,并启动容器,而docker start是启动一个之前生成过的容器
动手写一个LRU缓存
前言 LRU 是 Least Recently Used 的简写,字面意思则是最近最少使用. 通常用于缓存的淘汰策略实现,由于缓存的内存非常宝贵,所以需要根据某种规则来剔除数据保证内存不被占满. 在r ...
基于TMS320C6670的软件无线电核心板
一.板卡概述北京太速科技自主研发的TMS320C6670核心板,采用TI KeyStone系列的四核定点/浮点DSP TMS320C6670作主处理器.板卡引出处理器的全部信号引脚,便于客户二次开发 ...
Solution -「ARC 058C」「AT 1975」Iroha and Haiku
\(\mathcal{Description}\) Link. 称一个正整数序列为"俳(pái)句",当且仅当序列中存在连续一段和为 \(x\),紧接着连续一段和为 \(y ...
Spring AOP基础概念及自定义注解式AOP初体验
对AOP的理解开始是抽象的,看到切点的匹配方式其实与正则表达式性质大致一样就基本了解AOP是基本是个什么作用了.只是整个概念更抽象,需要具化理解.下图列表是AOP相关概念解释,可能也比较抽象^_^ 比 ...
linux历史命令审计
一.添加历史命令记录 1.首先在/etc/profile中添加 export HISTORY_FILE=/var/log/Command/Command.log export PROMPT_COMMA ...
[编译器]dev c++单步调试
一.dev c++调试崩溃的解决方案 1.点击"工具 -> 编译选项". 2.选择"编译器"选项卡,勾选"编译时加入以下命令",输入& ...
[题解]RQNOJ PID85 三个袋子
链接:http://www.rqnoj.cn/problem/85 思路:一个排列问题,递推式很简单,f(n+1)=3*f(n)-1 ,由此可以推出通项公式,f(n)=0.5*3^(n-1)+0.5 ...
Hive常用函数大全-数值计算
1 1.取整函数:round(X)(遵循四舍五入) 2 select round(3.1415926) from table --3 3 select round(3.5) from table -- ...

python实现解析markdown文档中的图片，并且保存到本地~

背景

思路

解析markdown文档

下载图片

实现

遍历文件

解析md文档 获取所有图片

下载图片

完整代码

运行

欢迎与我交流

python实现解析markdown文档中的图片，并且保存到本地~的更多相关文章

随机推荐

热门专题

解析md文档获取所有图片