最初我想把Typora中.md文件中的web图片链接都下载保存到本地,并且替换.md文本中的路径

说干就干,因为在网上没有找到现成的程序所以自己写了这个程序

思路是循环查找文件夹中的文件,然后yield返回

再用readlines()方法读取该文件,开始是采用 r 模式读取,后来遇到一些编码问题就改为 rb 模式,后面会介绍

获取文件中的数据后按行得到了一个list,再对每行进行正则匹配,匹配到图片链接就进行下载,并返回该文件名

再用正则替换该文件内容,大致就是这样

从文件夹获取文件函数

def get_files(dir):
"""
获取一个目录下所有文件列表,包括子目录
:param dir:
:return:
"""
for root, dirs, files in os.walk(dir, topdown=False):
if 'HTML' in root or '.assets' in root:  # 文件过滤
continue
for file in files:
if '.zip' in file:
continue
yield os.path.join(root, file)

 得到文件路径进行读取, 但显示编码报错 "UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 48: illegal multibyte sequence"

with open(file, 'r') as f:

然后我试了加encoding="gbk"和utf-8编码格式都不行,最后采取rb二进制读取解决此问题

下面是对数据匹配后进行替换,代码如下

def thread_task(file, md_content):
"""
多线程任务
:param file:文件路径
:param md_content:文件转为list二进制数据
:return:
"""
print(f'正在处理:{file}')
for index, url in enumerate(md_content):
if uu := re.findall(br'\((http|https://.+\.\w+)\)', url):
print(f'下载中:{uu[0]}')
if file_name := download_pics(uu[0].decode(), file):
md_content[index] = re.sub(br'\((http|https://.+\.\w+)\)', f'({file_name})'.encode(), url)
with open(file, 'wb') as f:
f.writelines(md_content)
f.close()
sem.release()
 

代码中用到了海象运算符,所以python版本要在3.8及以上,或者自行改动一点代码就能使用

因为一个文件中有许多个图片链接,所以我采用readlines方式读取,得到一个list的二进制数据文件

在对该文件数据进行正则匹配,但是匹配时候报错 "TypeError: cannot use a string pattern on a bytes-like object"

解决方法就是在正则匹配语句前加上 b 转为对二进制匹配,不加b默认是字符串匹配,参考如下

re.findall(br'\((http|https://.+\.\w+)\)', url)

下面是下载文档中图片链接的代码,源码如下

def download_pics(url, file):
"""
下载图片
:param url: https://matplotlib.org/_images/sphx_glr_dark_background_001.png
:param file: D:\code\get_md\PYtext\书籍\Matplotlib 参考实例\MD\第10章 样式表.md
:return:
"""
try:
img_data = requests.get(url).content
except Exception as e:
print(f'路径:{file} 下载出错:{e}')
return
filename = os.path.basename(file) # 第10章 样式表.md
dirname = os.path.dirname(file) # D:\code\get_md\PYtext\书籍\Matplotlib 参考实例\MD
targer_dir = os.path.join(dirname, f'{filename}.assets')
if not os.path.exists(targer_dir):
os.mkdir(targer_dir)
with open(os.path.join(targer_dir, os.path.basename(url)), 'w+') as f: # \Matplotlib 参考实例\MD\第10章 样式表.md.assets\dark_background_001.png
f.buffer.write(img_data)
f.close()
print(url, '下载成功')
return f'{filename}.assets/{os.path.basename(url)}'

创建文件夹下载图片保存到里面,也没啥需要多讲的 略过~

下一步进行多线程优化,代码如下

def main():
for file in get_files(r'D:\code\get_md\PYtext\书籍'):
with open(file, 'rb') as f:
sem.acquire()
Thread(target=thread_task, args=(file, f.readlines())).start()
f.close()
# thread_task(file, f.readlines())

下面是完整的程序源码,分享给有需要的同志

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
"""
@Project :get_md
@File :img to local.py
@IDE :PyCharm
@Author :Naihe
@Date :2021/7/6 14:51
"""
import os
import re
import requests
import threading

from threading import Thread

sem = threading.Semaphore(5) # 限制线程的最大数量

def get_files(dir):
"""
获取一个目录下所有文件列表,包括子目录
:param dir:
:return:
"""
for root, dirs, files in os.walk(dir, topdown=False):
if 'HTML' in root or '.assets' in root:
continue
for file in files:
if '.zip' in file:
continue
yield os.path.join(root, file)

def download_pics(url, file):
"""
下载图片
:param url: https://matplotlib.org/_images/sphx_glr_dark_background_001.png
:param file: D:\code\get_md\PYtext\书籍\Matplotlib 参考实例\MD\第10章 样式表.md
:return:
"""
try:
img_data = requests.get(url).content
except Exception as e:
print(f'路径:{file} 下载出错:{e}')
return
filename = os.path.basename(file) # 第10章 样式表.md
dirname = os.path.dirname(file) # D:\code\get_md\PYtext\书籍\Matplotlib 参考实例\MD
targer_dir = os.path.join(dirname, f'{filename}.assets')
if not os.path.exists(targer_dir):
os.mkdir(targer_dir)
with open(os.path.join(targer_dir, os.path.basename(url)), 'w+') as f: # \Matplotlib 参考实例\MD\第10章 样式表.md.assets\dark_background_001.png
f.buffer.write(img_data)
f.close()
print(url, '下载成功')
return f'{filename}.assets/{os.path.basename(url)}'

def thread_task(file, md_content):
"""
多线程任务
:param file:文件路径
:param md_content:文件转为list二进制数据
:return:
"""
print(f'正在处理:{file}')
for index, url in enumerate(md_content):
if uu := re.findall(br'\((http|https://.+\.\w+)\)', url):
print(f'下载中:{uu[0]}')
if file_name := download_pics(uu[0].decode(), file):
md_content[index] = re.sub(br'\((http|https://.+\.\w+)\)', f'({file_name})'.encode(), url)
with open(file, 'wb') as f:
f.writelines(md_content)
f.close()
sem.release()

def main():
for file in get_files(r'D:\code\get_md\PYtext\书籍'):
with open(file, 'rb') as f:
sem.acquire()
Thread(target=thread_task, args=(file, f.readlines())).start()
f.close()
# thread_task(file, f.readlines())

if __name__ == '__main__':
sem = threading.Semaphore(4) # 限制线程的最大数量为4个
main()

码字不易,还请各位三连鼓励(^v^)

.md图片链接转存并替换路径,及相关报错解决方法的更多相关文章

  1. vue 动态加载图片路径报错解决方法

    最近遇到图片路径加载报错的问题 之前一直都是把图片放到assets的文件下的.总是报错,看到一些文章并且尝试成功了,特意记录下 首先先说明下vue-cli的assets和static的两个文件的区别, ...

  2. 搭建lamp或者lnmp环境,本地链接mysql报错解决方法

    报错:1130-host...is not allowed to connect to this mysql server 解决方法: 1.改表法 可能是你的账号不允许从远程登录,这个时候只要进入服务 ...

  3. python listdir() 中文路径 中文文件夹 乱码 解决方法

    python listdir() 中文路径 中文文件夹 乱码 解决方法 listdir(path)返回的结果的编码似乎和我们提供的 path 参数的编码有关: path = 'd:/test' try ...

  4. pod导入融云路径报错解决办法

    build Settings中搜索sear Search Patchs下点开Library Search Paths 将$(inherited)"$(SRCROOT)/Pods"分 ...

  5. vue-cli项目 build后请求本地static文件中的 json数据,路径不对,报错404处理方法

    vue-cli 项目 build  出错点: 1,build生成dist 放在tomcat上 报错,不显示内容  解决办法: config>index.js===>assetsPublic ...

  6. vue项目打包后一片空白及资源引入的路径报错解决办法

    网上很多说自己的VUE项目通过Webpack打包生成的list文件,放到HBulider打包后,通过手机打开一片空白.这个主要原因是路径的问题. 1.记得改一下config下面的index.js中bu ...

  7. TP3.2框架,实现空模块、空控制器、空操作的页面404替换||同步实现apache报错404页面替换

    一,前言 一.1)以下代码是在TP3.0版本之后,URL的默认模式=>PATHINFO的前提下进行的.(通俗点,URL中index.php必须存在且正确) 代码和讲解如下: 1.空模块解决:ht ...

  8. vue2.0 在页面中使用process获取全局路径的时候 报错 process is not defined

    如果是刚配置好的全局变量需要 重新启动一下vue才能通过proccess.env.xxx 获取到 如果想在html中使用 需要在data中声明一个变量 然后在vue生命周期中 将process.env ...

  9. SQL Server 2008 修改安装路径后安装出错的解决方法

    1.安装时如果修改安装路径后报错 例如想把“C:\Program Files\Microsoft SQL Server” 修改为“D:\Program Files\Microsoft SQL Serv ...

随机推荐

  1. 前端学习 linux —— 第一篇

    前端学习 linux - 第一篇 本文主要介绍"linux 发行版本"."cpu 架构"."Linux 目录结构"."vi 和 v ...

  2. 一文理解OpenStack网络

    摘要:如果你能理解OpenStack的网络,那么对于其他云平台的网络,应该也可以通过分析后理解掌握了. 本文分享自华为云社区<<跟唐老师学习云网络> - OpenStack网络实现& ...

  3. UiPath循环活动Do While的介绍和使用

    一.Do While的介绍 先执行循环体, 再判断条件是否满足, 如果满足, 则再次执行循环体, 直到判断条件不满足, 则跳出循环 二.Do While在UiPath中的使用 1. 打开设计器,在设计 ...

  4. Linux命令格式、终端类型和获取帮助的方法

    Linux用户类型 Root用户:超级管理员,权限很大 普通用户:权限有限 终端 terminal 终端类型 物理终端:鼠标.键盘.显示器 虚拟终端:软件模拟出来的终端 控制台终端: /dev/con ...

  5. 用Python实时获取Steam特惠游戏数据,我看看谁的钱包还有钱

    前言 大家好鸭, 我是小熊猫 Steam大家应该不陌生吧?不知道的话就让我们来了解一下吧~(一下简称"S") S是由美国电子游戏商Valve于2003年9月12日推出的数字发行平台 ...

  6. js--js实现基础排序算法

    前言 文本来总结常见的排序算法,通过 JvavScript  来实现 正文 1.冒泡排序 算法思想:比较相邻两个元素的大小,如果第一个比第二个大,就交换它们.从头遍历到尾部,当一轮遍历完后,数组最后一 ...

  7. Spring框架系列(10) - Spring AOP实现原理详解之AOP代理的创建

    上文我们介绍了Spring AOP原理解析的切面实现过程(将切面类的所有切面方法根据使用的注解生成对应Advice,并将Advice连同切入点匹配器和切面类等信息一并封装到Advisor).本文在此基 ...

  8. 全国30m精度二级分类土地利用数据

    ​数据下载链接:数据下载链接 引言 全国土地利用数据产品是以Landsat TM/ETM/OLI遥感影像为主要数据源,经过影像融合.几何校正.图像增强与拼接等处理后,通过人机交互目视解译的方法,将全国 ...

  9. 【每天学一点-03】 使用Html5+Less实现简单的静态登录界面(入门Less)

    1.首先引用Less 有npm安装.cdn引用.或者下载Less.js本地引用,我采用的是第三种方法 less.js引用: 下载地址:https://github.com/less/less.js/t ...

  10. 好串_via牛客网

    题目 链接:https://ac.nowcoder.com/acm/contest/28537/C 来源:牛客网 时间限制:C/C++ 1秒,其他语言2秒 空间限制:C/C++ 32768K,其他语言 ...