.md图片链接转存并替换路径，及相关报错解决方法

最初我想把Typora中.md文件中的web图片链接都下载保存到本地，并且替换.md文本中的路径

说干就干，因为在网上没有找到现成的程序所以自己写了这个程序

思路是循环查找文件夹中的文件，然后yield返回

再用readlines()方法读取该文件，开始是采用 r 模式读取，后来遇到一些编码问题就改为 rb 模式，后面会介绍

获取文件中的数据后按行得到了一个list，再对每行进行正则匹配，匹配到图片链接就进行下载，并返回该文件名

再用正则替换该文件内容，大致就是这样

从文件夹获取文件函数

def get_files(dir):

    """

    获取一个目录下所有文件列表，包括子目录

    :param dir:

    :return:

    """

    for root, dirs, files in os.walk(dir, topdown=False):

        if 'HTML' in root or '.assets' in root:　　# 文件过滤

            continue

        for file in files:

            if '.zip' in file:

                continue

            yield os.path.join(root, file)

　得到文件路径进行读取，但显示编码报错 "UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 48: illegal multibyte sequence"

with open(file, 'r') as f:

然后我试了加encoding="gbk"和utf-8编码格式都不行，最后采取rb二进制读取解决此问题

下面是对数据匹配后进行替换，代码如下

def thread_task(file, md_content):
    """
    多线程任务
    :param file:文件路径
    :param md_content:文件转为list二进制数据
    :return:
    """
    print(f'正在处理：{file}')
    for index, url in enumerate(md_content):
        if uu := re.findall(br'\((http|https://.+\.\w+)\)', url):
            print(f'下载中：{uu[0]}')
            if file_name := download_pics(uu[0].decode(), file):
                md_content[index] = re.sub(br'\((http|https://.+\.\w+)\)', f'({file_name})'.encode(), url)
    with open(file, 'wb') as f:
        f.writelines(md_content)
        f.close()
    sem.release()

代码中用到了海象运算符，所以python版本要在3.8及以上，或者自行改动一点代码就能使用

因为一个文件中有许多个图片链接，所以我采用readlines方式读取，得到一个list的二进制数据文件

在对该文件数据进行正则匹配，但是匹配时候报错 "TypeError: cannot use a string pattern on a bytes-like object"

解决方法就是在正则匹配语句前加上 b 转为对二进制匹配，不加b默认是字符串匹配，参考如下

re.findall(br'\((http|https://.+\.\w+)\)', url)

下面是下载文档中图片链接的代码，源码如下

def download_pics(url, file):

    """

    下载图片

    :param url: https://matplotlib.org/_images/sphx_glr_dark_background_001.png

    :param file: D:\code\get_md\PYtext\书籍\Matplotlib 参考实例\MD\第10章 样式表.md

    :return:

    """

    try:

        img_data = requests.get(url).content

    except Exception as e:

        print(f'路径：{file} 下载出错：{e}')

        return

    filename = os.path.basename(file)  # 第10章 样式表.md

    dirname = os.path.dirname(file)  # D:\code\get_md\PYtext\书籍\Matplotlib 参考实例\MD

    targer_dir = os.path.join(dirname, f'{filename}.assets')

    if not os.path.exists(targer_dir):

        os.mkdir(targer_dir)

    with open(os.path.join(targer_dir, os.path.basename(url)), 'w+') as f:  # \Matplotlib 参考实例\MD\第10章 样式表.md.assets\dark_background_001.png

        f.buffer.write(img_data)

        f.close()

    print(url, '下载成功')

    return f'{filename}.assets/{os.path.basename(url)}'

创建文件夹下载图片保存到里面，也没啥需要多讲的略过~

下一步进行多线程优化，代码如下

def main():
    for file in get_files(r'D:\code\get_md\PYtext\书籍'):
        with open(file, 'rb') as f:
            sem.acquire()
            Thread(target=thread_task, args=(file, f.readlines())).start()
            f.close()
            # thread_task(file, f.readlines())

下面是完整的程序源码，分享给有需要的同志

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
"""
@Project ：get_md 
@File    ：img to local.py
@IDE     ：PyCharm 
@Author  ：Naihe
@Date    ：2021/7/6 14:51 
"""
import os
import re
import requests
import threading

from threading import Thread

sem = threading.Semaphore(5)  # 限制线程的最大数量

def get_files(dir):
    """
    获取一个目录下所有文件列表，包括子目录
    :param dir:
    :return:
    """
    for root, dirs, files in os.walk(dir, topdown=False):
        if 'HTML' in root or '.assets' in root:
            continue
        for file in files:
            if '.zip' in file:
                continue
            yield os.path.join(root, file)

def download_pics(url, file):
    """
    下载图片
    :param url: https://matplotlib.org/_images/sphx_glr_dark_background_001.png
    :param file: D:\code\get_md\PYtext\书籍\Matplotlib 参考实例\MD\第10章 样式表.md
    :return:
    """
    try:
        img_data = requests.get(url).content
    except Exception as e:
        print(f'路径：{file} 下载出错：{e}')
        return
    filename = os.path.basename(file)  # 第10章 样式表.md
    dirname = os.path.dirname(file)  # D:\code\get_md\PYtext\书籍\Matplotlib 参考实例\MD
    targer_dir = os.path.join(dirname, f'{filename}.assets')
    if not os.path.exists(targer_dir):
        os.mkdir(targer_dir)
    with open(os.path.join(targer_dir, os.path.basename(url)), 'w+') as f:  # \Matplotlib 参考实例\MD\第10章 样式表.md.assets\dark_background_001.png
        f.buffer.write(img_data)
        f.close()
    print(url, '下载成功')
    return f'{filename}.assets/{os.path.basename(url)}'

def thread_task(file, md_content):
    """
    多线程任务
    :param file:文件路径
    :param md_content:文件转为list二进制数据
    :return:
    """
    print(f'正在处理：{file}')
    for index, url in enumerate(md_content):
        if uu := re.findall(br'\((http|https://.+\.\w+)\)', url):
            print(f'下载中：{uu[0]}')
            if file_name := download_pics(uu[0].decode(), file):
                md_content[index] = re.sub(br'\((http|https://.+\.\w+)\)', f'({file_name})'.encode(), url)
    with open(file, 'wb') as f:
        f.writelines(md_content)
        f.close()
    sem.release()

def main():
    for file in get_files(r'D:\code\get_md\PYtext\书籍'):
        with open(file, 'rb') as f:
            sem.acquire()
            Thread(target=thread_task, args=(file, f.readlines())).start()
            f.close()
            # thread_task(file, f.readlines())

if __name__ == '__main__':
    sem = threading.Semaphore(4)  # 限制线程的最大数量为4个
    main()

码字不易，还请各位三连鼓励(^v^)

.md图片链接转存并替换路径，及相关报错解决方法的更多相关文章

vue 动态加载图片路径报错解决方法
最近遇到图片路径加载报错的问题之前一直都是把图片放到assets的文件下的.总是报错,看到一些文章并且尝试成功了,特意记录下首先先说明下vue-cli的assets和static的两个文件的区别, ...
搭建lamp或者lnmp环境，本地链接mysql报错解决方法
报错:1130-host...is not allowed to connect to this mysql server 解决方法: 1.改表法可能是你的账号不允许从远程登录,这个时候只要进入服务 ...
python listdir() 中文路径中文文件夹乱码解决方法
python listdir() 中文路径中文文件夹乱码解决方法 listdir(path)返回的结果的编码似乎和我们提供的 path 参数的编码有关: path = 'd:/test' try ...
pod导入融云路径报错解决办法
build Settings中搜索sear Search Patchs下点开Library Search Paths 将$(inherited)"$(SRCROOT)/Pods"分 ...
vue-cli项目 build后请求本地static文件中的 json数据，路径不对，报错404处理方法
vue-cli 项目 build 出错点: 1,build生成dist 放在tomcat上报错,不显示内容解决办法: config>index.js===>assetsPublic ...
vue项目打包后一片空白及资源引入的路径报错解决办法
网上很多说自己的VUE项目通过Webpack打包生成的list文件,放到HBulider打包后,通过手机打开一片空白.这个主要原因是路径的问题. 1.记得改一下config下面的index.js中bu ...
TP3.2框架，实现空模块、空控制器、空操作的页面404替换||同步实现apache报错404页面替换
一,前言一.1)以下代码是在TP3.0版本之后,URL的默认模式=>PATHINFO的前提下进行的.(通俗点,URL中index.php必须存在且正确) 代码和讲解如下: 1.空模块解决:ht ...
vue2.0 在页面中使用process获取全局路径的时候报错 process is not defined
如果是刚配置好的全局变量需要重新启动一下vue才能通过proccess.env.xxx 获取到如果想在html中使用需要在data中声明一个变量然后在vue生命周期中将process.env ...
SQL Server 2008 修改安装路径后安装出错的解决方法
1.安装时如果修改安装路径后报错例如想把“C:\Program Files\Microsoft SQL Server” 修改为“D:\Program Files\Microsoft SQL Serv ...

随机推荐

Python Socket Sever
1. Server code 1 # !/usr/bin/env python 2 # coding:utf-8 3 import multiprocessing 4 import socket 5 ...
使用Java编写一个日期时间封装类
package base; import java.util.GregorianCalendar; import java.util.StringTokenizer; import java.util ...
WPF开发随笔收录-本地日志LogUtil类
一.前言生活中的日志是记录你生活的点点滴滴,让它把你内心的世界表露出来,更好的诠释自己的内心世界.而在开发者眼中的日志是我们排除问题的第一手资料,项目中的程序上线之后,一旦发生异常,第一件事就是先去 ...
Linux shell脚本基础
程序的组成: 程序:算法+数据结构数据:程序处理的目标数据结构:相互之间存在一种或多种特定关系的数据元素的集合算法:处理数据的方式编程风格: 面向对象:把所有的操作都转化为对象的方式. 面向过 ...
NC16649 [NOIP2005]校门外的树
NC16649 [NOIP2005]校门外的树题目题目描述某校大门外长度为 $L$ 的马路上有一排树,每两棵相邻的树之间的间隔都是 $1$ 米.我们可以把马路看成一个数轴,马路的一端在数 ...
RocketMQ 集群的搭建部署以及rocketmq-console-ng仪表台的安装部署
在 RocketMQ 主要的组件如下. NameServerNameServer 集群,Topic 的路由注册中心,为客户端根据 Topic 提供路由服务,从而引导客户端向 Broker 发送消息.N ...
MarkDown语法——更好地写博客
MarkDown语法--更好地写博客我们在学习过程中要尽量养成编写博客的好习惯:一方面方便自己在学习之后进行一次汇总,其次自己书写的文章可以在以后的时间里反复查看以便于巩固,在找工作时博客也是被招 ...
爬虫（14） - Scrapy-Redis分布式爬虫(1) | 详解
1.什么是Scrapy-Redis Scrapy-Redis是scrapy框架基于redis的分布式组件,是scrapy的扩展:分布式爬虫将多台主机组合起来,共同完成一个爬取任务,快速高效地提高爬取效 ...
【ArcGIS教程】专题图制作-人口密度分布图——人口密度分析
本篇以湖北省为例,制作人口密度分布图:这里所使用的为湖北省的省.市.县三个级别的行政区划矢量数据,以及居民点数据,进而进行密度分析. 示例数据来源于地理遥感生态网,网站地址www.gisrs.c ...
python虚拟环境（python+conda）
python的不同虚拟环境就相当于在电脑上装了很多个python.下面写python创建虚拟环境.conda创建虚拟环境和在pycharm中配置一下. python -m venv (要创虚拟环境的路 ...

.md图片链接转存并替换路径，及相关报错解决方法

最初我想把Typora中.md文件中的web图片链接都下载保存到本地，并且替换.md文本中的路径

说干就干，因为在网上没有找到现成的程序所以自己写了这个程序

思路是循环查找文件夹中的文件，然后yield返回

再用readlines()方法读取该文件，开始是采用 r 模式读取，后来遇到一些编码问题就改为 rb 模式，后面会介绍

获取文件中的数据后按行得到了一个list，再对每行进行正则匹配，匹配到图片链接就进行下载，并返回该文件名

再用正则替换该文件内容，大致就是这样

从文件夹获取文件函数

得到文件路径进行读取， 但显示编码报错 "UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 48: illegal multibyte sequence"

然后我试了加encoding="gbk"和utf-8编码格式都不行，最后采取rb二进制读取解决此问题

下面是对数据匹配后进行替换，代码如下

代码中用到了海象运算符，所以python版本要在3.8及以上，或者自行改动一点代码就能使用

因为一个文件中有许多个图片链接，所以我采用readlines方式读取，得到一个list的二进制数据文件

在对该文件数据进行正则匹配，但是匹配时候报错 "TypeError: cannot use a string pattern on a bytes-like object"

解决方法就是在正则匹配语句前加上 b 转为对二进制匹配，不加b默认是字符串匹配，参考如下

下面是下载文档中图片链接的代码，源码如下

创建文件夹下载图片保存到里面，也没啥需要多讲的 略过~

下一步进行多线程优化，代码如下

下面是完整的程序源码，分享给有需要的同志

码字不易，还请各位三连鼓励(^v^)

.md图片链接转存并替换路径，及相关报错解决方法的更多相关文章

随机推荐

热门专题

　得到文件路径进行读取，但显示编码报错 "UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 48: illegal multibyte sequence"

创建文件夹下载图片保存到里面，也没啥需要多讲的略过~