用IDM下载博客图片

前言

写博客的人一定都会有一个图床，将图片存在那里。发现自己以前没有注意图片来源问题，随手就贴在博客上面了。现在有不少图片都挂了，换句话来说有可能自己目前用的图床不提供服务了，那所有的图片都有可能丢失......所以打算写个脚本，把以前博客的图片保存下来，并在以后发博的时候注意保存本地图片。emmm，程序如下，主要是个人用脚本，所以很多地方就是图自己的方便、根据自己的情况写的:

代码

# -*- coding: utf-8 -*-

import os

import requests

from bs4 import BeautifulSoup

import re

import time

from subprocess import call

path = "./back_up/"

url = "https://www.cnblogs.com/yunlambert/p/"

model = 'http://equations.online/'

def download(DownUrl, DownPath, OutPutFileName):

    IDM = r'D:\yun_install_software\IDM\IDMan.exe'

    DownPath = r'E:\workstation\Github\Blog_Pictures\back_up'

    call([IDM, '/d', DownUrl, '/p', DownPath, '/f', OutPutFileName, '/n'])

def get_url(url):

    try:

        headers = {

            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ''Chrome/51.0.2704.63 Safari/537.36'}

        response = requests.get(url, headers=headers, timeout=30)

        if response.status_code == 200:

            return response.text

        else:

            print(response.status_code)

            return None

    except:

        print('Error open the page... ')

        return None

def get_pages(post_page):

    pages = []

    while True:

        try:

            post_pages = post_page.find_all(name="a")[-2].get('href')

            temp = get_url("https://www.cnblogs.com" + post_pages)

            post_page = BeautifulSoup(temp, "lxml")

            pages.append("https://www.cnblogs.com" + post_pages)

            # print(post_pages)

        except Exception as e:

            print(Exception, ":", e)

            break

    return pages

def main():

    folder = os.path.exists(path)

    if not folder:

        os.makedirs(path)

    html = get_url(url)

    soup = BeautifulSoup(html, "lxml")

    post_page_1 = soup.find(name='div', attrs={"class": "Pager"})

    post_page = get_pages(post_page_1)

    post_page.insert(0, "https://www.cnblogs.com/yunlambert/p/?page=1")

    print(post_page)

    post_article = []

    for i in range(0, len(post_page)):

        link = post_page[i]

        page = BeautifulSoup(get_url(link), "lxml")

        try:

            article = page.find_all(name="div", attrs={"class": "postTitl2"})

            for j in range(0, len(article)):

                post_article.append(article[j].a.get("href"))

        except Exception as e:

            print(Exception, ":", e)

            continue

    print(post_article)

    img_url_list = []

    for i in range(0, len(post_article)):

        print("new article....")

        m = get_url(post_article[i])

        soup_article = BeautifulSoup(m, "lxml")

        replace_pattern = r'<[img|IMG].*?/>'  # img标签的正则式

        img_url_pattern = r'.+?src="(\S+)"'  # img_url的正则式

        # 只在段落中查找图片

        need_replace_list = re.findall(replace_pattern, str(soup_article.find_all('p')))  # 找到所有的img标签

        for tag in need_replace_list:

            if re.findall(img_url_pattern, tag) != []:

                download_path = "E:\\workstation\\Github\\Blog_Pictures\\back_up\\"

                # download_name = re.findall(img_url_pattern, tag)[0].split('/')[-6]

                now = time.strftime("%Y-%m-%d-%H_%M_%S", time.localtime(time.time()))

                download_name = now + ".png"

                download(re.findall(img_url_pattern, tag)[0], download_path, download_name)

                print(re.findall(img_url_pattern, tag)[0])

                img_url_list.append(re.findall(img_url_pattern, tag)[0])  # 找到所有的img_url

if __name__ == "__main__":

    main()

用IDM下载博客图片的更多相关文章

Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片
Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片, ...
hexo博客图片问题
hexo博客图片问题第一步首先确认_config.yml 中有 post_asset_folder:true. Hexo 提供了一种更方便管理 Asset 的设定:post_asset_folde ...
Ruby：多线程队列(Queue)下载博客文章到本地
Ruby:多线程下载博客文章到本地的完整代码 #encoding:utf-8 require 'net/http' require 'thread' require 'open-uri' requir ...
利用Python进行博客图片压缩
自己写博客的时候常常要插入一些手机拍的照片,都是几M的大小,每张手动压缩太费事了,于是根据自己博客的排版特点用Python写了一个简单的图片压缩脚本,功能是将博客图片生成缩略图,横屏的图片压缩为宽度最 ...
博客图片失效？使用npm工具一次下载/替换所有失效的外链图片
前言大约一个月前,微博的图片外链失效了,以及掘金因为盗链问题也于2019/06/06决定开启防盗链,造成的影响是:个人博客网站的引用了这些图片外链都不能显示. 目前微博和掘金的屏蔽,在CSDN和se ...
网易云免费OSS服务用做Markdown图床或博客图片外链
我使用据说是Windows下最好用的Markdown编辑器“MarkdownPad2”(个人感觉还是Visual Code+Markdown插件666)写Markdown,在贴图方面遇到一个问题,于是 ...
博客图片上传picgo工具安装配置github图传使用
摘要对于每一个写博客的人来说,图片是至关重要.这一路经历了多次图片的烦恼,之前选择了微博个人文章那里粘贴图片的方式上传,感觉也挺方便的.但是由于新浪的图片显示问题,如果header中不设置标签就不 ...
修正_typora文档复制到博客图片失效
开始今天开始尝试使用 Typora 写markdown 然后复制到博客园,不过会有一个问题那就是 typroa 插入的图片都是本地的,md文档复制到博客园之后,图片都失效了通过百度,有工具可以直 ...
Hexo 博客图片添加至图床---腾讯云COS图床使用。
个人博客:https://mmmmmm.me 源码:https://github.com/dataiyangu/dataiyangu.github.io 腾讯云官网登录注册创建存储桶进入上面的存 ...

随机推荐

C#中的IEnumerator、foreach、yield
[C#中的IEnumerator.foreach.yield] 1.IEnumerator,是一个接口,它的方法如下: 2.foreach语句,在编译后会变成IEnumerator的调用: 3.yie ...
JAVA 微信开发
公司最近要搭建一个java的微信系统,感觉自己没有记录的很多所以从今天开始每天开始更新一遍java的微信文章记录. 如有兴趣的可以加入群463676190,一起交流交流
仿函数（二、stl中常用仿函数）
提到C++ STL,首先被人想到的是它的三大组件:Containers, Iterators, Algorithms,即容器,迭代器和算法.容器为用户提供了常用的数据结构,算法大多是独立于容器的常用的 ...
当集合里存储的是URL时的一些问题总结
先看道题吧: package com.lk.C; import java.net.MalformedURLException; import java.net.URL; import java.uti ...
Android NDK打印log到logcat的方法
头文件 : <android/log.h> 函数: __android_log_print(ANDROID_LOG_XXX,LOG_TAG,content) 第一个参数是Log级别,比如: ...
CF 1091E New Year and the Factorisation Collaboration
昨晚Good Bye 2018D题没做出来,车翻大了…… 官方题解传送门初赛知识:一个无向图所有顶点度数之和为偶数.然而这东西还有一个高端的名字:Handshaking lemma 但是 ...
SpringMVC——视图和视图解析器
请求处理方法执行完成后,最终返回一个 ModelAndView对象.对于那些返回 String,View 或 ModeMap 等类型的处理方法,Spring MVC 也会在内部将它们装配成一个Mode ...
Xcode弱网测试工具
Network Link Conditioner Network Link Conditioner工具是Mac下提供的一个弱网测试工具. 安装Network Link Conditioner Xcod ...
ADB常用命令简洁版整理
ADB全称Android Debug Bridge ,“安卓调试桥梁”连接Android和电脑通信的桥梁. 市面上常见的手机助手,底层调研的都是ADB命令行. C/S架构命令行工具,客户端和服务端都 ...
css总结13：CSS 伪类(Pseudo-classes)
1 伪类作用:CSS伪类是用来添加一些选择器的特殊效果. 2 常用示例: 2.1anchor伪类:代码: 正常语法: a{color:#FF0000;}/* 文字颜色 */ 伪类语法: a:l ...

用IDM下载博客图片

前言

代码

用IDM下载博客图片的更多相关文章

随机推荐

热门专题