yandex 图片自动下载命令行程序

一个在 yandex 上搜索图片并下载到本地的 node cli 程序.

使用帮助:

$0 <搜索关键词> [-t=超时(默认 1000)] [-r 是否替换下载(默认 false)]

示例:

$0 shop # 搜索 shop 并下载

$0 shop -t=0 # 不使用超时

$0 shop -t=0 -r # 覆盖重名文件

一个群友让做的程序, ￥100. 需求就是使用 yandex 搜索图片, 并自动下载到本地.

分析

打开 https://yandex.com/images/search?text=shop
查看 images/search? 请求, p={当前页数}
返回结果 blocks[0].params.lastPage 是最大页数
返回结果中所有 img_url={原图地址}

win 下简单的命令行交互

这里用批处理实现, 其实 node 中也可以做交互的.

C:.

│  yandex 图片自动下载.bat

│

└─lib

        node_modules

        index.js

        node.exe

yandex 图片自动下载.bat 文件内容

color f0 && chcp 936 && cls && @echo off

title yandex 图片自动下载

mode con cols=120 lines=30

:down

set /p keyword=输入关键词开始下载:

.\lib\node.exe .\lib\index.js "%keyword%"

echo ==========================

echo 全部下载完成

goto :down

源码

index.js

const fs = require('fs')

const url = require('url')

const path = require('path')

const fly = require('flyio')

const text = process.argv[2]

if(text === undefined) {

  console.log(`

使用帮助:

$0 <搜索关键词> [-t=超时(默认 10000)] [-r 是否替换下载(默认 false)]

示例:

$0 shop # 搜索 shop 并下载

$0 shop -t=0 # 不使用超时

$0 shop -t=0 -r # 覆盖重名文件

`)

return

}

const argv = parseArgv()

const userConfig = {

  text, // 用户搜索的关键词

  timeout: argv['-t'] === undefined ? 10000 : Number(argv['-t']), // 设置超时时间, 默认 10 秒

  replace: argv['-r'] || false, // 是否替换下载, 默认否

}

const config = userConfig

fly.config.timeout = config.timeout

const downHistoryFile = `${process.cwd()}/download.txt`

fs.writeFileSync(downHistoryFile, '')

const downDir = `${process.cwd()}/download`

new Promise(async () => {

  let text = userConfig.text

  let {urls: lastUrls = [], lastPage = 0} = (await getImgUrls({text}).catch(err => console.log('err', err))) || {}

  if(lastPage === 0) {

    console.log('没有搜索结果, 你可以更换关键词重试')

    return

  }

  for (let p = 0; p < lastPage; p++) {

    let curPage = p + 1

    let urls = []

    if(curPage === 1) {

      urls = lastUrls

    } else {

      let getRes = await getImgUrls({text, p: curPage}).catch(err => console.log('err', err))

      urls = (getRes || {}).urls || [] // 获取页数

    }

    urls = [...new Set(urls)] // 去除重复的 url

    // urls = urls.slice(0, 3)

    const paseUrls = []

    urls.map(item => {

      const {pathname, href} = url.parse(item)

      let {base, ext, name} = path.parse(pathname);

      ext = ext || '.jpg' // 如果没有扩展名时, 默认给定为 jpg

      // let fullName = paseUrls.find(item => item.fullName === base)  // 如果保存文件名重复, 则添加时间戳处理

      //   ? `${name}_${uuid()}_${ext}`

      //   : base

      // let fullName = `${name}_${uuid()}_${ext}`

      let fullName = `${name || uuid()}${ext}`

      paseUrls.push({

        name,

        fullName,

        href,

      })

    })

    console.log(`正在下载第 ${curPage}/${lastPage} 页`)

    await Promise.all(paseUrls.map(item => download(item.href, item.fullName))).finally(async () => {

      console.log(`第 ${curPage}/${lastPage} 页下载完成`)

    })

  }

})

function hasFile(filePath) {

  return fs.existsSync(filePath)

}

function parseArgv() {

  return process.argv.slice(2).reduce((acc, arg) => {

    let [k, v = true] = arg.split('=')

    acc[k] = v

    return acc

  }, {})

}

async function getImgUrls(arg = {}) {

  arg = {

    text: 'shop',

    p: 1,

    ...arg,

  }

  return new Promise((resolve, reject) => {

    console.log(`正在查找图片, 关键词: ${arg.text}, 页: ${arg.p}`)

    let api = `https://yandex.com/images/search?format=json&request=%7B%22blocks%22%3A%5B%7B%22block%22%3A%22serp-controller%22%2C%22params%22%3A%7B%7D%2C%22version%22%3A2%7D%2C%7B%22block%22%3A%22serp-list_infinite_yes%22%2C%22params%22%3A%7B%22initialPageNum%22%3A0%7D%2C%22version%22%3A2%7D%2C%7B%22block%22%3A%22more_direction_next%22%2C%22params%22%3A%7B%7D%2C%22version%22%3A2%7D%2C%7B%22block%22%3A%22gallery__items%3Aajax%22%2C%22params%22%3A%7B%7D%2C%22version%22%3A2%7D%5D%2C%22bmt%22%3A%7B%22lb%22%3A%22%22%7D%2C%22amt%22%3A%7B%22las%22%3A%22justifier-height%3D1%3Bthumb-underlay%3D1%3Bjustifier-setheight%3D1%3Bfitimages-height%3D1%3Bjustifier-fitincuts%3D1%3Bchunk.219.0%3D1%3Bchunk.169.0%3D1%22%7D%7D&yu=2650822041574437239&p=${arg.p}&text=${encodeURIComponent(arg.text)}&rpt=image&uinfo=sw-1920-sh-1200-ww-905-wh-1045-pd-2-wp-16x10_2560x1600`

    // console.log('api', api)

    fly.get(api)

      .then(res => {

        const data = res.data

        handleData(data, r => resolve(r))

      }).catch(err => {

        reject(err)

      })

  })

}

function execSync(cmd, out = false) {

  const child_process = require('child_process')

  let str = child_process.execSync(cmd).toString().trim()

  out && console.log(str)

  return str

}

async function handleData(data, cb) {

  try {

    const lastPage = data.blocks[0].params.lastPage

    const urls = []

    data.blocks.forEach(item => {

      (item.html.match(/img_url=.*?&/g) || []).forEach(item => {

        urls.push(decodeURIComponent((item.match(/img_url=(.*?)&/) || [])[1] || ""))

      })

    })

    cb({

      lastPage,

      urls,

    })

  } catch (error) {

    console.log('error', error)

    cb({

      msg: '搜索结果出现错误',

      error,

      lastPage: 0,

      urls: [],

    })

  }

}

async function download(u, p) {

  fs.writeFileSync(downHistoryFile, fs.readFileSync(downHistoryFile) + u + '\r\n')

  const savePath = `${downDir}/${p}`

  if(!config.replace && hasFile(savePath)) {

    console.log(`跳过已下载 ${p}`)

    return true

  } else {

    if(!hasFile(downDir)) {

      fs.mkdirSync(downDir)

    }

    return fly.download(u, savePath)

    .then(d => {

      console.log(`下载成功: ${p}`)

    })

    .catch(err => console.log('err', err.message))

  }

}

function uuid(sep = '') {

  let increment = process.increment === undefined ? (process.increment = 1) : (process.increment = (process.increment + 1))

  return `${Date.now()}_${increment}`.replace(/_/g, sep)

}

package.json

{

  "name": "getImg",

  "version": "1.0.0",

  "description": "",

  "main": "index.js",

  "keywords": [],

  "author": "xw",

  "dependencies": {

    "flyio": "^0.6.14",

    "request": "^2.88.0"

  },

  "license": "ISC"

}

注:
本程序有个小问题, 懒得解决, 看大家能不能发现.

yandex 图片自动下载的更多相关文章

【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器制作爬虫的基本步骤顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 分析需求(对,需求分析非常重要, ...
MIT-Adobe FiveK Dataset 图片自动下载
MIT-Adobe FiveK Dataset 图片自动下载 MIT-Adobe FiveK是现在很多做图像增强(image enhancement)与图像修饰(image retouching)方面 ...
【Python开发】【神经网络与深度学习】网络爬虫之图片自动下载器
python爬虫实战--图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识(没看的赶紧去看)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap show ...
如何用Python爬虫实现百度图片自动下载？
Github:https://github.com/nnngu/LearningNotes 制作爬虫的步骤制作一个爬虫一般分以下几个步骤: 分析需求分析网页源代码,配合开发者工具编写正则表达式或 ...
dedecms复制网上的带有图片的文章，图片不能自动下载到本地的解决方法
dede有时看到比较好的文章需要复制,粘贴到自己的dede后台发布,dede是有图片自动本地化的功能,就是复制过来后自动下载到你的服务器上了,这样省去了你单独去另存图片再上传的过程,尤其是遇到有很多图 ...
基于.NetCore开发博客项目 StarBlog - (17) 自动下载文章里的外部图片
系列文章基于.NetCore开发博客项目 StarBlog - (1) 为什么需要自己写一个博客? 基于.NetCore开发博客项目 StarBlog - (2) 环境准备和创建项目基于.NetC ...
【壁纸自动换】自动下载、更换壁纸（Bing壁纸）--XinBSBingWallPaper[2.7更新]
XinBSBingWallPaper主要功能: 1.支持自动下载Bing壁纸.Netbian壁纸.美国国家地理杂志图片. 2.自动搜索.下载多国Bing首页壁纸. 3.支持定时自动更换桌面壁纸. 4. ...
JS图片自动或者手动滚动效果(支持left或者up)
JS图片自动或者手动滚动效果(支持left或者up) JS图片自动或者手动滚动效果在谈组件之前来谈谈今天遇到搞笑的事情,今天上午接到一个杭州电话 0571-28001187 即说是杭州人民法院的 ...

随机推荐

Ettercap 详细参数
Ettercap最初设计为交换网上的sniffer,但是随着发展,它获得了越来越多的功能,成为一款有效的.灵活的中介攻击工具.它支持主动及被动的协议解析并包含了许多网络和主机特性(如OS指纹等)分析. ...
Httpd服务入门知识-Httpd服务常见配置案例之MPM（ Multi-Processing Module）多路处理模块
Httpd服务入门知识-Httpd服务常见配置案例之MPM( Multi-Processing Module)多路处理模块作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.M ...
PAT甲级1015题解——令人迷茫的翻译
题目分析: 本题计算过程简单,但翻译令我迷茫:题意读清楚很重要(反正我是懵逼了)对于一个10进制的数,如果它是一个素数,把它转换成d进制,再将这个序列逆序排,这个逆序的d进制数的10进制表示如果也是素 ...
Mysql五大约束
Mysql五大约束约束:对表中数据的限制.保证表中数据的准确和可靠 (1)NOT NULL:非空,用于保证该字段的值不能为空 (2)DEFAULT:默认,用于保证该字段有默认值(3)PRIMARY ...
SpringBoot整合Spring Data Elasticsearch
Spring Data Elasticsearch提供了ElasticsearchTemplate工具类,实现了POJO与elasticsearch文档之间的映射 elasticsearch本质也是存 ...
03_vlan & access & trunk 口（数通华为）
1. 网络拓扑: 2. SW1配置: 2.1 关闭设备调试信息:<Huawei>undo terminal monitor <Huawei>undo terminal debu ...
OKR失败的五个关键因素
OKR是近年来的一个热点话题,这种目标管理法在谷歌体现了它非凡的价值,也因此被Facebook.Linkedin等公司所引用.从实践成功的案例看来,OKR确实是一种可以明确公司目标.促进公司发展的有价 ...
[RN] React Native中使用 react-native-scrollable-tab-view嵌套在ScrollView里，导致子内容在安卓上无法显示
React Native中使用 react-native-scrollable-tab-view嵌套在ScrollView里,导致子内容在安卓上无法显示问题: 0.9.0 或 0.8.0 版本的 ...
字典树(Trie)学习笔记
目录什么是字典树如何存储字典树如何查找字符串有没有出现第一个图的那种线段树应用例题 1.统计难题 2.P2580 于是他错误的点名开始了什么是字典树上图来自luogu题解这是一种字典 ...
codevs 2803 爱丽丝·玛格特罗依德
二次联通门 : codevs 2803 爱丽丝·玛格特罗依德 /* codevs 2803 爱丽丝·玛格特罗伊德高精 + 找规律显然, 能拆3就多拆3 不能拆就拆2 注意特判一下 */ #incl ...

yandex 图片自动下载

yandex 图片自动下载命令行程序

分析

win 下简单的命令行交互

源码

yandex 图片自动下载的更多相关文章

随机推荐

热门专题