【pyhon】nvshens图片批量下载爬虫1.01
# nvshens图片批量下载爬虫1.01 # 原先版本在遇到网络故障时回下载不全,这回更改了模式使得下载不成就重新下载,直到全部下载完毕 from bs4 import BeautifulSoup import requests import time import urllib.request user_agent='Mozilla/4.0 (compatible;MEIE 5.5;windows NT)' headers={'User-Agent':user_agent} # 找到的图片 pictures=[] # 不断追逐,直到结束 def crawl(url): print("爬取页面"+url); try: rsp=requests.get(url,headers=headers) soup= BeautifulSoup(rsp.text,'html.parser',from_encoding='utf-8') nextUrl="none"; for divs in soup.find_all(class_="gallery_wrapper"): # 把找到的图片放到数组里去 for img in divs.find_all('img'): print(img.get("src")) pictures.append(img.get("src")) #找下一页 for link in divs.find_all('a',class_='a1'): if link.string=='下一页' and link.get("href").find('.html')!=-1: nextUrl='https://www.nvshens.com'+link.get("href"); #if len(pictures)>10: # downloadPics() #time.sleep(5) if nextUrl!="none": print("前往下一页"); crawl(nextUrl) else: print('爬取结束,开始下载...') downloadPics() print('下载结束,nvshens图片批量下载爬虫工作完毕.') except Exception as e: print("发生异常。重新爬行")# 不管怎么出现的异常,就让它一直爬到底 crawl(url) # 下载图片到本地 def downloadPics(): while(len(pictures)>0): pic=pictures.pop() name=pic.split('/')[-1] try: rsp=urllib.request.urlopen(pic) img=rsp.read() with open(name,'wb') as f: f.write(img) print('图片'+pic+'下载完成') except Exception as e: print('图片'+pic+'下载异常,塞回重试') pictures.append(pic); # Kickoff Start # https://www.nvshens.com/g/22268/ crawl('https://www.nvshens.com/g/22210/')
输出:
C:\Users\horn1\Desktop\python\7>python downloadall.py 爬取页面https://www.nvshens.com/g/22210/ C:\Users\horn1\AppData\Local\Programs\Python\Python36\lib\site-packages\bs4\__init__.py:146: UserWarning: You provided Unicode markup but also provided a value for from_encoding. Your from_encoding will be ignored. warnings.warn("You provided Unicode markup but also provided a value for from_encoding. Your from_encoding will be ignored.") https://img.onvshen.com:85/gallery/23789/22210/s/0.jpg https://img.onvshen.com:85/gallery/23789/22210/s/001.jpg https://img.onvshen.com:85/gallery/23789/22210/s/002.jpg https://img.onvshen.com:85/gallery/23789/22210/s/003.jpg https://img.onvshen.com:85/gallery/23789/22210/s/004.jpg 前往下一页 爬取页面https://www.nvshens.com/g/22210/2.html https://img.onvshen.com:85/gallery/23789/22210/s/005.jpg https://img.onvshen.com:85/gallery/23789/22210/s/006.jpg https://img.onvshen.com:85/gallery/23789/22210/s/007.jpg https://img.onvshen.com:85/gallery/23789/22210/s/008.jpg https://img.onvshen.com:85/gallery/23789/22210/s/009.jpg 前往下一页 爬取页面https://www.nvshens.com/g/22210/3.html https://img.onvshen.com:85/gallery/23789/22210/s/010.jpg https://img.onvshen.com:85/gallery/23789/22210/s/011.jpg https://img.onvshen.com:85/gallery/23789/22210/s/012.jpg https://img.onvshen.com:85/gallery/23789/22210/s/013.jpg https://img.onvshen.com:85/gallery/23789/22210/s/014.jpg 前往下一页 爬取页面https://www.nvshens.com/g/22210/4.html https://img.onvshen.com:85/gallery/23789/22210/s/015.jpg https://img.onvshen.com:85/gallery/23789/22210/s/016.jpg https://img.onvshen.com:85/gallery/23789/22210/s/017.jpg https://img.onvshen.com:85/gallery/23789/22210/s/018.jpg https://img.onvshen.com:85/gallery/23789/22210/s/019.jpg 前往下一页 爬取页面https://www.nvshens.com/g/22210/5.html https://img.onvshen.com:85/gallery/23789/22210/s/020.jpg https://img.onvshen.com:85/gallery/23789/22210/s/021.jpg https://img.onvshen.com:85/gallery/23789/22210/s/022.jpg https://img.onvshen.com:85/gallery/23789/22210/s/023.jpg https://img.onvshen.com:85/gallery/23789/22210/s/024.jpg 前往下一页 爬取页面https://www.nvshens.com/g/22210/6.html https://img.onvshen.com:85/gallery/23789/22210/s/025.jpg https://img.onvshen.com:85/gallery/23789/22210/s/026.jpg https://img.onvshen.com:85/gallery/23789/22210/s/027.jpg https://img.onvshen.com:85/gallery/23789/22210/s/028.jpg https://img.onvshen.com:85/gallery/23789/22210/s/029.jpg 前往下一页 爬取页面https://www.nvshens.com/g/22210/7.html https://img.onvshen.com:85/gallery/23789/22210/s/030.jpg https://img.onvshen.com:85/gallery/23789/22210/s/031.jpg https://img.onvshen.com:85/gallery/23789/22210/s/032.jpg https://img.onvshen.com:85/gallery/23789/22210/s/033.jpg https://img.onvshen.com:85/gallery/23789/22210/s/034.jpg 前往下一页 爬取页面https://www.nvshens.com/g/22210/8.html https://img.onvshen.com:85/gallery/23789/22210/s/035.jpg https://img.onvshen.com:85/gallery/23789/22210/s/036.jpg https://img.onvshen.com:85/gallery/23789/22210/s/037.jpg https://img.onvshen.com:85/gallery/23789/22210/s/038.jpg https://img.onvshen.com:85/gallery/23789/22210/s/039.jpg 爬取结束,开始下载... 图片https://img.onvshen.com:85/gallery/23789/22210/s/039.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/039.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/038.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/038.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/038.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/037.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/036.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/036.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/035.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/034.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/033.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/032.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/031.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/030.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/029.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/028.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/028.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/027.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/027.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/026.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/025.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/025.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/025.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/024.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/024.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/024.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/023.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/022.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/022.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/021.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/020.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/019.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/019.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/019.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/019.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/018.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/018.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/018.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/017.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/016.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/015.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/014.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/013.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/012.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/011.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/010.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/009.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/008.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/008.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/008.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/007.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/006.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/005.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/005.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/005.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/005.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/005.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/004.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/003.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/002.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/001.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/0.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/0.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/0.jpg下载完成 下载结束,nvshens图片批量下载爬虫工作完毕.
:)
【pyhon】nvshens图片批量下载爬虫1.01的更多相关文章
- Node.js nvshens图片批量下载爬虫1.01
//====================================================== // nvshens图片批量下载爬虫1.01 // 用最近的断点续传框架改写原有1.0 ...
- 【pyhon】nvshens图片批量下载爬虫
代码: # nvshens图片批量下载爬虫 from bs4 import BeautifulSoup import requests import time import urllib.reques ...
- Node.js mm131图片批量下载爬虫1.01 增加断点续传功能
这里的断点续传不是文件下载时的断点续传,而是指在爬行页面时有时会遇到各种网络中断而从中断前的页面及其数据继续爬行的过程,这个过程和断点续传原理上相似故以此命名.我的具体做法是:在下载出现故障或是图片已 ...
- Node.js nvshens图片批量下载爬虫 1.00
//====================================================== // www.nvshens.com图片批量下载Node.js爬虫1.00 // 此程 ...
- Node.js meitulu图片批量下载爬虫1.01版
在 http://www.cnblogs.com/xiandedanteng/p/7614051.html 一文我曾经书写过一个图片下载爬虫,但原有程序不是为下载图片而设计故有些绕,于是稍微改写了一下 ...
- 【pyhon】nvshens按目录图片批量下载爬虫1.00(多线程版)
# nvshens按目录图片批量下载爬虫1.00(多线程版) from bs4 import BeautifulSoup import requests import datetime import ...
- Node.js abaike图片批量下载爬虫1.02
//====================================================== // abaike图片批量下载爬虫1.02 // 用最近的断点续传框架改写原有1.01 ...
- Node.js meitulu图片批量下载爬虫1.051
原有1.05版程序没有断点续传模式,现在在最近程序基础上改写一版1.051. //====================================================== // m ...
- Node.js mzitu图片批量下载爬虫1.00
又攻下一座山头. //====================================================== // mzitu图片批量下载爬虫1.00 // 2017年11月19 ...
随机推荐
- react篇章-React 组件-ES6 class 来定义一个组件
<!DOCTYPE html> <html> <head> <meta charset="UTF-8" /> <title&g ...
- 11.6八校联考T1,T2题解
因为版权问题,不丢题面,不放代码了(出题人姓名也隐藏) T1 这,是一道,DP题,但是我最开始看的时候,我思路挂了,以为是一道简单题,然后就写错了 后来,我正确理解题意后写了个dfs,幸亏没有记忆化, ...
- bWAPP练习--injection篇SQL Injection (GET/Search)
SQL注入: SQL注入,就是通过把SQL命令插入到Web表单提交或输入域名或页面请求的查询字符串,最终达到欺骗服务器执行恶意的SQL命令.具体来说,它是利用现有应用程序,将(恶意)的SQL命令注入到 ...
- 【BZOJ 2671】 2671: Calc (数论,莫比乌斯反演)
2671: Calc Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 303 Solved: 157 Description 给出N,统计满足下面条件 ...
- Linux下对拍程序
在程序对应文件夹下存为.sh文件 在终端命令中进入相应文件夹,用 sh XXX.sh 调用 while true; do ./datamaker>tmp.in ./baoli<tmp.in ...
- Apache之.htaccess备忘录(一)
.htaccess文件是Apache服务器中的一个配置文件,它负责相关目录下的网页配置,也是使用apache的同学最常碰到的文件,下面罗列一些常用的知识,以备不时之需. 1 . 如何让Apache支持 ...
- python学习一月总结_汇总大牛们的思想_值得收藏
''' 下面是我汇总的我学习一个月python(version:3.3.2)的所有笔记 你可以访问:http://www.python.org获取更多信息 你也可以访问:http://www.cnbl ...
- 最新iOS砸壳方式Frida (Mac OSX)
1. 安装Frida 首先需要安装Python3,我下载的是 macOS 64-bit installer 安装,因Macbook本机自带python为2.7.x,故需要配置~/.bash_profi ...
- 慢查询日志分析工具之pt-query-digest
简介 pt-query-digest 是用于分析mysql慢查询的一个工具,与mysqldumpshow工具相比,py-query_digest 工具的分析结果更具体,更完善. 有时因为 ...
- 打开/查找xcode6的沙盒地目录
用以下代码 打开沙盒目录 NSArray *paths = NSSearchPathForDirectoriesInDomains(NSDocumentDirectory, NSUserDomainM ...