python批量下载图片的三种方法

　　一是用微软提供的扩展库win32com来操作IE：

win32com可以获得类似js里面的document对象，但貌似是只读的（文档都没找到）。

　　二是用selenium的webdriver：

selenium则提供了Chrome，IE，FireFox等的支持，每种浏览器都有execute_script和find_element_by_xx方法，可以方便的执行js脚本（包括修改元素）和读取html里面的元素。不足是selenium只提供对python2.6和2.7的支持。

　　三是用python自带的HTMLParser解析：

HTMLParser则是需要自己写个类继承基类，重写解析元素的方法。

1.win32com

 #将滚动条滑到底,最多滑动20000像素

 #模拟键盘右键，查看多张图片

 import sys

 import win32com.client,win32api

 import urllib.request

 import time

 import os

 def main():

     #获取参数

     url=sys.argv[1]

     #操作IE

     ie=win32com.client.Dispatch("InternetExplorer.Application")

     ie.Navigate(url)

     ie.Visible=True

     last_url=''

     dir_name=''

     while last_url!=url:

         print('\nThe URL is:',url,'\n')

         while ie.ReadyState != 4:

             time.sleep(1)

         while ie.Document.readyState != "complete":

             time.sleep(1)

         #滑动滚动条

         win=ie.Document.parentWindow

         lastY=-1;

         for i in range(40):

             win.scrollTo(0,500*i)

             nowY=win.pageYOffset

             if(nowY==lastY):

                 break

             lastY=nowY

             time.sleep(0.4)

         print('Document load state:',ie.Document.readyState)

         doc=ie.Document

         #第一次需要创建目录

         if(dir_name==''):

             root_dir='E:\\img'

             dir_name=root_dir+'\\'+doc.title

             dir_name=dir_name.replace('|','-')

             if(os.path.exists(root_dir)!=True):

                 os.mkdir(root_dir)

             if(os.path.exists(dir_name)!=True):

                 os.mkdir(dir_name)

         all_image=doc.images

         print('共有',all_image.length,'张图片')

         count=0;

         for img in all_image:

             if(img.id=='b_img'):

                 count=count+1

                 print(count,img.src)

                 time.sleep(1)

                 img_file=urllib.request.urlopen(img.src)

                 byte=img_file.read()

                 print(count,'donwload complete!','-'*10,'size:','{:.3}'.format(byte.__len__()/1024),'KB')

                 if(byte.__len__()>7000):

                     file_name=img.src.replace('/','_')

                     file_name=file_name.replace(':','_')

                     end=file_name.__len__()

                     if(file_name.rfind('!')!=-1):

                         end=file_name.rfind('!')

                     if(file_name.rfind('?')!=-1):

                         end=file_name.rfind('?')

                     file_name=file_name[:end]

                     write_file=open(dir_name+'\\'+file_name,'wb')

                     write_file.write(byte)

                     write_file.close()

                     print(count,file_name,'complete!')

         #下一张

         last_url=url

         win32api.keybd_event(39,0)

         time.sleep(1)

         url=ie.Document.url

         print(last_url,url)

     #ie.Quit()

 if __name__ == '__main__':

     main()

2.selenium

 # -*- coding: cp936 -*-

 import sys

 import urllib

 import time

 import os

 from selenium import webdriver

 def main():

     #获取参数

     url=sys.argv[1]

     #操作IE

     driver=webdriver.Chrome()

     driver.get(url)

     driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

     #创建目录

     dir_name=driver.find_element_by_tag_name('title').text

     print dir_name

     root_dir='E:\\img'

     dir_name=root_dir+'\\'+dir_name

     dir_name=dir_name.replace('|','-')

     if(os.path.exists(root_dir)!=True):

         os.mkdir(root_dir)

     if(os.path.exists(dir_name)!=True):

         os.mkdir(dir_name)

     images=driver.find_elements_by_tag_name('img')

     count=0

     for image in images:

         count=count+1

         image_url=str(image.get_attribute('src'))

         img_file=urllib.urlopen(image_url)

         byte=img_file.read()

         print count,'donwload complete!','-'*10,'size:',byte.__len__()/1024,'KB'

         if(byte.__len__()>7000):

             file_name=image_url.replace('/','_')

             file_name=file_name.replace(':','_')

             end=file_name.__len__()

             if(file_name.rfind('!')!=-1):

                 end=file_name.rfind('!')

             if(file_name.rfind('?')!=-1):

                 end=file_name.rfind('?')

             file_name=file_name[:end]

             write_file=open(dir_name+'\\'+file_name,'wb')

             write_file.write(byte)

             write_file.close()

             print count,file_name,'complete!'

     driver.quit()

 if __name__ == '__main__':

     main()

3.HTMLParser:

 # import modules used here -- sys is a very standard one

 import sys

 import urllib.request

 # Gather our code in a main() function

 from html.parser import HTMLParser

 class MyHTMLParser(HTMLParser):

     def handle_starttag(self,tag,attrs):

         if(tag=='img'):

             for attr in attrs:

                 if(attr[0]=='src'):

                     img_file=urllib.request.urlopen(attr[1])

                     byte=img_file.read()

                     #文件大于1000b则生成文件,添加计数，下载多少图片，显示html代码

                     if(byte.__len__()>1000):

                         file_name=attr[1].replace('/','_')

                         file_name=file_name.replace(':','_')

                         end=file_name.__len__()

                         if(file_name.rfind('!')!=-1):

                             end=file_name.rfind('!')

                         if(file_name.rfind('?')!=-1):

                             end=file_name.rfind('?')

                         file_name=file_name[:end]

 ##                        print(file_name)

                         write_file=open('E:\\img\\'+file_name,'wb')

                         write_file.write(byte)

                         write_file.close()

 def main():

     #获取参数

     url=sys.argv[1]

     print('\nThe URL is:',url,'\n')

     #读取url所指向的资源

     html_file=urllib.request.urlopen(url)

     byte_content=html_file.read()

     #将html网页保存起来

     url_file=open('E:\\img\\html\\result.htm','wb')

     url_file.write(byte_content)

     url_file.close()

     #从字节转换为字符串

     s=str(byte_content, encoding = "utf-8")

     #print(s)

     #bytes.decode(html_file.read())

     parser=MyHTMLParser(strict=False)

     parser.feed(s)

 # Standard boilerplate to call the main() function to begin

 # the program.

 if __name__ == '__main__':

     main()

python批量下载图片的三种方法的更多相关文章

Python实现下载文件的三种方法
下面来看看三种方法是如何来下载zip文件的:方法一: import urllib print "downloading with urllib" url = 'http://www ...
Python 下载图片的三种方法
import os os.makedirs('./image/', exist_ok=True) IMAGE_URL = "http://image.nationalgeographic.c ...
前端下载图片的N种方法
前几天一个简单的下载图片的需求折腾了我后端大佬好几天,最终还是需要前端来搞,开始说不行的笔者最后又行了,所以趁着这个机会来总结一下下载图片到底有多少种方法. 先起个服务使用expressjs起个简单 ...
python实现XML解析的三种方法
python实现XML解析的三种方法三种方法:一是xml.dom.*模块,它是W3C DOM API的实现,若需要处理DOM API则该模块很适合:二是xml.sax.*模块,它是SAX API的实 ...
python下载文件的三种方法
Python开发中时长遇到要下载文件的情况,最常用的方法就是通过Http利用urllib或者urllib2模块. 当然你也可以利用ftplib从ftp站点下载文件.此外Python还提供了另外一种方法 ...
Android TextView里直接显示图片的三种方法
方法一:重写TextView的onDraw方法,也挺直观就是不太好控制显示完图片后再显示字体所占空间的位置关系.一般假设字体是在图片上重叠的推荐这样写.时间关系,这个不付源代码了. 方法二:利用Tex ...
url下载网页的三种方法
# -*- coding: utf-8 -*- import cookielib import urllib2 url = "http://www.baidu.com" print ...
[Python]实现字符串倒序的三种方法
a=" 1: print(a[::-1]) 2: b=list(a) b.reverse() print(''.join(b)) 3: c=len(a)-1 str_1=[] while(c ...
使用Python读写csv文件的三种方法
Python读写csv文件觉得有用的话,欢迎一起讨论相互学习~Follow Me 前言逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是 ...

随机推荐

VS2013常用快捷键你敢不会？
F1 帮助文档 F5 运行 F12 跳转到定义 F11 单步调试 Shift+F5 停止调试 Ctrl+滚轮放大缩小当前视图 Ctrl+L 删除当前行 Ctrl+K,Ctrl+C 注释选中代码 Ct ...
Sql Server系列：视图
视图是数据库中的一种虚拟表,与真实的表一样,视图包含一系列带有名称的行和列数据.行和列数据用来自定义视图的查询所引用的表,并且在引用视图时动态生成. 1. 视图的概念视图是从一个或者多个表中导出的, ...
【.NET深呼吸】清理对象引用，有一个问题容易被忽略
大家知道,托管代码一个重要的特点是自动管理内存,即我们常说的垃圾回收机制,那些高大上的理论我就不重复了,有兴趣的朋友可以翻书.我这个有个毛病——不喜欢很严肃地去说一些理论的东西,所以我不多介绍了. 一 ...
列出场景对象Lightmap属性
首先上效果图: 编辑器代码: using UnityEngine; using UnityEditor; using System.Collections; public class Lightmap ...
Pipedata3d - Welding Neck Flange
Pipedata3d - Welding Neck Flange eryar@163.com Abstract. Pipedata3d show piping component data in ta ...
Detach Volume 操作 - 每天5分钟玩转 OpenStack（55）
上一节我们成功地通过 attach 操作为 instance 添加了 volume,而与之相对的操作是 detach,就是将 volume 从 instance 上卸载下来. 下图是 Detach 操 ...
Android应用中实现系统“分享”接口
在android下各种文件管理器中,我们选择一个文件,点击分享可以看到弹出一些app供我们选择,这个是android系统分享功能,我们做的app也可以出现在这个列表中. 第一步:在Manifest.x ...
深入理解 OWIN 中的 Host 和 Server
The Open Web Interface for .NET (OWIN),注意单词为大写,之前好像都写成了 Owin,但用于项目的时候,可以写成:Microsoft.Owin.*. OWIN 体系 ...
C++指针和动态内存分配
指针和动态内存分配数组与指针数组数组名是一个指针常量. 数组名传递数据时,传递的是地址. 数组作为函数参数时不指定第一维大小. 对象数组 A a[2] = {A(1,2)}; 执行时先调用有参数 ...
MySQL入门04-MySQL主从配置
1.主节点授权同步用户 2.主节点修改配置文件 3.从节点修改配置文件 4.主节点锁定后查看状态 5.从节点配置并启动同步.查看状态 6.主节点解锁并验证从节点是否正常同步环境:CentOS 6.7 ...

python批量下载图片的三种方法

python批量下载图片的三种方法的更多相关文章

随机推荐

热门专题