python批量下载图片的三种方法

　　一是用微软提供的扩展库win32com来操作IE：

win32com可以获得类似js里面的document对象，但貌似是只读的（文档都没找到）。

　　二是用selenium的webdriver：

selenium则提供了Chrome，IE，FireFox等的支持，每种浏览器都有execute_script和find_element_by_xx方法，可以方便的执行js脚本（包括修改元素）和读取html里面的元素。不足是selenium只提供对python2.6和2.7的支持。

　　三是用python自带的HTMLParser解析：

HTMLParser则是需要自己写个类继承基类，重写解析元素的方法。

1.win32com

 #将滚动条滑到底,最多滑动20000像素

 #模拟键盘右键，查看多张图片

 import sys

 import win32com.client,win32api

 import urllib.request

 import time

 import os

 def main():

     #获取参数

     url=sys.argv[1]

     #操作IE

     ie=win32com.client.Dispatch("InternetExplorer.Application")

     ie.Navigate(url)

     ie.Visible=True

     last_url=''

     dir_name=''

     while last_url!=url:

         print('\nThe URL is:',url,'\n')

         while ie.ReadyState != 4:

             time.sleep(1)

         while ie.Document.readyState != "complete":

             time.sleep(1)

         #滑动滚动条

         win=ie.Document.parentWindow

         lastY=-1;

         for i in range(40):

             win.scrollTo(0,500*i)

             nowY=win.pageYOffset

             if(nowY==lastY):

                 break

             lastY=nowY

             time.sleep(0.4)

         print('Document load state:',ie.Document.readyState)

         doc=ie.Document

         #第一次需要创建目录

         if(dir_name==''):

             root_dir='E:\\img'

             dir_name=root_dir+'\\'+doc.title

             dir_name=dir_name.replace('|','-')

             if(os.path.exists(root_dir)!=True):

                 os.mkdir(root_dir)

             if(os.path.exists(dir_name)!=True):

                 os.mkdir(dir_name)

         all_image=doc.images

         print('共有',all_image.length,'张图片')

         count=0;

         for img in all_image:

             if(img.id=='b_img'):

                 count=count+1

                 print(count,img.src)

                 time.sleep(1)

                 img_file=urllib.request.urlopen(img.src)

                 byte=img_file.read()

                 print(count,'donwload complete!','-'*10,'size:','{:.3}'.format(byte.__len__()/1024),'KB')

                 if(byte.__len__()>7000):

                     file_name=img.src.replace('/','_')

                     file_name=file_name.replace(':','_')

                     end=file_name.__len__()

                     if(file_name.rfind('!')!=-1):

                         end=file_name.rfind('!')

                     if(file_name.rfind('?')!=-1):

                         end=file_name.rfind('?')

                     file_name=file_name[:end]

                     write_file=open(dir_name+'\\'+file_name,'wb')

                     write_file.write(byte)

                     write_file.close()

                     print(count,file_name,'complete!')

         #下一张

         last_url=url

         win32api.keybd_event(39,0)

         time.sleep(1)

         url=ie.Document.url

         print(last_url,url)

     #ie.Quit()

 if __name__ == '__main__':

     main()

2.selenium

 # -*- coding: cp936 -*-

 import sys

 import urllib

 import time

 import os

 from selenium import webdriver

 def main():

     #获取参数

     url=sys.argv[1]

     #操作IE

     driver=webdriver.Chrome()

     driver.get(url)

     driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

     #创建目录

     dir_name=driver.find_element_by_tag_name('title').text

     print dir_name

     root_dir='E:\\img'

     dir_name=root_dir+'\\'+dir_name

     dir_name=dir_name.replace('|','-')

     if(os.path.exists(root_dir)!=True):

         os.mkdir(root_dir)

     if(os.path.exists(dir_name)!=True):

         os.mkdir(dir_name)

     images=driver.find_elements_by_tag_name('img')

     count=0

     for image in images:

         count=count+1

         image_url=str(image.get_attribute('src'))

         img_file=urllib.urlopen(image_url)

         byte=img_file.read()

         print count,'donwload complete!','-'*10,'size:',byte.__len__()/1024,'KB'

         if(byte.__len__()>7000):

             file_name=image_url.replace('/','_')

             file_name=file_name.replace(':','_')

             end=file_name.__len__()

             if(file_name.rfind('!')!=-1):

                 end=file_name.rfind('!')

             if(file_name.rfind('?')!=-1):

                 end=file_name.rfind('?')

             file_name=file_name[:end]

             write_file=open(dir_name+'\\'+file_name,'wb')

             write_file.write(byte)

             write_file.close()

             print count,file_name,'complete!'

     driver.quit()

 if __name__ == '__main__':

     main()

3.HTMLParser:

 # import modules used here -- sys is a very standard one

 import sys

 import urllib.request

 # Gather our code in a main() function

 from html.parser import HTMLParser

 class MyHTMLParser(HTMLParser):

     def handle_starttag(self,tag,attrs):

         if(tag=='img'):

             for attr in attrs:

                 if(attr[0]=='src'):

                     img_file=urllib.request.urlopen(attr[1])

                     byte=img_file.read()

                     #文件大于1000b则生成文件,添加计数，下载多少图片，显示html代码

                     if(byte.__len__()>1000):

                         file_name=attr[1].replace('/','_')

                         file_name=file_name.replace(':','_')

                         end=file_name.__len__()

                         if(file_name.rfind('!')!=-1):

                             end=file_name.rfind('!')

                         if(file_name.rfind('?')!=-1):

                             end=file_name.rfind('?')

                         file_name=file_name[:end]

 ##                        print(file_name)

                         write_file=open('E:\\img\\'+file_name,'wb')

                         write_file.write(byte)

                         write_file.close()

 def main():

     #获取参数

     url=sys.argv[1]

     print('\nThe URL is:',url,'\n')

     #读取url所指向的资源

     html_file=urllib.request.urlopen(url)

     byte_content=html_file.read()

     #将html网页保存起来

     url_file=open('E:\\img\\html\\result.htm','wb')

     url_file.write(byte_content)

     url_file.close()

     #从字节转换为字符串

     s=str(byte_content, encoding = "utf-8")

     #print(s)

     #bytes.decode(html_file.read())

     parser=MyHTMLParser(strict=False)

     parser.feed(s)

 # Standard boilerplate to call the main() function to begin

 # the program.

 if __name__ == '__main__':

     main()

python批量下载图片的三种方法的更多相关文章

Python实现下载文件的三种方法
下面来看看三种方法是如何来下载zip文件的:方法一: import urllib print "downloading with urllib" url = 'http://www ...
Python 下载图片的三种方法
import os os.makedirs('./image/', exist_ok=True) IMAGE_URL = "http://image.nationalgeographic.c ...
前端下载图片的N种方法
前几天一个简单的下载图片的需求折腾了我后端大佬好几天,最终还是需要前端来搞,开始说不行的笔者最后又行了,所以趁着这个机会来总结一下下载图片到底有多少种方法. 先起个服务使用expressjs起个简单 ...
python实现XML解析的三种方法
python实现XML解析的三种方法三种方法:一是xml.dom.*模块,它是W3C DOM API的实现,若需要处理DOM API则该模块很适合:二是xml.sax.*模块,它是SAX API的实 ...
python下载文件的三种方法
Python开发中时长遇到要下载文件的情况,最常用的方法就是通过Http利用urllib或者urllib2模块. 当然你也可以利用ftplib从ftp站点下载文件.此外Python还提供了另外一种方法 ...
Android TextView里直接显示图片的三种方法
方法一:重写TextView的onDraw方法,也挺直观就是不太好控制显示完图片后再显示字体所占空间的位置关系.一般假设字体是在图片上重叠的推荐这样写.时间关系,这个不付源代码了. 方法二:利用Tex ...
url下载网页的三种方法
# -*- coding: utf-8 -*- import cookielib import urllib2 url = "http://www.baidu.com" print ...
[Python]实现字符串倒序的三种方法
a=" 1: print(a[::-1]) 2: b=list(a) b.reverse() print(''.join(b)) 3: c=len(a)-1 str_1=[] while(c ...
使用Python读写csv文件的三种方法
Python读写csv文件觉得有用的话,欢迎一起讨论相互学习~Follow Me 前言逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是 ...

随机推荐

edit
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
Linux线程体传递参数的方法详解
传递参数的两种方法线程函数只有一个参数的情况:直接定义一个变量通过应用传给线程函数. 例子 #include #include using namespace std; pthread_t thre ...
Conversion Operators in OpenCascade
Conversion Operators in OpenCascade eryar@163.com Abstract. C++ lets us redefine the meaning of the ...
区分元素特性attribute和对象属性property
× 目录 [1]定义 [2]共有 [3]例外[4]特殊[5]自定义[6]混淆[7]总结前面的话其实attribute和property两个单词,翻译出来都是属性,但是<javascript高 ...
javascript面向对象系列第三篇——实现继承的3种形式
× 目录 [1]原型继承 [2]伪类继承 [3]组合继承前面的话学习如何创建对象是理解面向对象编程的第一步,第二步是理解继承.本文是javascript面向对象系列第三篇——实现继承的3种形式 [ ...
控制对话框风格的activity的显示大小与位置
项目开发的需要,因为到现在项目接近完工,用户提出对条件筛选方式进行修改,为做到最小的改动实现用户的需求,各种百度,对于对话框风格大家普遍使用PopupWindow,但由于之前开发设计时使用的是acti ...
ASP.NET：注销功能实现
原理:清空Session 1.Web窗体:index.aspx <a href="logoutHandler.ashx">注销</a> 2.一般处理程序:L ...
巧用css提高浏览器兼容性
body,div,ul,ol,li,dl,dt,dd,h1,h2,h3,h4,h5,h6,form,input,textarea,p{ margin:0px; padding:0px; font-si ...
Java内存模型深度解析：final--转
原文地址:http://www.codeceo.com/article/java-memory-6.html 与前面介绍的锁和Volatile相比较,对final域的读和写更像是普通的变量访问.对于f ...
算法：KMP算法
算法:KMP排序算法分析 KMP算法是一种快速的模式匹配算法.KMP是三位大师:D.E.Knuth.J.H.Morris和V.R.Pratt同时发现的,所以取首字母组成KMP. 少部分图片来自孤~影 ...

python批量下载图片的三种方法

python批量下载图片的三种方法的更多相关文章

随机推荐

热门专题