Python多线程Threading爬取图片，保存本地，openpyxl批量插入图片到Excel表中

之前用过openpyxl库保存数据到Excel文件写入不了，换用xlsxwriter

批量插入图片到Excel表中

 1 import os

 2 import requests

 3 import re

 4 from openpyxl import load_workbook

 5 import xlsxwriter

 6 from multiprocessing.dummy import Pool as ThreadPool

 7 from openpyxl.drawing.image import Image

 8

 9 def spider(url):

10     headers = {

11         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}

12     html = requests.get(url, headers, timeout=None)

13     pic_url = re.findall('class="product-image">.*?<img src="(.*?)"  height="', html.text, re.S)

14     sku = re.findall('q=(\d+)', url, re.S)#正则匹配链接后面的sku

15     if pic_url != []:

16         print('正在下载'+sku[0]+'图片，图片地址：' + pic_url[0])

17         pic = requests.get(pic_url[0])

18         dir = cwd + '\\images\\' + sku[0] + '.jpg'

19         # print(dir)

20         with open(dir, 'wb') as file:

21             file.write(pic.content)

22     else:

23         if sku !=[]:

24             print('没有找到' + sku[0]+'产品')

25             No_images.append(sku[0])

26 #之前用过openpyxl创建新的Excel文件，但是写入不了，之后换用xlsxwriter保存数据到Excel

27 def save_excel(sku):

28     print(sku)

29     wb1 = xlsxwriter.Workbook(cwd + '\\' + 'No_images.xlsx')

30     ws1 = wb1.add_worksheet()

31     ws1.write(0, 0, 'No_images_sku')

32     for i in range(1,len(sku)+1):

33         ws1.write(i, 0, sku[i-1])

34     wb1.close()

35     print('保存没有图片的sku成功！')

36

37 #插入图片到Excel

38 def insert_images(sku):

39     wb = load_workbook(path)

40     ws = wb.worksheets[0]

41     img_path = cwd + '\\images\\'+sku+'.jpg'

42     print(img_path)

43     ws.column_dimensions['H'].width = 11#设置单元格列宽

44     try:

45         img = Image(img_path)

46         #设置图片大小

47         img.width = 80

48         img.height = 96

49         # print(img)

50         for i in range(1,ws.max_row+1):

51             if ws.cell(i,2).value == int(sku):

52                 ws.row_dimensions[i].height = 88#设置单元格行高

53                 ws.add_image(img,'H'+str(i))

54                 wb.save(path)

55     except(FileNotFoundError) as e:

56         print(e)

57     wb.close()#每次插入一张图片需要关闭一次Excel表

58

59 if __name__ == '__main__':

60     cwd=os.getcwd()

61     path = cwd + '\\'+'图片测试.xlsx'

62     wb =load_workbook(path)

63     ws = wb.worksheets[0]

64     pool =ThreadPool(50)#开启多少个进程，四核电脑

65     urls = []

66     No_images = []

67     for i in range(1, ws.max_row+1):#通过循环将Excel数据读取出来

68         sku = ws.cell(i,2).value

69         if sku !=None:

70             print('正在爬取第'+str(i)+'个sku图片')

71             url = 'http://www.fulchic.com/catalogsearch/result/?q=' + str(sku)

72             urls.append(url)

73     pool.map(spider,urls)#多线程工作，其中，spider是爬虫函数名，urls是个爬取链接列表

74     pool.close()

75     pool.join()

76     #保存图片到本地

77     save_excel(No_images)

78     #循环写入保存图片，并设置单元格和图片大小

79     for i in range(1, ws.max_row + 1):  # 通过循环将Excel数据读取出来

80         sku = ws.cell(i, 2).value

81         if sku != None:

82             print('正在保存第' + str(i) + '个sku图片')

83             insert_images(str(sku))

Python多线程Threading爬取图片，保存本地，openpyxl批量插入图片到Excel表中的更多相关文章

python实现scrapy爬取图片到本地时的sha1摘要算法文件名
2017-03-29 Scrapy爬图片到本地应该会给图片自动生成sha1摘要算法文件名,我第一次用scrapy也不清楚太多,就在程序里自己写了一段实现这一功能的代码.需import hashlib ...
【Python】- scrapy 爬取图片保存到本地、且返回保存路径
https://blog.csdn.net/xueba8/article/details/81843534
PHP 爬取图片保存本地
public function getImage($url,$filename='') { if($url == ''){ return false; } if($filename == ''){ $ ...
用python库openpyxl操作excel,从源excel表中提取信息复制到目标excel表中
现代生活中,我们很难不与excel表打交道,excel表有着易学易用的优点,只是当表中数据量很大,我们又需要从其他表册中复制粘贴一些数据(比如身份证号)的时候,我们会越来越倦怠,毕竟我们不是机器,没法 ...
python多线程threading.Lock锁用法实例
本文实例讲述了python多线程threading.Lock锁的用法实例,分享给大家供大家参考.具体分析如下: python的锁可以独立提取出来 mutex = threading.Lock() #锁 ...
Python xlrd模块读取Excel表中的数据
1.xlrd库的安装直接使用pip工具进行安装(当然也可以使用pycharmIDE进行安装,这里就不详述了) pip install xlrd 2.xlrd模块的一些常用命令 ①打开excel文件并 ...
python xlrd 模块（获取Excel表中数据）
python xlrd 模块(获取Excel表中数据) 一.安装xlrd模块到python官网下载http://pypi.python.org/pypi/xlrd模块安装,前提是已经安装了pyt ...
scrapy爬虫系列之三--爬取图片保存到本地
功能点:如何爬取图片,并保存到本地爬取网站:斗鱼主播完整代码:https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代码: douyu.py im ...
python +requests 爬虫-爬取图片并进行下载到本地
因为写12306抢票脚本需要用到爬虫技术下载验证码并进行定位点击所以这章主要讲解,爬虫,从网页上爬取图片并进行下载到本地爬虫实现方式: 1.首先选取你需要的抓取的URL:2.将这些URL放入待抓 ...

随机推荐

初识$router和$route
初识$router和$route 一.前言 vue框架中单页面富应用可以说是其最大的优点功能之一了,应用起来简单直观,说起单页面富应用那就必须得联想到\(router**,但是在项目开发过程中 ...
java面向对象思想之封装
一.什么是封装菜鸟教程对封装的解释是"在面向对象程式设计方法中,封装(英语:Encapsulation)是指一种将抽象性函式接口的实现细节部分包装.隐藏起来的方法.".简单来说就 ...
请写出你最常见到的5个runtime exception?
对于一个有1-2年左右编程经验的人来说,总会经常遇到一些常见的异常,其中有些就是Runtime Exception.比如: NullPointerException - 当调用一个未初始化的引用变量( ...
js里面是没有Trim()这个方法的可以用以下的形式来判断是否输入的值为空
if (text.value.replace(/\s+/g, "").length == 0)
学习Kvm（七）
六,管理虚拟网络 [x] Linux网桥基本概念 [x] qemu-kvm支持的网络 [x] 向虚拟机添加虚拟网络连接 [x] 基于NAT的虚拟网络 [x] 基于网桥的虚拟网络 [x] 用户自定义的隔 ...
规范之“用流中的Stream.Of(arr1,arr2)将两个集合合并”
案例:用流中的Stream.Of(arr1,arr2)将两个集合合并 /** * 功能描述: * 两个对象集合添加到一起 * 在用flatMap扁平化改为Stream<User> * 这样 ...
自启动Servlet
自启动servlet也叫自动实例化servlet 特点该Servlet的实例化过程不依赖于请求,而依赖于容器的启动,当Tomcat启动时就会实例化该Servlet 普通Servlet是在浏览器第一次 ...
基于Node的React图片上传组件实现
写在前面红旗不倒,誓把JavaScript进行到底!今天介绍我的开源项目 Royal 里的图片上传组件的前后端实现原理(React + Node),花了一些时间,希望对你有所帮助. 前端实现遵循R ...
微信小程序安全浅析
引言近期微信小程序重磅发布,在互联网界掀起不小的波澜,已有许多公司发布了自己的小程序,涉及不同的行业领域.大家在体验小程序用完即走便利的同时,是否对小程序的安全性还存有疑虑.白泽日前对微信小程序进行 ...
前端面试题整理——手写简易jquery
class jQuery { constructor(selector) { const result = document.querySelectorAll(selector) console.lo ...

Python多线程Threading爬取图片，保存本地，openpyxl批量插入图片到Excel表中

Python多线程Threading爬取图片，保存本地，openpyxl批量插入图片到Excel表中的更多相关文章

随机推荐

热门专题