Python简单爬取Amazon图片-其他网站相应修改链接和正则

简单爬取Amazon图片信息

这是一个简单的模板，如果需要爬取其他网站图片信息，更改URL和正则表达式即可

 1 import requests

 2 import re

 3 import os

 4 def down_pics(html):

 5     cwd = os.getcwd()

 6     i=0

 7     url_pics = re.findall('<img alt=".*?" src="(.*?)" height="', str(html.text), re.S)

 8     print(url_pics)

 9     for each in url_pics:

10         print('正在下载第' + str(i) + '张图片，图片地址：' + str(each))

11         try:

12             pic = requests.get(each, timeout=10)

13         except requests.exceptions.ConnectionError:

14             print('错误！当前图片无法下载')

15             continue

16         dir = cwd + '\\images_amazon\\' + str(i) + '.jpg'#运行路径下自己手动新建一个images_amazon文件加，存放图片

17         i+=1

18         print(dir)

19         with open(dir, 'wb') as file:

20             file.write(pic.content)

21     #这个部分主要是解释一下，如果返回的url_pics不仅仅是图片链接，还有其他信息，如何下载图片

22     # url_pics = re.findall('"price": "(.*?)".*?"image": "(.*?)",', str(html.text), re.S)

23     # print(url_pics)

24     # print('找到shecharme_bestseller产品，现在开始下载图片……')

25     # for j in range(len(url_pics)):

26     #     # print(url_pics[0][j])

27     #     print('正在下载第' + str(j) + '张图片，图片地址：' + str(url_pics[j][1]))

28     #     try:

29     #         pic = requests.get(url_pics[j][1], timeout=10)

30     #     except requests.exceptions.ConnectionError:

31     #         print('错误！当前图片无法下载')

32     #         continue

33     #     dir = cwd + '\\images_amazon\\' + str(j) + '.jpg'

34     #

35     #     print(dir)

36     #     with open(dir, 'wb') as file:

37     #         file.write(pic.content)

38 if __name__ == '__main__':

39     url = 'https://www.amazon.com/Best-Sellers-Womens-Clothing/zgbs/fashion/1040660/ref=zg_bs_nav_2_7147440011'

40     headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}

41     result = requests.get(url, headers)

42     down_pics(result)

Python简单爬取Amazon图片-其他网站相应修改链接和正则的更多相关文章

java爬虫-简单爬取网页图片
刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语言编程,这次我选择了 ...
python 3 爬取百度图片
python 3 爬取百度图片学习了:https://blog.csdn.net/X_JS612/article/details/78149627
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
python：爬取博主的所有文章的链接、标题和内容
以爬取我自己的博客为例:https://www.cnblogs.com/Mr-choa/ 1.获取所有的文章的链接: 博客文章总共占两页,比如打开第一页:https://www.cnblogs.com ...
一、python简单爬取静态网页
一.简单爬虫框架简单爬虫框架由四个部分组成:URL管理器.网页下载器.网页解析器.调度器,还有应用这一部分,应用主要是NLP配合相关业务. 它的基本逻辑是这样的:给定一个要访问的URL,获取这个ht ...
python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
Python简单爬取图书信息及入库
课堂上老师布置了一个作业,如下图所示: 就是简单写一个借书系统. 大概想了一下流程,登录-->验证登录信息-->登录成功跳转借书界面-->可查看自己的借阅书籍以及数量... 登录可以 ...
Python实现爬取需要登录的网站完整示例
from selenium import webdriver dirver = webdriver.Firefox() dirver.get('https://music.douban.com/') ...
Python爬虫爬取网页图片
没想到python是如此强大,令人着迷,以前看见图片总是一张一张复制粘贴,现在好了,学会python就可以用程序将一张张图片,保存下来. 今天逛贴吧看见好多美图,可是图片有点多,不想一张一张地复制粘贴 ...

随机推荐

VS2012 生成可以在XP下运行的exe文件
1. 在已安装VS2012条件下,安装update,作者已经安装了update3; 2. 相关设置: 设置"平台工具集":在项目右击-属性-常规-在"平台工具集" ...
Nature | 易基因DNA甲基化测序助力人多能干细胞向胚胎全能8细胞的人工诱导
北京时间2022年3月22日凌晨,<Nature>期刊在线刊登了由中国科学院广州生物医学与健康研究所等单位牵头,深圳市易基因科技有限公司.中国科学技术大学等单位参与,应用人多能干细胞向胚胎 ...
SpringBoot+Vue+mysql 搭建（一）
一.创建Spring boot maven 项目 Spring initializr 是Spring 官方提供的一个用来初始化一个Spring boot 项目的工具. 在idea中,直接 File-& ...
Java并发机制（7）--线程池ThreadPoolExecutor的使用
Java并发编程:线程池的使用整理自:博客园-海子-http://www.cnblogs.com/dolphin0520/p/3932921.html 1.什么是线程池,为什么要使用线程池: 1.1. ...
请说出作用域public，private，protected，以及不写时的区别？
这四个作用域的可见范围如下表所示.说明:如果在修饰的元素上面没有写任何访问修饰符,则表示friendly.作用域当前类同一package 子孙类其他packagepublic ...
什么是 Spring MVC 框架的控制器？
控制器提供一个访问应用程序的行为,此行为通常通过服务接口实现.控制器解析用户输入并将其转换为一个由视图呈现给用户的模型.Spring 用一个非常抽象的方式实现了一个控制层,允许用户创建多种用途的控 ...
顺利通过EMC实验（7）
原理图Checklist
类别描述检视规则原理图需要进行检视,提交集体检视是需要完成自检,确保没有低级问题. 检视规则原理图要和公司团队和可以邀请的专家一起进行检视. 检视规则第一次原理图发出进行集体检视后所有的修改 ...
【babel+小程序】记“编写babel插件”与“通过语法解析替换小程序路由表”的经历
话不多说先上图,简要说明一下干了些什么事.图可能太模糊,可以点svg看看背景最近公司开展了小程序的业务,派我去负责这一块的业务,其中需要处理的一个问题是接入我们web开发的传统架构--模块化开发. ...
【promise| async/await】代码的控制力
什么样的代码好控制? 结构 + 节奏 --- 什么鬼? 如何控制节奏? 具体例子看看怎么控制节奏?

Python简单爬取Amazon图片-其他网站相应修改链接和正则

Python简单爬取Amazon图片-其他网站相应修改链接和正则的更多相关文章

随机推荐

热门专题