python爬取图片

1.导入需要的模块requests，BeautifulSoup，os（用于文件读写）。

　　2.创建一个类，并初始化。

class BeautifulPicture:

def __init__(self): # 类的初始化操作

self.headers = {

# 给请求指定一个请求头来模拟chrome浏览器

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'

' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}

self.web_url = 'url' # 要访问的网页地址

self.folder_path = 'E:\\1\\pic' # 设置图片要存放的文件目录

　　3.先请求图片所在的网页，返回网页response

def request(self, url): # 返回网页response

r = requests.get(url, self.headers) # 向目标url地址发送get请求，返回一个response对象

return r

　　调用request方法，print(r.text)就可以看到控制台上print出的网页源码了。

　　4.通过BeautifulSoup工具获取需要抓取的img标签，这里根据不同的网页布局css选择器也会有不同：

def get_pic(self):

r = self.request(self.web_url)

all_item = BeautifulSoup(r.text, 'html.parser').select(".search_results > .item")

for item in all_item:

img = item.find('a').find('img')

url = img['src']

　　此处，我是先抓取img所在的div（类名为item），再获取div下的a链接下的img，网页具体代码格式为

<div class="flex_grid credits search_results" style="margin:4px 14px 0 15px">

<div class="item" data-w="640" data-h="256">

<a href="">

<img srcset="" src="" alt="">

</a>

</div>

......

</div>

　　通过遍历可以获取所有图片的链接。

　　5.获取到图片地址链接后，就可以下载图片并保存到本地了。那么就需要确认初始化定义的文件夹是否存在，如果不存在，需要创建。

def mkdir(self, path): # 创建文件夹

path = path.strip()

is_exists = os.path.exists(path)

if not is_exists:

print('创建名字叫做', path, '的文件夹')

os.makedirs(path)

print('创建成功！')

else:

print(path, '文件夹已经存在了，不再创建')

　　6.接下来就可以保存图片了。

　　第四步操作，在get_pic方法中，获取到所有图片所在的div标签后，先确保存放图片的文件下是否存在，调用方法

　　self.mkdir(self.folder_path) # 创建文件夹

　　os.chdir(self.folder_path) # 切换路径至上面创建的文件夹

　　遍历所有的div，根据url名中jpg/png的不同，决定保存图片的后缀名

i = 1 # 后面用来给图片命名

for item in all_item:

img = item.find('a').find('img')

url = img['src']

if url.count('jpg') > 0:

self.save_img(url, str(i) + '.jpg')

elif url.count('png') > 0:

self.save_img(url, str(i) + '.png')

i += 1

　　其中save_img方法为：

def save_img(self, url, name): # 保存图片

img = self.request(url)

f = open(name, 'ab')

f.write(img.content)

print(name, '文件保存成功！')

f.close()

　　创建MyBeautifulPicture类的实例，调用get_pic方法，至此，保存图片到本地就可以实现了。

　　完整的get_pic方法为：

def get_pic(self):

r = self.request(self.web_url)

all_item = BeautifulSoup(r.text, 'html.parser').select(".search_results > .item")

self.mkdir(self.folder_path) # 创建文件夹

os.chdir(self.folder_path) # 切换路径至上面创建的文件夹

i = 1 # 后面用来给图片命名

for item in all_item:

img = item.find('a').find('img')

url = img['src']

# print(url)

if url.count('jpg') > 0:

self.save_img(url, str(i) + '.jpg')

elif url.count('png') > 0:

self.save_img(url, str(i) + '.png')

i += 1

python爬取图片的更多相关文章

python 爬取图片
使用python的requests库爬取网页时,获取文本一般使用text方法,如果要获取图片并保存要用content 举个栗子,爬煎蛋网的图: #!/usr/bin/env python #-*- c ...
Python爬去图片实例,python 爬取图片
# coding:utf-8 import requests import re import time proxies = { "http": "http://124. ...
20170912多线程Python爬取图片
import threading #导入线程 from urllib import request #导入网页请求模块 import re #导入正则表达式模块 import os # 引入模块 fr ...
python如何使用request爬取图片
下面是代码的简单实现,变量名和方法都是跑起来就行,没有整理,有需要的可以自己整理下: image2local: import requests import time from lxml import ...
[python爬虫] 爬取图片无法打开或已损坏的简单探讨
本文主要针对python使用urlretrieve或urlopen下载百度.搜狗.googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨.同时 ...
孤荷凌寒自学python第八十二天学习爬取图片2
孤荷凌寒自学python第八十二天学习爬取图片2 (完整学习过程屏幕记录视频地址在文末) 今天在昨天基本尝试成功的基础上,继续完善了文字和图片的同时爬取并存放在word文档中. 一.我准备爬取一个有文 ...
孤荷凌寒自学python第八十一天学习爬取图片1
孤荷凌寒自学python第八十一天学习爬取图片1 (完整学习过程屏幕记录视频地址在文末) 通过前面十天的学习,我已经基本了解了通过requests模块来与网站服务器进行交互的方法,也知道了Beauti ...
python +requests 爬虫-爬取图片并进行下载到本地
因为写12306抢票脚本需要用到爬虫技术下载验证码并进行定位点击所以这章主要讲解,爬虫,从网页上爬取图片并进行下载到本地爬虫实现方式: 1.首先选取你需要的抓取的URL:2.将这些URL放入待抓 ...
python网络爬虫之使用scrapy爬取图片
在前面的章节中都介绍了scrapy如何爬取网页数据,今天介绍下如何爬取图片. 下载图片需要用到ImagesPipeline这个类,首先介绍下工作流程: 1 首先需要在一个爬虫中,获取到图片的url并存 ...

随机推荐

vue中使用this遇到的坑
在两个页面中创建函数,并且调用一个函数中能够获取到代表vue实例的this,而另一个却获取不到页面1: <button id="login" v-text="$t ...
Vue项目中实现用户登录及token验证
学习博客:https://www.cnblogs.com/web-record/p/9876916.html
JVM垃圾收集器CMS和G1
CMS(Concurrent Mark Sweep)收集器是一种以获取最短回收停顿时间为目标的收集器.采用的是"标记-清除算法",整个过程分为4步由于整个过程中,并发标记和并 ...
【Html JS】使用问题记录
[Html JS]使用问题记录 ================================================================ 1.td 文字换行 2.正则表达式 = ...
Mysql Commands
start service: mysqld --console; start client: mysql -uroot -proot; check server version: show varia ...
spring data jpa 操作pipelinedb 的continuous view 与stream
一. 由于pipelinedb是postgreSQL的扩展,因此相关依赖于配置都合集成postgreSQL是一样的. springboot + spring data jpa + postgreSQL ...
Docker容器监控
利用docker compose组合应用并利用scale可以快速对容器进行扩充,而docker compose启动的服务容器都在同一台宿主机上,对于一个宿主机上运行多个容器应用时,容器的运行情况,如: ...
CodeForces - 556D Case of Fugitive (贪心+排序)
Andrewid the Android is a galaxy-famous detective. He is now chasing a criminal hiding on the planet ...
idea 几个常用的设置
一.主题的背景
Python学习之while
count = 0while count <= 5: print('人生苦短,我用Python!', 'count = ', count) count += 1

python爬取图片

python爬取图片的更多相关文章

随机推荐

热门专题