python网络爬虫之爬取图片

今天使用requests和BeautifulSoup爬取了一些图片，还是很有成就感的，注释可能有误，希望大家多提意见：

方法一：requests

import requests

from bs4 import BeautifulSoup

circle = requests.get('http://travel.quanjing.com/tag/12975/%E9%A9%AC%E5%B0%94%E4%BB%A3%E5%A4%AB')

# 将获取的图片地址依次放入count中

count = []

# 将获取的网页内容放入BeautifulSoup

soup = BeautifulSoup(circle.text, 'lxml')

# 根据谷歌SelectGadGet这个插件，获取html标签，比如获取：#gallery-list

for item in soup.select('#gallery-list'):

    # 用bs4中的find_all获取 #gallery-list 中是否存在 img这个标签

    for img in item.find_all('img'):

        print('img', img)

        # m 是 img标签中存在的属性

        img_path = img.get('m')

        count.append(img_path)

# 用enumerate依次取出count中的图片地址 放入v中

for i,v in enumerate(count):

    # 将获取的v值再次放入request中进行与网站相应

    image = requests.get(v)

    # 存取图片过程中，出现不能存储 int 类型，故而，我们对他进行类型转换 str()。w:读写方式打开，b：二进制进行读写。图片一般用到的都是二进制。

    with open('D:\\img'+str(i)+'.jpg', 'wb') as file:

        # content：图片转换成二进制，进行保存。

        file.write(image.content)

    print(i)

方法二：urllib.request

from bs4 import BeautifulSoup

import urllib.request as ure

import os

url = 'http://travel.quanjing.com/tag/12975/%E9%A9%AC%E5%B0%94%E4%BB%A3%E5%A4%AB'

response = ure.urlopen(url, timeout=30)

circle = response.read().decode('utf-8')

# 将获取的图片地址依次放入count中

count = []

# 将获取的网页内容放入BeautifulSoup

soup = BeautifulSoup(circle, 'lxml')

# 根据谷歌SelectGadGet这个插件，获取html标签，比如获取：#gallery-list

for item in soup.select('#gallery-list'):

    # 用bs4中的find_all获取 #gallery-list 中是否存在 img这个标签,limit:限制爬取的数量。

    for img in item.find_all('img', limit=5):

        print('img', img)

        # m 是 img标签中存在的属性

        img_path = img.get('m')

        count.append(img_path)

if not os.path.exists('photo'):

    os.makedirs('photo')

# 用enumerate依次取出count中的图片地址 放入v中

for i,v in enumerate(count):

    # 存取图片过程中，出现不能存储 int 类型，故而，我们对他进行类型转换 str()。w:读写方式打开，b：二进制进行读写。图片一般用到的都是二进制。

    path = 'photo\\img'+str(i)+'.jpg'

    with open(path, 'w') as file:

        ure.urlretrieve(v, path)

    print(i)

python网络爬虫之爬取图片的更多相关文章

python网络爬虫《爬取get请求的页面数据》
一.urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在python3中的为urllib.request和urllib. ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页
1 . 什么是 AJAX ? AJAX = 异步 JavaScript 和 XML. AJAX 是一种用于创建快速动态网页的技术. 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新 ...
Python网络爬虫 | Scrapy爬取妹子图网站全站照片
根据现有的知识,写了一个下载妹子图(meizitu.com)Scrapy脚本,把全站两万多张照片下载到了本地. 网站的分析网页的网址分析打开网站,发现网页的网址都是以 http://www.mei ...
如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]
前言 hello,大家好本章可是一个重中之重,因为我们今天是要爬取一个图片而不是一个网页或是一个json 所以我们也就不用用到selenium模块了,当然有兴趣的同学也一样可以使用selenium去 ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
假期学习【六】Python网络爬虫2020.2.4
今天通过Python网络爬虫视频复习了一下以前初学的网络爬虫,了解了网络爬虫的相关规范. 案例:京东的Robots协议 https://www.jd.com/robots.txt 说明可以爬虫的范围 ...

随机推荐

Spring AOP无法拦截Controller
参考@参考文章中的评论首先,应该打开aop代理 <aop:aspectj-autoproxy proxy-target-class="true"/> 其次,应该讲ao ...
Python第一阶段02
1.模块: import sys print(sys.path) # 打印环境变量 print(sys.argv) # 打印当前文件绝对路径 # print(sys.argv[]) import os ...
【嵌入式硬件Esp32】Eclipse c++切换回英文方法
1.英文版汉化为中文版时是通过:Help-Install New Soft,下载安装中文支持包,重启即可. 2.恢复回英文界面步骤则如下: 2.1.打开安装目录下的eclipse.ini,在文件文件中 ...
Centos7.0操作系统加固常见方法
1. 账号和口令 1.1 禁用或删除无用账号减少系统无用账号,降低安全风险. 操作步骤使用命令 userdel <用户名> 删除不必要的账号. 使用命令 passwd -l <用 ...
常见问题:计算机网络/完整HTTP访问
域名解析以浏览器进行HTTP访问为例,首先搜索自身DNS缓存(一般缓存1000条左右,仅缓存1分钟),若有且未过期,结束. 若未找到,则搜索操作系统的DNS缓存. 若未找到,尝试读取hosts文件. ...
Net UI Spy工具:ManagedSpy
Net UI Spy工具:ManagedSpy 很久之前在接手一个大型的Winform项目的时候.有如下困难: 1,项目很大整个产品的Build由1400多个Project组成 2,产品的组件.控件太 ...
python线程障碍对象Barrier（34）
python线程Barrier俗称障碍对象,也称栅栏,也叫屏障. 一.线程障碍对象Barrier简介 # 导入线程模块 import threading # 障碍对象barrier barrier = ...
二、部署DHCP
*本文转自https://blog.51cto.com/lumay0526/2046957 简述 DHCP是Dynamic Host Configuration Protocol的缩写,中文称动态主机 ...
Python 环境搭建（Win 安装以及Mac OS 安装）
千里之行始于足下,今天我们先来学习 Python 环境搭建. 注意:本系列教程基于 Python 3.X Python 环境搭建 Win 安装打开 Python 官网 https://www.pyt ...
兔子问题（Rabbit problem）
Description 有一种兔子,出生后一个月就可以长大,然后再过一个月一对长大的兔子就可以生育一对小兔子且以后每个月都能生育一对.现在,我们有一对刚出生的这种兔子,那么,n 个月过后,我们会有多少 ...

python网络爬虫之爬取图片

python网络爬虫之爬取图片的更多相关文章

随机推荐

热门专题