一:基础版(抓取首页图片)

爬虫py文件代码:

 1 # -*- coding: utf-8 -*-
2 import scrapy
3 import sys
4 import io
5 from scrapy.selector import Selector
6 from scrapy.http import Request
7 from ..items import Day96XiaohuaItem
8 import re
9 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')
10
11
12 class XiaohuaSpider(scrapy.Spider):
13 name = 'xiaohua'
14 allowed_domains = ['www.xueshengmai.com/hua/']
15 start_urls = ['http://www.xueshengmai.com/hua/']
16
17 def parse(self, response):
18 # ------------持久化数据--------------
19 hxs = Selector(response=response).xpath("//div[@class='item_t']/div[@class='img']/a/img").extract()
20 # print(hxs)
21 for i in hxs:
22 # print(i)
23 title = re.findall("alt=(.*) src=",i)[0].strip('"')+".jpg"
24 src = "http://www.xueshengmai.com%s"%re.findall("src=(.*)>",i)[0].strip('"')
25 print(title,src)
26 item_obj = Day96XiaohuaItem(title=title, src=src)
27 yield item_obj

items.py 代码:

1 import scrapy
2
3
4 class Day96XiaohuaItem(scrapy.Item):
5 # define the fields for your item here like:
6 # name = scrapy.Field()
7 title=scrapy.Field()
8 src=scrapy.Field()

pipelines代码:

import requests

class Day96XiaohuaPipeline(object):
def process_item(self, item, spider):
file_path="imgs/%s"%item["title"]
file_src=item["src"]
f=open(file_path,"wb")
img_date=requests.get(file_src)
f.write(img_date.content)
f.close()

二:分页抓取校花网图片

下面代码和上面如出一辙,只将不同的代码块写下:

 1 # -*- coding: utf-8 -*-
2 import scrapy
3 import sys
4 import io
5 from scrapy.selector import Selector
6 from scrapy.http import Request
7 from ..items import Day96XiaohuaItem
8 import re
9
10 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')
11
12
13 class XiaohuaSpider(scrapy.Spider):
14 name = 'xiaohua'
15 allowed_domains = ['www.xueshengmai.com/hua/']
16 start_urls = ['http://www.xueshengmai.com/hua/']
17
18 def parse(self, response):
19 # ------------持久化数据--------------
20 hxs = Selector(response=response).xpath("//div[@class='item_t']/div[@class='img']/a/img").extract()
21 # print(hxs)
22 for i in hxs:
23 # print(i)
24 title = re.findall("alt=(.*) src=", i)[0].strip('"') + ".jpg"
25 src = "http://www.xueshengmai.com%s" % re.findall("src=(.*)>", i)[0].strip('"')
26 print("正在努力抓取校花网图片...",title, src)
27 item_obj = Day96XiaohuaItem(title=title, src=src)
28 yield item_obj
29
30 hxs2 = Selector(response=response).xpath("//div[@class='page_num']/a").extract()
31 for i in hxs2:
32 page_number = re.findall(">(.*)<", i)[0]
33 # print("=========",page_number)
34 if page_number not in ["首页", "上一页", "下一页", "尾页"]:
35 url = "http://www.xueshengmai.com/list-1-%s.html" % page_number
36 # print("-------", url)
37 # 将新要访问的url添加到调度器
38 yield Request(url=url, callback=self.parse,dont_filter=True)

同时应该在settings中加上一句:

1 DEPTH_LIMIT = 1

否则程序将会一直深入下载,直到网站图片资源穷尽...

scrapy抓取校花网图片的更多相关文章

  1. Go语言实战-爬取校花网图片

    一.目标网站分析 爬取校花网http://www.xiaohuar.com/大学校花所有图片. 经过分析,所有图片分为四个页面,http://www.xiaohuar.com/list-1-0.htm ...

  2. python实战项目 — 爬取 校花网图片

    重点: 1.  指定路径创建文件夹,判断是否存在 2. 保存图片文件 # 获得校花网的地址,图片的链接 import re import requests import time import os ...

  3. Scrapy爬虫框架之爬取校花网图片

    Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...

  4. scrapy爬取校花网男神图片保存到本地

    爬虫四部曲,本人按自己的步骤来写,可能有很多漏洞,望各位大神指点指点 1.创建项目 scrapy startproject xiaohuawang scrapy.cfg: 项目的配置文件xiaohua ...

  5. Python-爬取校花网视频(单线程和多线程版本)

    一.参考文章 python爬虫爬取校花网视频,单线程爬取 爬虫----爬取校花网视频,包含多线程版本 上述两篇文章都是对校花网视频的爬取,由于时间相隔很久了,校花网上的一些视频已经不存在了,因此上述文 ...

  6. python爬虫基础应用----爬取校花网视频

    一.爬虫简单介绍 爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...

  7. Scrapy爬虫实例——校花网

    学习爬虫有一段时间了,今天使用Scrapy框架将校花网的图片爬取到本地.Scrapy爬虫框架相对于使用requests库进行网页的爬取,拥有更高的性能. Scrapy官方定义:Scrapy是用于抓取网 ...

  8. 二、Item Pipeline和Spider-----基于scrapy取校花网的信息

    Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item. 每个Item Pipeline ...

  9. Requests 校花网图片爬取

    纪念我们闹过的矛盾,只想平淡如水 import requestsimport reurl = 'http://www.xiaohuar.com/list-1-%s.html'for i in rang ...

  10. 第六篇 - bs4爬取校花网

    环境:python3  pycharm 模块:requests  bs4  urlretrieve  os  time 第一步:获取网页源代码 import requests from bs4 imp ...

随机推荐

  1. MAVEN 配置和基本使用

    Maven 安装配置 解压 apache-maven-3.6.1.rar 既安装完成 配置环境变量 MAVEN_HOME 为安装路径的 bin 目录 在 Path 下添加 %MAVEN_HOME%\b ...

  2. “n个球放到m个盒子”问题整理(Twelvefold way)

    这个算法的正式名字是:"Twelvefold way",共用12种情况. 本文转载自:自为风月马前卒的博文:浅谈"n个球"和"m个盒子"之间 ...

  3. Java 子父类型集合之间的转换

    假设现在有这样一个方法,入参是父类型的集合参数,这是个通用方法,你需要共用它,你现在要传子类型集合进去,怎么办? class Animal { } class Dog extends Animal { ...

  4. 【Python】.format用法

    格式化打印 print("***{}".format(args))   格式化转换 module = "skull" print "MODULE_{} ...

  5. [js] - 导航展出动画

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  6. Nginx 配置文件备忘单

    Nginx 是用于 Web 服务.反向代理.缓存.负载平衡.媒体流等的开源软件.在这篇文章中,我将提到一些我们经常使用的 Nginx 配置. 监听端口 server { Standard HTTP P ...

  7. Go-数据类型-数字

    Go数字类型 整数 int 类 int(在32机器上为int32,在64位机器上为int64) int8 int16 int32 int64 unit类 uint(在32机器上为uint32,在64位 ...

  8. [转帖]fullgc问题解决:Full GC (Metadata GC Threshold)

    #问题描述 在工作过程中,遇到一个问题:Tomcat在重启或者发布的时候,会有多次的full GC. 笔者使用的版本说明: Tomcat7.0.25 JDK8 首先排查JVM的问题,就要把GC日志打开 ...

  9. [转帖]shell编程之条件语句

    目录 一.条件测试 test命令 文件测试与整数测试 文件测试 整数值比较 字符串测试与逻辑测试 字符串比较 逻辑测试 二.if语句 if单分支语句 单分支结构 if双分支语句 双分支结构 if多分支 ...

  10. [转帖]一个小操作,SQL 查询速度翻了 1000 倍

    https://tidb.net/book/tidb-monthly/2022/2022-04/usercase/sql-1000 背景介绍​ 某一天早上来到公司,接到业务同学反馈,线上某个SQL之前 ...