Scrapy爬取多层级网页内容的方式

# -*- coding: utf-8 -*-

import scrapy

from Avv.items import AvvItem

class AvSpider(scrapy.Spider):

    name = 'av' # 爬虫名

    allowed_domains = ['51porn.net/'] # 爬虫作用域

    # 爬取第2页到最后一页的代码

    url = 'http://www.51porn.net/nvyoudaquan/index_{}.html' # 起始url，并用花括号格式化

    offset = 2 # 偏移量

    start_urls = [url.format(str(offset))] # 拼接为完整url

    def parse(self, response): # 第一个parse，从中提取下一层url

　　　　 # 第一部分

        links = response.xpath("//ul[@class='clearfix']/li/a/@href").extract() # 利用xpath提取下一层的url列表，并用extract转换为字符串

        for link in links: # 遍历上个列表

            url = "http://www.51porn.net" + link # 由于提取出来的url不完整，所以需要拼接为完整的url

            yield scrapy.Request(url,callback=self.parse_s,dont_filter=True) # 请求下一层url，方法为第二个parse，dont_filter=True的作用是避免有时候新的url会被作用域过滤掉

　　　　# 第二部分

        m_page = 26 # 这里设置的是第一层的url有多少页

        if self.offset<m_page: # 如果当前页小于最大页

            self.offset += 1 # 偏移量自增1

            yield scrapy.Request(self.url.format(str(self.offset)),callback=self.parse,dont_filter=True) # 再此请求第一层的新的url

    def parse_s(self, response):

        link = response.xpath("//div[@class='wrap loadimg avlist-small']/ul/li[1]/a/@href").extract()[0] # 提取第2层url

        url = "http://www.51porn.net" + link # 拼接为新的url

        yield scrapy.Request(url,callback=self.parse_t,dont_filter=True) # 请求第3个parse

    def parse_t(self, response):

        links = response.xpath("//ul[@class='alllist clearfix']/li/a/@href").extract() # 提取第3层url

        for link in links:

            url = "http://www.51porn.net" + link # 拼接为新的url

            yield scrapy.Request(url,callback=self.parse_last,dont_filter=True) # 请求最后的parse

    def parse_last(self, response):

        item = AvvItem() # 实例一个引入的字典类对象

        node_list = response.xpath("//div[@class='content loadimg wow fadeInUp']")

        for node in node_list:

            # 提取以下具体信息

            item["m_num"] = node.xpath("./p[1]/text()").extract()[0]

            item["m_name"] = node.xpath("./p[2]/text()").extract()[0]

            item["s_name"] = node.xpath("./p[3]/a/text()").extract()[0]

            item["i_date"] = node.xpath("./p[4]/text()").extract()[0]

            item["l_work"] = node.xpath("./p[5]/text()").extract()[0]

            item["m_style"] = node.xpath("./p[7]/text()").extract()[0] if len(node.xpath("./p[7]/text()"))>0 else "无" # 判断此信息是否为空值

            item["c_work"] = node.xpath("./p[8]/img/@src").extract()[0]

        yield item # 返回

Scrapy爬取多层级网页内容的方式的更多相关文章

【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Scrapy爬取美女图片第四集突破反爬虫(上)
本周又和大家见面了,首先说一下我最近正在做和将要做的一些事情.(我的新书<Python爬虫开发与项目实战>出版了,大家可以看一下样章) 技术方面的事情:本次端午假期没有休息,正在使用fl ...
Scrapy爬取美女图片续集 (原创)
上一篇咱们讲解了Scrapy的工作机制和如何使用Scrapy爬取美女图片,而今天接着讲解Scrapy爬取美女图片,不过采取了不同的方式和代码实现,对Scrapy的功能进行更深入的运用.(我的新书< ...
python scrapy爬取HBS 汉堡南美航运公司柜号信息
下面分享个scrapy的例子利用scrapy爬取HBS 船公司柜号信息 1.前期准备查询提单号下的柜号有哪些,主要是在下面的网站上,输入提单号,然后点击查询 https://www.hamburg ...
Python——Scrapy爬取链家网站所有房源信息
用scrapy爬取链家全国以上房源分类的信息: 路径: items.py # -*- coding: utf-8 -*- # Define here the models for your scrap ...
scrapy爬取cnblogs文章列表
scrapy爬取cnblogs文章目标任务安装爬虫创建爬虫编写 items.py 编写 spiders/cnblogs.py 编写 pipelines.py 编写 settings.py 运行 ...
小说免费看！python爬虫框架scrapy 爬取纵横网
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 风,又奈何 PS:如有需要Python学习资料的小伙伴可以加点击下方 ...
scrapy爬取海量数据并保存在MongoDB和MySQL数据库中
前言一般我们都会将数据爬取下来保存在临时文件或者控制台直接输出,但对于超大规模数据的快速读写,高并发场景的访问,用数据库管理无疑是不二之选.首先简单描述一下MySQL和MongoDB的区别:MySQ ...
Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...

随机推荐

idea | 设置支持java8的lambda表达式
修改配置: setting: project structure:
Flask (七) 部署
阿里云部署Flask项目部署Flask项目和部署Django项目基本一致,我们也使用uwsgi+nginx 我们在部署Django项目基础上部署Flask项目 1, 将uwsgi.ini ...
UWP 基本控件
-------持续更新 updated 2017.11.8---------------------- 一:TextBlock 文本显示框 1. IsTextSelectionEnabled属性值 ...
Codeforces Round #547 (Div. 3) D. Colored Boots
链接:https://codeforces.com/contest/1141/problem/D 题意: 给连个n长度的字符串. 求两个字符串相同字符对应位置的对数,并挨个打印. 字符:?可以代替任何 ...
python+selenium+requests爬取qq空间相册时遇到的问题及解决思路
最近研究了下用python爬取qq空间相册的问题,遇到的问题及解决思路如下: 1.qq空间相册的访问需要qq登录并且需是好友,requests模块模拟qq登录略显麻烦,所以采用selenium的dri ...
模拟一次CSRF（跨站请求伪造）例子，适合新手
GET请求伪造有一个论坛网站,网站有一个可以关注用户的接口,但是必须登录的用户才可以关注其他用户. 这个网站的网站是www.a.com 有一天有一个程序员想提高自己的知名度,决定利用CSRF让大家关 ...
FusionCharts3.2.1 参数的详细说明和功能特性
功能特性animation 是否动画显示数据,默认为1(True)showNames 是否显示横向坐标轴(x轴)标签名称rotat ...
github上不了改下host
207.97.227.239 github.com 65.74.177.129 www.github.com 207.97.227.252 nodeload.github.com 207.97.227 ...
Codeforces Round #290 (Div. 2) _B找矩形环的三种写法
http://codeforces.com/contest/510/status/B 题目大意给一个n*m 找有没有相同字母连起来的矩形串第一种并查集瞎搞一下第一次的时候把val开成字符串了 ...
spark 的RDD各种转换和动作
今天先把spark的各种基本转换和动作总结下,以后有时间把各种用法放上去. 1 RDD基本转换操作 map.flagMap.distinct coalesce.repartition coale ...

Scrapy爬取多层级网页内容的方式

Scrapy爬取多层级网页内容的方式的更多相关文章

随机推荐

热门专题