Scrapy框架的使用 -- 自动跳转链接并请求

# -*- coding: utf-8 -*-

import scrapy

from movie.items import MovieItem

class MoviespiderSpider(scrapy.Spider):

    name = 'moviespider'

    # allowed_domains = ['www.movie.com']

    start_urls = ['https://www.4567tv.tv/index.php/vod/show/id/1.html']

    def detail_parse(self, response):

        item = response.meta['item']

        director = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[3]/a/text()').extract()

        item['director'] = director

        yield item

    def parse(self, response):

        li_list = response.xpath('//li[@class="col-md-6 col-sm-4 col-xs-3"]')

        for li in li_list:

            title = li.xpath('./div/a/@title').extract_first()

            actor = li.xpath('./div/div/p/text()').extract_first()

            detail_url = 'https://www.4567tv.tv' + li.xpath('./div/a/@href').extract_first()

            item = MovieItem()

            item['name'] = title

            item['actor'] = actor

            # 第一个解析的函数中不直接yield item, yield scrapy.Request()对象 传入下一个连接的url 

            yield scrapy.Request(url=detail_url, callback=self.detail_parse, meta={'item': item})

Scrapy框架的使用 -- 自动跳转链接并请求的更多相关文章

爬虫之牛掰的scrapy框架
一. Scrapy简介及安装 http://python.jobbole.com/86405/ Scrapy的详细介绍 1.简介 2.安装 1.window上安装: 先 ...
python爬虫学习之Scrapy框架的工作原理
一.Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更确切来说, 网 ...
微信内无法自动跳转外部浏览器打开H5分享链接的解决办法
很多情况下我们用微信分享转发H5链接的时候,都无法在微信内打开,即使开始能打开,过一段时间就会被拦截,拦截后再打开微信会提示 “已停止访问该网址” ,那么导致这个情况的因素有哪些呢,主要有以下四点 1 ...
如何设置使chrome新标签页中打开链接自动跳转到新标签页?
在新标签打开链接的时候这样点选 Ctrl+左键或者鼠标中键或者右键链接选择'新标签页中打开链接', 可实现出现新标签页但不自动跳转但是这个有问题, 即, 新标签只是在背景打开, 操作后并不会 ...
QQ和微信点击链接或扫描自动跳转外部浏览器
微信上进行的网页宣传.游戏传播.APP下载各类活动很多,但是各位朋友肯定经常会遇到一些特殊需求,网页需要在手机默认浏览器打开而不是微信内置浏览器.这个问题怎么解决呢? 另一种情况是你的网址被恶意举报被 ...
firefox打开链接自动跳转至新页面设置
Firefox打开新页面时,活动页面会自动跳转到刚刚打开的页面,用着很不舒服,想打开新页面标签时,页面依然会停留在之前的页面. 在网上找了一下,设置方法如下: 在地址栏里输入about:config, ...
Python爬虫进阶(Scrapy框架爬虫)
准备工作: 配置环境问题什么的我昨天已经写了,那么今天直接安装三个库首先第一步: ...
python scrapy框架爬虫遇到301
1.什么是状态码301 301 Moved Permanently(永久重定向) 被请求的资源已永久移动到新位置,并且将来任何对此资源的引用都应该使用本响应返回的若干个URI之一.如果可能,拥有链接编 ...
python 全栈开发，Day137(爬虫系列之第4章-scrapy框架)
一.scrapy框架简介 1. 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前S ...

随机推荐

看完MJ讲解的单例后的个人总结
1.单例的介绍单例是iOS常用的开发模式的一种. 2.什么是单例单例就是一个类只创建一个对象,只分配一次内存空间. 3.单例的应用场景 1)系统的单例: [UIApplication share ...
CSS 加号选择器（"+"）
加号选择器("+"):就是指对找到的某类的元素除第一个元素以外的兄弟元素起作用,即第一个元素不起作用,后面的兄弟元素都会起作用效果:给每一个li加一个border-left, ...
linux 常用命令手册
命令功能说明线上查询及帮助命令(2个) man 查看命令帮助,命令的词典,更复杂的还有info,但不常用. help 查看Linux内置命令的帮助,比如cd命令. 文件和目录操作命令(18个) l ...
什么是hive
Hadoop Hive概念学习系列之什么是Hive? 参考 <Hadoop大数据分析与挖掘实战>的在线电子书阅读 http://yuedu.baidu ...
python高级（二）—— python内置序列类型
本文主要内容序列类型分类: (1)容器序列.扁平序列 (2)可变序列.不可变序列列表推导式生成器表达式元组拆包切片排序(list.sort方法和sorted函数) bisect pytho ...
vue-cli 3.5 解决 typescript cannot find file 问题。
版本: "ts-loader": "^3.5.0","typescript": "^3.3.4000", "v ...
stark - 1 ⇲一些理念
⒈.django项目启动时,自定义执行某个py文件. 在任意的app的apps.py中的Config类中定义ready方法,并调用autodiscover_modules from django.ap ...
linux普通用户免秘钥登录（xshell工具环境）
一.xshell生成密钥 1)工具->新建用户密钥生成向导 2)选择密钥类型.密钥长度(默认即可) 3)生成密钥(生成公钥和私钥) 4)为密钥加密,增加密码(可选),建议加上 5)将公钥保存为文 ...
[Java基础]-- Java GC 垃圾回收器的分类和优缺点
https://blog.csdn.net/high2011/article/details/80177473?utm_source=blogxgwz2 参考:elasticsearch实战-使用G1 ...
redis中算法之——MurmurHash2算法
MurmurHash算法由Austin Appleby发明于2008年,是一种非加密hash算法,适用于基于hash查找的场景.murmurhash最新版本是MurMurHash3,支持32位,64位 ...

Scrapy框架的使用 -- 自动跳转链接并请求

Scrapy框架的使用 -- 自动跳转链接并请求的更多相关文章

随机推荐

热门专题