scrapy 请求传参

1.定义数据结构item.py文件

'''

field: item.py

'''

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class MovieprojectItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    # 电影海报

    # 一级页面要抓取的内容

    post = scrapy.Field()

    name = scrapy.Field()

    _type = scrapy.Field()

    # 二级页面要抓取的内容

    director = scrapy.Field()

    design = scrapy.Field()

    actor = scrapy.Field()

    info = scrapy.Field()

2.爬虫文件

# -*- coding: utf-8 -*-

# -*- coding: utf-8 -*-

import scrapy

from movieproject.items import MovieprojectItem

class MovieSpider(scrapy.Spider):

    name = 'movie'

    allowed_domains = ['www.id97.com']

    start_urls = ['http://www.id97.com/movie/']

    url = 'http://www.id97.com/movie/?page={}'

    page = 1

    '''

    (1)只需要提取页码链接，只提取第一页的信息即可

    (2)需要写两个规则，一个规则提取详情页面，一个规则是提取页码链接

    '''

    def parse(self, response):

        # 先查找所有的movie_div

        movie_div_list = response.xpath('//div[starts-with(@class,"col-xs-1-5")]')

        # 遍历所有的div，去获取每一个详细的信息

        for odiv in movie_div_list:

            item = MovieprojectItem()

            # 获取电影海报

            item['post'] = odiv.xpath(".//img/@data-original").extract_first()

            # 获取电影名字

            item['name'] = odiv.xpath("./div/div/h1/a/text()").extract_first()

            # 获取电影类型

            item['_type'] = odiv.xpath("./div/div/div/a/text()").extract()

            # 获取详情页面

            detail_href = odiv.xpath('./div/a/@href').extract_first()

						'''

						向详情页面发送请求

            将item向二级传递过去，到二级页面接受并且接着提取其他的信息

            请求二级详情页面，解析二级页面中的相应内容,通过meta参数进行Request的数据传

						'''

            yield scrapy.Request(url=detail_href,callback=self.parse_detail, meta={'item': item})

# 爬取其他页面

        if self.page <= 5:

            self.page += 1

            url = self.url.format(self.page)

            print(url)

            yield scrapy.Request(url=url, callback=self.parse)

    def parse_detail(self,response):

        # 首先获取到上一级传递过来的item

        item = response.meta['item']

        # 在这个页面中接着提取电影的其它信息即可

        # 获取导演

        item['director'] = response.xpath("//div[starts-with(@class,'col-xs-8')]/table/tbody/tr/td[2]/a/text()").extract()

        # 获取编剧

        item['design'] = response.xpath("//div[starts-with(@class,'col-xs-8')]/table/tbody/tr[2]/td[2]/a/text()").extract()

        # 获取主演

        item['actor'] = response.xpath("//div[starts-with(@class,'col-xs-8')]/table/tbody/tr[3]/td[2]/a/text()").extract()

        # 获取电影介绍

        item['info'] = response.xpath("//div[@class='col-xs-12 movie-introduce']/p/text()").extract_first()

        #提交item到管道

        yield item

3.管道文件

# -*- coding: utf-8 -*-

'''

filed: pipelines.py

'''

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import json

from scrapy.utils.project import get_project_settings

import pymysql

class MovieprojectPipeline(object):

    def open_spider(self,spider):

        self.fp = open("movie.json","w",encoding="utf8")

    def process_item(self, item, spider):

        obj = dict(item)

        string = json.dumps(obj,ensure_ascii=False)

        self.fp.write(string+'\n')

        # print("写入成功")

        return item

    def close_spider(self,spider):

        self.fp.close()

class MovieMysqlPipeline(object):

    def open_spider(self,spider):

        # 获取所有的配置信息

        settings = get_project_settings()

        # 链接数据库

        host = settings['DB_HOST']

        port = settings['DB_PORT']

        user = settings['DB_USER']

        pwd = settings['DB_PWD']

        name = settings['DB_NAME']

        charset = settings['DB_CHARSET']

        self.conn = pymysql.connect(host=host, port=port, user=user, password=pwd, db=name, charset=charset)

    def process_item(self, item, spider):

        # 拼接sql语句

        sql = 'insert into movie(post, name, type, director, design, actor, info) values("%s","%s","%s","%s","%s","%s","%s")' % (item['post'], item['name'], item['_type'], item['director'], item['design'], item['actor'], item['info'])

        # 获取游标

        cursor = self.conn.cursor()

        # 执行sql语句

        try:

            cursor.execute(sql)

            self.conn.commit()

        except Exception as e:

            self.conn.rollback()

        return item

    def close_spider(self,spider):

        # 关闭数据库

        self.conn.close()

scrapy (三) : 请求传参的更多相关文章

爬虫scrapy组件请求传参,post请求,中间件
post请求在scrapy组件使用post请求需要调用 def start_requests(self): 进行传参再回到 yield scrapy.FormRequest(url=url,form ...
scrapy基于请求传参实现深度爬取
请求传参实现深度爬取请求传参: 实现深度爬取:爬取多个层级对应的页面数据使用场景:爬取的数据没有在同一张页面中在手动请求的时候传递item:yield scrapy.Request(url,ca ...
13.scrapy框架的日志等级和请求传参
今日概要日志等级请求传参如何提高scrapy的爬取效率今日详情一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是s ...
scrapy框架的日志等级和请求传参
日志等级请求传参如何提高scrapy的爬取效率一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息 ...
scrapy框架之日志等级和请求传参-cookie-代理
一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志信息的种类: ERROR : 一般错误 ...
scrapy框架post请求发送，五大核心组件，日志等级，请求传参
一.post请求发送 - 问题:爬虫文件的代码中,我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送,但是起始url的确是进行了请求的发送,那这是如何实现的呢? - 解答: ...
13，scrapy框架的日志等级和请求传参
今日概要日志等级请求传参如何提高scrapy的爬取效率一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy ...
python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提升爬取效率,请求传参(meta),五大核心组件,中间件
# settings 配置 UA USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, l ...
12 Scrapy框架的日志等级和请求传参
一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志信息的种类: ERROR : 一般错误 ...

随机推荐

今天抠图，Python实现一键换底片！想换什么换什么（附源码）
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 生活中我们会拍很多的证件照,有的要求红底,有的是白底,有的是蓝底,今天不通 ...
Flask 蓝图（Blueprint）使用方式解析
Flask蓝图提供了模块化管理程序路由的功能,使程序结构清晰.简单易懂.下面分析蓝图的使用方法假如说我们要为某所学校的每个人建立一份档案,一个很自然的优化方式就是这些档案如果能分类管理,就是说假如分 ...
用python简单爬取一个网页
1打开编辑器 2撸几行代码 import urllib.request import urllib.error def main(): askURl("http://movie.douban ...
Redis底层结构全了解
第一篇文章,思来想去,写一写Redis吧,最近在深入研究它. 一丶Redis底层结构 1. redis 存储结构 redis的存储结构从外层往内层依次是redisDb.dict.dictht.dict ...
（二）用testng的groups管理用例
原文链接:https://www.cnblogs.com/Jourly/p/7002096.html 一.需求: 测试时经常有两种场景,第一种是冒烟测试的小部分用例:一类是全部用例. 二.针对第一种运 ...
Jmeter基础004----增加参数化
一.参数化概述 1.参数化概念参数化就是动态的获取并设置数据,当执行批量操作时,如批量插入或批量删除,之前每执行完一次就需要修改一次,效率太低,参数化可以代替人工获取并设置数据,安全且高效! 2.J ...
vim改变字体和查看映射的(mapping)命令
临时修改.通过gvim Command MODE,输入如下命令即可: Linux/Unix: set guifont=Monospace\空格14 注意这里需要对空格使用\进行转义 Windows: ...
使用vuex中的store存储数据
Vuex是一个专门为Vue.js应用程序开发的状态管理模式,这个状态自管理应用包括三个模式 state 驱动应用的数据源 view 以声明方式将state映射到视图 actions 响应在view上的 ...
个人工作用SQL短句，不定时更新
表字段操作 --一.修改字段默认值 alter table 表名 drop constraint 约束名字 ------说明:删除表的字段的原有约束 alter table 表名 add constr ...
06.DRF-第一个demo
一.环境安装与配置 DRF需要以下依赖: Python (2.7, 3.2, 3.3, 3.4, 3.5, 3.6) Django (1.10, 1.11, 2.0) DRF是以Django扩展应用的 ...

scrapy (三) : 请求传参

scrapy 请求传参

1.定义数据结构item.py文件

2.爬虫文件

3.管道文件

scrapy (三) : 请求传参的更多相关文章

随机推荐

热门专题