scrapy meta不用pipe用命令-o

1.　　spider代码:

# -*- coding: utf-8 -*-

import scrapy

from tencent1.items import Tencent1Item

import json

class Mytest1Spider(scrapy.Spider):

    name = 'tc1'

    start_urls = ['https://hr.tencent.com/position.php?lid=&tid=&keywords=python&start=0#a/']

    def parse(self, response):

        item = Tencent1Item()

        tr = response.xpath("//tr[@class='even']|//tr[@class='odd']")

        for i in tr:

            item['job_name']=i.xpath('./td[1]/a/text()').extract_first()

            item['job_type'] = i.xpath('./td[2]/text()').extract_first()

            item['job_num'] = i.xpath('./td[3]/text()').extract_first()

            item['job_place'] = i.xpath('./td[4]/text()').extract_first()

            item['job_time'] = i.xpath('./td[5]/text()').extract_first()

            # print(item)

            url1 = i.xpath('./td[1]/a/@href').extract_first()

            url1 = 'https://hr.tencent.com/{}'.format(url1)

            yield scrapy.Request(url=url1,meta={'job_item':item},callback=self.parse_detail)

        # #下一页网址

        # url_next = response.xpath('//a[@id = "next"]/@href').extract_first()

        # if '50'in url_next:

        #     return

        # url_next = 'https://hr.tencent.com/{}'.format(url_next)

        # print(url_next)

        # yield scrapy.Request(url_next)

    def parse_detail(self,response):

        item = response.meta['job_item']

        data = response.xpath('//ul[@class="squareli"]/li/text()').extract()

        item['job_detail'] = '\n'.join(data)

        return item

2.　　items代码:

import scrapy

class Tencent1Item(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    job_name = scrapy.Field()

    job_type = scrapy.Field()

    job_num = scrapy.Field()

    job_place = scrapy.Field()

    job_time = scrapy.Field()

    job_detail = scrapy.Field()

3.　　命令,(job.jl 是文件名字)

scrapy meta不用pipe用命令-o的更多相关文章

node.js零基础详细教程(7.5)：mongo可视化工具webstorm插件、nodejs自动重启模块Node Supervisor（修改nodejs后不用再手动命令行启动服务了）
第七章建议学习时间4小时课程共10章学习方式:详细阅读,并手动实现相关代码学习目标:此教程将教会大家安装Node.搭建服务器.express.mysql.mongodb.编写后台业务逻辑. ...
scrapy meta信息丢失
在做58同城爬二手房时,由于房产详情页内对价格进行了转码处理,所以只能从获取详情页url时同时获取该url对应房产的价格,并通过meta传递给下回调函数现在问题是,在回调函数中找不到原函数meta信 ...
Scrapy爬虫框架与常用命令
07.08自我总结一.Scrapy爬虫框架大体框架 2个桥梁二.常用命令全局命令 startproject 语法:scrapy startproject <project_name> ...
Scrapy 常用的shell执行命令
1.在任意系统下,可以使用 pip 安装 Scrapy pip install scrapy/ 确认安装成功 >>> import scrapy >>> scrap ...
一款开源的文件搜索神器，终于不用记 find 命令了
这是 HelloGitHub 推出的<讲解开源项目>系列,用一篇文章带你快速上手有趣的开源项目. 今天给大家推荐一个好用+开源的文件搜索工具--fd 该工具支持大多数主流操作系统,快来更新 ...
华为手机root 删除一般不用软件的命令
上个B518海外版的一键root精简精简了以下这些,不想删除的自己可以在刷机脚本中删除对应行就行了,音量解锁,GPS,搜索键关屏,root,添加钛备份4.0,re管理器,其他框架未改动,稳定性不会变 ...
误删文件不用怕 grep命令帮你恢复
作为长期的电脑使用者,肯定会有误删文件的经历,在 Mac OS X 和 Windows 上删除的文件都会默认进 “回收站”.在 Linux 上如果事先没有用别名(alias)修改默认的 rm 功能,r ...
Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解
这篇文章主要是对的scrapy命令行使用的一个介绍创建爬虫项目 scrapy startproject 项目名例子如下: localhost:spider zhaofan$ scrapy start ...
Scrapy 1.4 文档 05 命令行工具
在系统命令行中,使用 scrapy 命令可以创建工程或启动爬虫,它控制着 Scrapy 的行为,我们称之为 Scrapy 命令行工具(command-line tool)或 Scrapy 工具(Scr ...

随机推荐

iOS 在程序内调用手机上安装的地图软件进行导航
// 需求是需要用户能从所在位置到附近的健身房的路线, 然而,就一个需求,不值当的添加一个地图, 就用调用手机上第三方地图软件, 什么高德, 百度, 腾讯, iOS 原生地图都可以, 如果 ...
Confluence 6 使用 Fail2Ban 来限制登录尝试
什么是 Fail2Ban? 我们需要在我们网站中防止密码的暴利破解.Fail2Ban 是一个 Python 的应用来查看日志文件,使用的是正则表达式,同时还可以与Shorewall (或者 iptab ...
【深度学习】吴恩达网易公开课练习(class1 week4)
概要 class1 week3的任务是实现单隐层的神经网络代码,而本次任务是实现有L层的多层深度全连接神经网络.关键点跟class3的基本相同,算清各个参数的维度即可. 关键变量: m: 训练样本数量 ...
Laravel5.7 跨域解决
先检查app/Http/Middleware/ 下是否有EnableCrossRequestMiddleware.php 这个文件,没有此文件使用此命令创建 php artisan make:midd ...
Spring声明式事务@Transactional 详解，事务隔离级别和传播行为
@Transactional注解支持9个属性的设置,这里只讲解其中使用较多的三个属性:readOnly.propagation.isolation.其中propagation属性用来枚举事务的传播行为 ...
Axure实现多用户注册验证
*****多用户登录验证***** 一.(常规想法)方法:工作量较大,做起来繁琐 1.当用户名和密码相同时怎么区分两者,使用冒号和括号来区分: eg. (admin:123456)(123456:de ...
极光推送>>java SDK服务端集成后台项目(使用详解)
PS:如果你是第一次用推送,那就直接按照我的步骤来,再去看官方文档,这样,更容易能理解操作流程.还有——-请耐心看极光文档(java SDK)请参考 [ 极光文档 ] 步骤一: 首先,你必须在 [极 ...
Python面向对象三大特性综合案例+1（视频里的作业）
class Dog: # 在创建一个小狗实例的时候,给它设置几个属性 def __init__(self, name, age = 1): self.name = name self.age = ag ...
IDEA导入JAR的源代码
【Oracle】Linux7安装11g 86%报错：Error in invoking target 'agent nmhs' of makefile
http://blog.itpub.net/29475508/viewspace-2120836/

scrapy meta不用pipe用命令-o

scrapy meta不用pipe用命令-o的更多相关文章

随机推荐

热门专题