scrapy 爬取前程无忧

spider

# -*- coding: utf-8 -*-

import scrapy

from Jobs.items import JobsItem

class Job51spiderSpider(scrapy.Spider):

    name = 'Job51Spider'

    allowed_domains = ['www.51job.com', 'search.51job.com']

    offset = 1

    # 起始url

    url = "https://search.51job.com/list/090200,000000,0000,00,9,99,php,2,"

    start_urls = [url + str(offset) + ".html"]

    def parse(self, response):

        print(response.url)

        for each in response.css('#resultList .el:not(.title)'):

            # 初始化模型对象

            item = JobsItem()

            # 职位名

            item['zwname'] = each.css('.t1 a').xpath('./@title').extract_first()

            # 公司名字

            item['gsname'] = each.css('.t2 a').xpath('./@title').extract_first()

            # 工作地点

            item['gzdd'] = each.css('.t3::text').extract_first()

            # 工资

            item['gz'] = each.css('.t4::text').extract_first()

            # 发布时间

            item['fbtime'] = each.css('.t5::text').extract_first()

            yield item

        zong = response.xpath('//div[@class="dw_page"]/div/div/div/span/text()').extract_first().split('页')[0].strip('共')

        if self.offset < int(zong):

            self.offset += 1

        # import ipdb; ipdb.set_trace()

        ss = self.url + str(self.offset) + ".html"

        yield scrapy.Request(url=ss, callback=self.parse)

items

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class JobsItem(scrapy.Item):

    # 职位名

    zwname = scrapy.Field()

    # 公司名字

    gsname = scrapy.Field()

    # 工作地点

    gzdd = scrapy.Field()

    # 工资

    gz = scrapy.Field()

    # 发布时间

    fbtime = scrapy.Field()

scrapy 爬取前程无忧的更多相关文章

python scrapy爬取前程无忧招聘信息
使用scrapy框架之前,使用以下命令下载库: pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple 1.创建项目文件夹 scr ...
网络爬虫之scrapy爬取某招聘网手机APP发布信息
1 引言过段时间要开始找新工作了,爬取一些岗位信息来分析一下吧.目前主流的招聘网站包括前程无忧.智联.BOSS直聘.拉勾等等.有段时间时间没爬取手机APP了,这次写一个爬虫爬取前程无忧手机APP岗位 ...
Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...
scrapy爬取豆瓣电影top250
# -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class ...
scrapy爬取极客学院全部课程
# -*- coding: utf-8 -*- # scrapy爬取极客学院全部课程 import scrapy from pyquery import PyQuery as pq from jike ...
scrapy爬取全部知乎用户信息
# -*- coding: utf-8 -*- # scrapy爬取全部知乎用户信息 # 1:是否遵守robbots_txt协议改为False # 2: 加入爬取所需的headers: user-ag ...
Scrapy爬取Ajax（异步加载）网页实例——简书付费连载
这两天学习了Scrapy爬虫框架的基本使用,练习的例子爬取的都是传统的直接加载完网页的内容,就想试试爬取用Ajax技术加载的网页. 这里以简书里的优选连载网页为例分享一下我的爬取过程. 网址为: ht ...

随机推荐

如何确保Memcache数据读写操作的原子性（转）
什么是CAS协议 Memcached于1.2.4版本新增CAS(Check and Set)协议类同于Java并发的CAS(Compare and Swap)原子操作,处理同一item被多个线程更改过 ...
post提交参数过多时,取消Tomcat对 post长度限制
1.Tomcat 默认的post参数的最大大小为2M, 当超过时将会出错,可以配置maxPostSize参数来改变大小. 从 apache-tomcat-7.0.63 开始,参数 maxPostSiz ...
hadoop的环境变量
# hadoop && yarn export HADOOP_PREFIX=/home/ochadoop/apps/hadoop export HADOOP_HOME=${HADOOP ...
js：上传图片并预览（https://blog.csdn.net/weixin_38023551/article/details/78318532）
1: //filereader 的方法<form action="" enctype="multipart/form-data"> <inpu ...
angular的符号
1.括号 {{模板标签}}: 模板标签中的内容会被当作一个表达式展开. [传入名] = ”接收变量名“: 可以把一个值传入组件.输入. (事件名) = “处理函数()”: 响应事件.输出. #视图变量 ...
Linux 日常用法
1.ubuntu 中安装vim http://jingyan.baidu.com/article/046a7b3efd165bf9c27fa915.html 2.linux 系统中安装SSH http ...
c3p0数据源的第一次尝试
开始补习以前学习过的基础正在尝试从c3p0 获取到connection 好的,首先上代码吧 public static DataSource ds = null; static { ComboPo ...
PhoenixFD插件流体模拟——UI布局【Rendering】详解
Liquid Rendering 流体渲染本文主要讲解Rendering折叠栏中的内容.原文地址:https://docs.chaosgroup.com/display/PHX3MAX/Liqui ...
使用Hbuilder手机debug
① 真机连接上数据线. ②选择要调试的页面 ③
【1天】黑马程序员27天视频学习笔记【Day02】
02.01常量的概述和使用 * A:什么是常量 * 在程序执行的过程中其值不可以发生改变 * B:Java中常量的分类 * 字面值常量 * 自定义常量(面向对象部分讲) * C:字面 ...

scrapy 爬取前程无忧

scrapy 爬取前程无忧的更多相关文章

随机推荐

热门专题