CrawlSpider爬取拉钩

CrawlSpider继承Spider,提供了强大的爬取规则(Rule)供使用

填充custom_settings,浏览器中的请求头

from datetime import datetime

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from ArticleSpider.items import LagouJobItem, LagouJobItemLoader

from ArticleSpider.utils.common import get_md5

class LagouSpider(CrawlSpider):

    name = 'lagou'

    allowed_domains = ['www.lagou.com']

    start_urls = ['https://www.lagou.com/']

    custom_settings = {

    }

    rules = (

        Rule(LinkExtractor(allow=("zhaopin/.*",)), follow=True),

        Rule(LinkExtractor(allow=("gongsi/j\d+.html",)), follow=True),

        Rule(LinkExtractor(allow=r'jobs/\d+.html'), callback='parse_job', follow=True),

    )

    def parse_job(self, response):

        # 解析拉勾网的职位

        item_loader = LagouJobItemLoader(item=LagouJobItem(), response=response)

        item_loader.add_css("title", ".job-name::attr(title)")

        item_loader.add_value("url", response.url)

        item_loader.add_value("url_object_id", get_md5(response.url))

        item_loader.add_css("salary", ".job_request .salary::text")

        item_loader.add_xpath("job_city", "//*[@class='job_request']/p/span[2]/text()")

        item_loader.add_xpath("work_years", "//*[@class='job_request']/p/span[3]/text()")

        item_loader.add_xpath("degree_need", "//*[@class='job_request']/p/span[4]/text()")

        item_loader.add_xpath("job_type", "//*[@class='job_request']/p/span[5]/text()")

        item_loader.add_css("tags", '.position-label li::text')

        item_loader.add_css("publish_time", ".publish_time::text")

        item_loader.add_css("job_advantage", ".job-advantage p::text")

        item_loader.add_css("job_desc", ".job_bt div")

        item_loader.add_css("job_addr", ".work_addr")

        item_loader.add_css("company_name", "#job_company dt a img::attr(alt)")

        item_loader.add_css("company_url", "#job_company dt a::attr(href)")

        item_loader.add_value("crawl_time", datetime.now())

        job_item = item_loader.load_item()

        return job_item

class LagouJobItemLoader(ItemLoader):

    #自定义itemloader

    default_output_processor = TakeFirst()

class LagouJobItem(scrapy.Item):

    #拉勾网职位信息

    title = scrapy.Field()

    url = scrapy.Field()

    url_object_id = scrapy.Field()

    salary = scrapy.Field()

    job_city = scrapy.Field(

        input_processor=MapCompose(remove_splash),

    )

    work_years = scrapy.Field(

        input_processor = MapCompose(remove_splash),

    )

    degree_need = scrapy.Field(

        input_processor = MapCompose(remove_splash),

    )

    job_type = scrapy.Field()

    publish_time = scrapy.Field()

    job_advantage = scrapy.Field()

    job_desc = scrapy.Field()

    job_addr = scrapy.Field(

        input_processor=MapCompose(remove_tags, handle_jobaddr),

    )

    company_name = scrapy.Field()

    company_url = scrapy.Field()

    tags = scrapy.Field(

        input_processor = Join(",")

    )

    crawl_time = scrapy.Field()

    def get_insert_sql(self):

        insert_sql = """

            insert into lagou_job(title, url, url_object_id, salary, job_city, work_years, degree_need,

            job_type, publish_time, job_advantage, job_desc, job_addr, company_name, company_url,

            tags, crawl_time) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)

            ON DUPLICATE KEY UPDATE salary=VALUES(salary), job_desc=VALUES(job_desc)

        """

        params = (

            self["title"], self["url"], self["url_object_id"], self["salary"], self["job_city"],

            self["work_years"], self["degree_need"], self["job_type"],

            self["publish_time"], self["job_advantage"], self["job_desc"],

            self["job_addr"], self["company_name"], self["company_url"],

            self["job_addr"], self["crawl_time"].strftime(SQL_DATETIME_FORMAT),

        )

        return insert_sql, params

SET FOREIGN_KEY_CHECKS=0;

-- ----------------------------

-- Table structure for lagou_job

-- ----------------------------

DROP TABLE IF EXISTS `lagou_job`;

CREATE TABLE `lagou_job` (

  `title` varchar(255) NOT NULL,

  `url` varchar(255) NOT NULL,

  `url_object_id` varchar(50) NOT NULL,

  `salary` varchar(20) DEFAULT NULL,

  `job_city` varchar(255) DEFAULT NULL,

  `work_years` varchar(255) DEFAULT NULL,

  `degree_need` varchar(255) DEFAULT NULL,

  `job_type` varchar(255) DEFAULT NULL,

  `tags` varchar(255) DEFAULT NULL,

  `publish_time` varchar(20) NOT NULL,

  `job_advantage` varchar(255) DEFAULT NULL,

  `job_desc` longtext NOT NULL,

  `job_addr` varchar(255) DEFAULT NULL,

  `company_name` varchar(255) DEFAULT NULL,

  `company_url` varchar(255) DEFAULT NULL,

  `crawl_time` datetime NOT NULL,

  `crawl_update_time` datetime DEFAULT NULL,

  PRIMARY KEY (`url_object_id`)

) ENGINE=InnoDB DEFAULT CHARSET=utf8;

CrawlSpider爬取拉钩的更多相关文章

21天打造分布式爬虫-Selenium爬取拉钩职位信息（六）
6.1.爬取第一页的职位信息第一页职位信息 from selenium import webdriver from lxml import etree import re import time c ...
Python 爬取拉钩
... from urllib import request from urllib import parse from urllib.error import URLError import jso ...
python3爬取拉钩招聘数据
使用python爬去拉钩数据第一步:下载所需模块 requests 进入cmd命令 :pip install requests 回车联网自动下载 xlwt 进入cmd命令 :pip install ...
使用request爬取拉钩网信息
通过cookies信息爬取分析header和cookies 通过subtext粘贴处理header和cookies信息处理后,方便粘贴到代码中爬取拉钩信息代码 import requests c ...
爬取拉钩网上所有的python职位
# 2.爬取拉钩网上的所有python职位. from urllib import request,parse import json,random def user_agent(page): #浏览 ...
使用nodejs爬取拉勾苏州和上海的.NET职位信息
最近开始找工作,本人苏州,面了几家都没有结果很是伤心.在拉勾上按照城市苏州关键字.NET来搜索一共才80来个职位,再用薪水一过滤,基本上没几个能投了.再加上最近苏州的房价蹭蹭的长,房贷压力也是非常大, ...
Scrapy框架——CrawlSpider爬取某招聘信息网站
CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页, 而Craw ...
Python3 Scrapy + Selenium + 阿布云爬取拉钩网学习笔记
1 需求分析想要一个能爬取拉钩网职位详情页的爬虫,来获取详情页内的公司名称.职位名称.薪资待遇.学历要求.岗位需求等信息.该爬虫能够通过配置搜索职位关键字和搜索城市来爬取不同城市的不同职位详情信息, ...
selelinum+PhantomJS 爬取拉钩网职位
使用selenium+PhantomJS爬取拉钩网职位信息,保存在csv文件至本地磁盘拉钩网的职位页面,点击下一页,职位信息加载,但是浏览器的url的不变,说明数据不是发送get请求得到的. 我们不 ...

随机推荐

js判断当前浏览器页面是否切换
公司做mifi设备,ui界面很多信息需要1S钟不断异步请求更新信息,如果同时打开多个浏览器或者多个当前界面,设备1S钟会收到很多个请求,由于设备本身内存限制,会导致响应速度过慢,且会造成设备重启等. ...
koa2实现session的两种方式（基于Redis 和MySQL）
一.基于MySQL的实现方式这种方式需要安装koa-session-minimal和koa-mysql-session两个依赖. 执行 npm install koa-session-minimal ...
codeforces#1097 D. Makoto and a Blackboard（dp+期望）
题意:现在有一个数写在黑板上,它以等概率转化为它的一个约数,可以是1,问经过k次转化后这个数的期望值题解:如果这个数是一个素数的n次方,那么显然可以用动态规划来求这个数的答案,否则的话,就对每个素因 ...
mybatis配置文件配错
UG] 2017-10-04 20:04:30,582(137226) --> [http-bio-8082-exec-9] org.springframework.web.servlet.ha ...
no-sql数据库之redis
一.FAQ 1.如果用连接器连接redis不成功,报如下错误: crash-report-server replied:Request Entity Too Large 则可以先通过cmd命令查看端口 ...
Jmeter操作之跨线程组传递参数
思路:将某一线程组内的变量通过“__setProperty”函数设置成jmeter的全局变量,在另一线程组中通过“__P”函数调用即可. 1.添加-后置处理器-BeanShell PostProces ...
Python之字符串操作
一.字符串特点内容不可修改 password=' #内容不可修改二.字符串常用方法 1..strip()方法去字符串两边的空格和换行符 print(password.strip()) #去掉字符 ...
Jeecg-Boot Spring Boot
Jeecg-Boot 1.0 发布,企业级快速开发平台 - 开源中国https://www.oschina.net/news/104889/jeecg-boot-1-0-released
如何在 Linux 中查找最大的 10 个文件
https://linux.cn/article-9495-1.html
oracle查询不走索引的一些情况（索引失效）
Oracle建立索引的目的是为了避免全表扫描,提高查询的效率. 但是有些情况下发现即使建立了索引,但是写出来的查询还是很慢,然后会发现是索引失效导致的,所以需要了解一下那些情况会导致索引失效,即查询不 ...

CrawlSpider爬取拉钩

CrawlSpider爬取拉钩的更多相关文章

随机推荐

热门专题