Python 之scrapy框架58同城招聘爬取案例

一、项目目录结构：

代码如下：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class Job58CityItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    job_name = scrapy.Field()

    money = scrapy.Field()

    job_wel = scrapy.Field()

    company = scrapy.Field()

    position_type = scrapy.Field()

    xueli = scrapy.Field()

    jingyan = scrapy.Field()

    address = scrapy.Field()

# -*- coding: utf-8 -*-

import scrapy

from ..items import Job58CityItem

class JobsSpider(scrapy.Spider):

    name = 'jobs'

    allowed_domains = ['58.com']

    # 配置起始页url

    offset = 1

    url = "https://cd.58.com/job/pn{0}/"

    start_urls = [url.format(str(offset))]

    #解析html内容

    def parse(self, response):

        for each in response.xpath("//ul[@id='list_con']/li"):

            item = Job58CityItem()

            item['job_name'] = each.xpath(".//span[@class='name']/text()").extract()[0]

            money_list = each.xpath(".//p[@class='job_salary']/text()").extract()

            money = "未知"

            if len(money_list) > 0:

                money = money_list[0]

            item['money'] = money

            span = each.xpath(".//div[@class='job_wel clearfix']/span")

            item['job_wel'] = []

            for i in span:

                item['job_wel'].append(i.xpath("./text()").extract()[0])

            item['company'] = each.xpath(".//div[@class='comp_name']/a/text()").extract()[0]

            item['position_type'] = each.xpath(".//span[@class='cate']/text()").extract()[0]

            item['xueli'] = each.xpath(".//span[@class='xueli']/text()").extract()[0]

            item['jingyan'] = each.xpath(".//span[@class='jingyan']/text()").extract()[0]

            item['address'] = each.xpath("//span[@class='address']/text()").extract()[0]

            yield item

        if self.offset < 100:

            self.offset += 1

        yield scrapy.Request("https://cd.58.com/job/pn{0}/".format(str(self.offset)), callback=self.parse)

from scrapy import cmdline

if __name__ == '__main__':

    cmdline.execute("scrapy crawl jobs".split())

数据：

源码链接：https://github.com/yangsphp/Scrapy-master

Python 之scrapy框架58同城招聘爬取案例的更多相关文章

python爬虫 scrapy框架（一）爬取壁纸照片
此项目仅供学习参考, 不用于任何商业用途若侵权留言,立刻删除刚入门爬虫不久,一心想找个网站试试,然后朋友推荐了这个壁纸网站
Scrapy 框架 CrawlSpider 全站数据爬取
CrawlSpider 全站数据爬取创建 crawlSpider 爬虫文件 scrapy genspider -t crawl chouti www.xxx.com import scrapy fr ...
scrapy框架用CrawlSpider类爬取电影天堂.
本文使用CrawlSpider方法爬取电影天堂网站内国内电影分类下的所有电影的名称和下载地址 CrawlSpider其实就是Spider的一个子类. CrawlSpider功能更加强大(链接提取器,规 ...
爬虫(十七)：Scrapy框架(四) 对接selenium爬取京东商品数据
1. Scrapy对接Selenium Scrapy抓取页面的方式和requests库类似,都是直接模拟HTTP请求,而Scrapy也不能抓取JavaScript动态谊染的页面.在前面的博客中抓取Ja ...
python爬虫scrapy框架
Scrapy 框架关注公众号"轻松学编程"了解更多. 一.简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量 ...
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
Python爬虫(四)——开封市58同城数据模型训练与检测
前文参考: Python爬虫(一)——开封市58同城租房信息 Python爬虫(二)——对开封市58同城出租房数据进行分析 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析数据的构建 ...
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多分类专栏: 网络爬虫版权声明: ...
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...

随机推荐

js/jq仿window文件夹移动/剪切/复制等操作
1.先看下效果吧! 2.在添加一个index.html <!DOCTYPE html> <html lang="en"> <head> < ...
oracle 12c show con_name
今天安装了一个oracle 12c的数据库做测试,在运行一个很简单的命令时出错了: SQL> show con_name concat "." (hex 2e) SP2: u ...
两个栈实现队列，开始做错了 —— 剑指Offer
开始大意了,这道题目居然做错了: https://www.nowcoder.net/practice/54275ddae22f475981afa2244dd448c6?tpId=13&tqId ...
HDOJ 5402 Travelling Salesman Problem 模拟
行数或列数为奇数就能够所有走完. 行数和列数都是偶数,能够选择空出一个(x+y)为奇数的点. 假设要空出一个(x+y)为偶数的点,则必须空出其它(x+y)为奇数的点 Travelling Salesm ...
Windows 文件夹修改为exe的原理和解决办法
有关文件夹后缀改为exe的病毒该病毒之前出现过,不过没多长时间便消失了,最新的这个应该是变种,下面解决一下该病毒在移动存储设备中的问题: 该病毒并不具备能够将文件夹改为文件的能力,只是将原有文件夹全 ...
wordpress 配置(ubuntu)---修改 linux hostname
使用阿里云服务器的 ubuntu 系统时的 hostname 太扭曲,而且有些命令会受 hostname 的影响不能正常使用,所以,一定要改掉它! 永久修改 hostname: 使用 nano 命令: ...
在word中doc与docx的区别是什么（整理）
在word中doc与docx的区别是什么(整理) docx 是Office2007使用的,是用新的基于XML的压缩文件格式取代了其目前专有的默认文件格式,在传统的文件名扩展名后面添加了字母x(即.do ...
spark 操作Hive时遇到的问题
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).17/10/14 ...
利用SSL For Free工具3分钟获取Let's Encrypt免费SSL证书
https://www.sslforfree.com/
vs2010打开vs2012项目
修改.sln文件的前两行修改前: Microsoft Visual Studio Solution File, Format Version 12.00 # Visual Studio 2012 修 ...

Python 之scrapy框架58同城招聘爬取案例

Python 之scrapy框架58同城招聘爬取案例的更多相关文章

随机推荐

热门专题