scrapy 爬取前程无忧
spider
# -*- coding: utf-8 -*-
import scrapy
from Jobs.items import JobsItem class Job51spiderSpider(scrapy.Spider):
name = 'Job51Spider'
allowed_domains = ['www.51job.com', 'search.51job.com']
offset = 1
# 起始url
url = "https://search.51job.com/list/090200,000000,0000,00,9,99,php,2,"
start_urls = [url + str(offset) + ".html"]
def parse(self, response):
print(response.url)
for each in response.css('#resultList .el:not(.title)'):
# 初始化模型对象
item = JobsItem()
# 职位名
item['zwname'] = each.css('.t1 a').xpath('./@title').extract_first()
# 公司名字
item['gsname'] = each.css('.t2 a').xpath('./@title').extract_first()
# 工作地点
item['gzdd'] = each.css('.t3::text').extract_first()
# 工资
item['gz'] = each.css('.t4::text').extract_first()
# 发布时间
item['fbtime'] = each.css('.t5::text').extract_first()
yield item zong = response.xpath('//div[@class="dw_page"]/div/div/div/span/text()').extract_first().split('页')[0].strip('共')
if self.offset < int(zong):
self.offset += 1 # import ipdb; ipdb.set_trace()
ss = self.url + str(self.offset) + ".html"
yield scrapy.Request(url=ss, callback=self.parse)
items
# -*- coding: utf-8 -*- # Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html import scrapy class JobsItem(scrapy.Item):
# 职位名
zwname = scrapy.Field()
# 公司名字
gsname = scrapy.Field()
# 工作地点
gzdd = scrapy.Field()
# 工资
gz = scrapy.Field()
# 发布时间
fbtime = scrapy.Field()
scrapy 爬取前程无忧的更多相关文章
- python scrapy爬取前程无忧招聘信息
使用scrapy框架之前,使用以下命令下载库: pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple 1.创建项目文件夹 scr ...
- 网络爬虫之scrapy爬取某招聘网手机APP发布信息
1 引言 过段时间要开始找新工作了,爬取一些岗位信息来分析一下吧.目前主流的招聘网站包括前程无忧.智联.BOSS直聘.拉勾等等.有段时间时间没爬取手机APP了,这次写一个爬虫爬取前程无忧手机APP岗位 ...
- Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...
- 【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
- scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...
- scrapy爬取豆瓣电影top250
# -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class ...
- scrapy爬取极客学院全部课程
# -*- coding: utf-8 -*- # scrapy爬取极客学院全部课程 import scrapy from pyquery import PyQuery as pq from jike ...
- scrapy爬取全部知乎用户信息
# -*- coding: utf-8 -*- # scrapy爬取全部知乎用户信息 # 1:是否遵守robbots_txt协议改为False # 2: 加入爬取所需的headers: user-ag ...
- Scrapy爬取Ajax(异步加载)网页实例——简书付费连载
这两天学习了Scrapy爬虫框架的基本使用,练习的例子爬取的都是传统的直接加载完网页的内容,就想试试爬取用Ajax技术加载的网页. 这里以简书里的优选连载网页为例分享一下我的爬取过程. 网址为: ht ...
随机推荐
- scrapy-shell, settings
进入scrapy shell交互终端 scrapy shell url settings配置文件 NUMBER = 1 可以通过 spider对象调用 class SunshineSpider(sc ...
- java8-函数编程
在Function里面看到一个很奇怪的代码 static <T> Function<T, T> identity() { return t -> t; } 手动写了几个代 ...
- 解决jQuery和其他库冲突
<script> console.log($); // //jquery在其他库之前导入,直接使用jQuery()或 // var $replace = jQuery.noConflict ...
- 14Linux_BIND-Linux就该这么学
bind 域名解析 域名→ip地址:正向解析 ip地址→域名:反向解析 主服务器:做管理 从服务器:同步 缓存服务器:转发
- 服务器硬盘--SAS盘和SATA盘
一.SAS和SATA SATA: Serial Advanced Technology Attachment,又叫串口硬盘,是将主机总线适配器连接到硬盘的总线接口. SAS: Serial Attac ...
- Delphi 10.2 新特性之—TFDBatchMoveJSONWriter
RAD Studio 10.2.2 提供从 TDataSet 映射到 JSON ,增加了对JavaScript 客户端支持. RAD Studio 10.2.2 为 FireDAC BatchMove ...
- Delphi全局热键的注册
1.在窗启动时创建ATOM;(aatom:ATOM;定义在private中) then begin aatom:=GlobalAddAtom('ZWXhotKey'); end; ) then beg ...
- NTP时间服务
时间服务 NTP:Network Time Protocol 作用:用来给其他主机提供时间同步服务 NTP的配置文件 /etc/ntp.conf NTP相关的命令 date:显示/修改系统时间 hwc ...
- UVALive 3942 Remember the Word
题意:给出一个由S个不同单词组成的字典和一个长字符串.把这个字符串分解成若干个单词的连接(单词可以重复 使用),有多少种方法? Sample Input abcd 4 a b cd ab Sample ...
- 解题(LeatestCarFee -计算最少过路费)
NowCoder今年买了一辆新车,他决定自己开车回家过年.回家过程中要经过ň个大小收费站,每个收费站的费用不同,你能帮他计算一下最少需要给多少过路费吗? 输入描述: 输入包含多组数据,每组数据第一行包 ...