scrapy爬虫框架爬取招聘网站

目录结构

BossFace.py文件中代码：

# -*- coding: utf-8 -*-
import scrapy
from ..items import BossfaceItem
import json
class BossfaceSpider(scrapy.Spider):
    name = 'BossFace'
    allowed_domains = ['www.zhipin.com/c101010100-p100109/?page=2']
    start_urls = ['https://fe-api.zhaopin.com/c/i/sou?start=90&pageSize=90&cityId=天津&salary=0,0&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=Python&kt=3&=0&at=081a4411244a4e9c80d393212650f005&rt=6cc8df0863c944a88cbc303fa5d7dd40&_v=0.56963230&userCode=1041847897&x-zp-page-request-id=1dba50fde35b475b99fc09aa009dbee1-1568818384291-188677&x-zp-client-id=412ece5e-7595-4148-8838-3b957ac4202a']
    def parse(self, response):

        item = BossfaceItem()
        rs =  json.loads(response.text)['data']
        res = dict(rs)
        lis = res['results']

        for i in range(0,len(lis)):
            item['workName'] = lis[i]['jobName']
            item['workPay'] = lis[i]['salary']
            item['workPosition'] = lis[i]['city']['display']
            item['degree'] = lis[i]['eduLevel']['name']
            item['Company'] = lis[i]['company']['name']
            yield item

items.py中的代码：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class BossfaceItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    workName = scrapy.Field()
    workPay = scrapy.Field()
    workPosition = scrapy.Field()
    degree = scrapy.Field()
    Company = scrapy.Field()
    workDetail = scrapy.Field()
    pass

将这些开启，建立延迟，防止服务器封掉ip

在命令行创建的命令依次是：

1.scrapy startproject bossFace

2.scrapy genspider BossFace www.zhipin.com #进入spider中执行

3.scrapy crawl BossFace #进入第二级别的bossFace中执行

4.scrapy crawl BossFace -o item.json #执行目录与3相同

scrapy爬虫框架爬取招聘网站的更多相关文章

手把手教大家如何用scrapy爬虫框架爬取王者荣耀官网英雄资料
之前被两个关系很好的朋友拉入了王者荣耀的大坑,奈何技术太差,就想着做一个英雄的随查手册,这样就可以边打边查了.菜归菜,至少得说明咱打王者的态度是没得说的,对吧?大神不喜勿喷!!!感谢!!废话不多说,开 ...
初次尝试python爬虫，爬取小说网站的小说。
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...
初识python 之爬虫：爬取某网站的壁纸图片
用到的主要知识点:requests.get 获取网页HTMLetree.HTML 使用lxml解析器解析网页xpath 使用xpath获取网页标签信息.图片地址request.urlretrieve ...
python-scrapy爬虫框架爬取拉勾网招聘信息
本文实例为爬取拉勾网上的python相关的职位信息, 这些信息在职位详情页上, 如职位名, 薪资, 公司名等等. 分析思路分析查询结果页在拉勾网搜索框中搜索'python'关键字, 在浏览器地址栏 ...
Python爬虫学习之使用beautifulsoup爬取招聘网站信息
菜鸟一只,也是在尝试并学习和摸索爬虫相关知识. 1.首先分析要爬取页面结构.可以看到一列搜索的结果,现在需要得到每一个链接,然后才能爬取对应页面. 关键代码思路如下: html = getHtml(& ...
scrapy入门实战-爬取代理网站
入门scrapy. 学习了有这几点 1.如何使用scrapy框架对网站进行爬虫: 2.如何对网页源代码使用xpath进行解析: 3.如何书写spider爬虫文件,对源代码进行解析: 4.学会使用scr ...
Scrapy爬虫笔记 - 爬取知乎
cookie是一种本地存储机制,cookie是存储在本地的 session其实就是将用户信息用户名.密码等)加密成一串字符串,返回给浏览器,以后浏览器每次请求都带着这个sessionId 状态码一般是 ...
【网络爬虫】【python】网络爬虫（五）：scrapy爬虫初探——爬取网页及选择器
在上一篇文章的末尾,我们创建了一个scrapy框架的爬虫项目test,现在来运行下一个简单的爬虫,看看scrapy爬取的过程是怎样的. 一.爬虫类编写(spider.py) from scrapy.s ...
Scrapy爬虫实战-爬取体彩排列5历史数据
网站地址:http://www.17500.cn/p5/all.php 1.新建爬虫项目 scrapy startproject pfive 2.在spiders目录下新建爬虫 scrapy gens ...

随机推荐

暴力三维树状数组求曼哈顿距离求最值——牛客多校第八场D
涉及的知识点挺多,但是大多是套路 1.求曼哈顿距离的最值一般对所有情况进行讨论 2.三维树状数组用来求前缀最大值 /* 有一个三维坐标系(x,y,z),取值范围为[1,n],[1,m],[1,h],有 ...
模拟+算贡献——cf1195D
比赛的时候没看到模数,用java大数在写,最后看到的时候已经慌了.. 把贡献算清楚就可以下面是贡献的推导有五位数 abcde * 10个有两位数 fg * 3 个那么这两种数组成的情况就是 a ...
利用Delphi全面控制Windows任务栏
使用Windows95/NT/98操作系统的用户知道:Windows正常启动后,在电脑屏幕下方出现一块任务栏.从系统功能角度而言,整个任务栏包括几个不同的子区域,从左至右依次是:开始按钮.应用程序 ...
POJ2449-A*算法-第k短路
(有任何问题欢迎留言或私聊 && 欢迎交流讨论哦题意:传送门原题目描述在最下面. 给你一个有向图,求指定节点间的第k短路. 思路: 先反向跑出从终点开始的到每个节点的最短距离 ...
20140319 const sizeof define 编译时分配内存
1.面试宝典预处理,const,sizeof Define作用定义函数: //用一个宏定义FIND求一个结构体struc里某个变量相对于struc的偏移量,如FIND(student,a)//等于0 ...
jq选项卡切换功能
效果图: <!DOCTYPE html> <html lang="en"> <head> <style> *{margin:0;pa ...
将excel表格或csv转换为Shapefile文件
读取csv转为shp 构造读取csv函数 def read_csv(fp): ret = [] with open(fp, 'rb') as f: for line in f: ret.append( ...
python自动化基础（参数化）
一.创建加法类 #定义一个数学加法类 class Mathmethod(): def add(self,a,b): return(a+b) def sub(self,a,b): return(a-b) ...
vue axios简单配置
参考:https://www.cnblogs.com/sophie_wang/p/7844119.html 1. 安装 npm install axios 2. main.js import axio ...
ES相关信息
漫画版原理介绍搜索引擎的核心:倒排索引 elasticsearch 基于Lucene的,封装成一个restful的api,通过api就可进行操作(Lucene是一个apache开放源代码的全文检索引 ...

scrapy爬虫框架爬取招聘网站

scrapy爬虫框架爬取招聘网站的更多相关文章

随机推荐

热门专题