爬取前程无忧网站上python的招聘信息。

本文获取的字段有为职位名称，公司名称，公司地点，薪资，发布时间

创建爬虫项目

scrapy startproject qianchengwuyou

cd qianchengwuyou

scrapy genspider -t crawl qcwy www.xxx.com

items中定义爬取的字段

import scrapy

class QianchengwuyouItem(scrapy.Item):

    # define the fields for your item here like:

    job_title = scrapy.Field()

    company_name = scrapy.Field()

    company_address = scrapy.Field()

    salary = scrapy.Field()

    release_time = scrapy.Field()

qcwy.py文件内写主程序

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from qianchengwuyou.items import QianchengwuyouItem

class QcwySpider(CrawlSpider):

    name = 'qcwy'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html?']

    # https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,7.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=

    rules = (

        Rule(LinkExtractor(allow=r'https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,(\d+).html?'), callback='parse_item', follow=True),

    )

    def parse_item(self, response):

        list_job = response.xpath('//div[@id="resultList"]/div[@class="el"][position()>1]')

        for job in list_job:

            item = QianchengwuyouItem()

            item['job_title'] = job.xpath('./p/span/a/@title').extract_first()

            item['company_name'] = job.xpath('./span[1]/a/@title').extract_first()

            item['company_address'] = job.xpath('./span[2]/text()').extract_first()

            item['salary'] = job.xpath('./span[3]/text()').extract_first()

            item['release_time'] = job.xpath('./span[4]/text()').extract_first()

            yield item

pipelines.py文件中写下载规则

import pymysql

class QianchengwuyouPipeline(object):

    conn = None

    mycursor = None

    def open_spider(self, spider):

        print('链接数据库...')

        self.conn = pymysql.connect(host='172.16.25.4', user='root', password='root', db='scrapy')

        self.mycursor = self.conn.cursor()

    def process_item(self, item, spider):

        print('正在写数据库...')

        job_title = item['job_title']

        company_name = item['company_name']

        company_address = item['company_address']

        salary = item['salary']

        release_time = item['release_time']

        sql = 'insert into qcwy VALUES (null,"%s","%s","%s","%s","%s")' % (

            job_title, company_name, company_address, salary, release_time)

        bool = self.mycursor.execute(sql)

        self.conn.commit()

        return item

    def close_spider(self, spider):

        print('写入数据库完成...')

        self.mycursor.close()

        self.conn.close()

settings.py文件中打开下载管道和请求头

ITEM_PIPELINES = {

   'qianchengwuyou.pipelines.QianchengwuyouPipeline': 300,

}

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2'

运行爬虫，同时写入.json文件

scrapy crawl qcwy -o qcwy.json --nolog

查看数据库是否写入成功，

done.

爬取前程无忧网站上python的招聘信息。的更多相关文章

Python爬取前程无忧网站上python的招聘信息
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 我姓刘却留不住你的心 PS:如有需要Python学习资料的小伙伴可以 ...
python 爬虫之爬取大街网（思路）
由于需要,本人需要对大街网招聘信息进行分析,故写了个爬虫进行爬取.这里我将记录一下,本人爬取大街网的思路. 附:爬取得数据仅供自己分析所用,并未用作其它用途. 附:本篇适合有一定爬虫基础 crawl ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
python爬虫06 | 你的第一个爬虫，爬取当当网 Top 500 本五星好评书籍
来啦,老弟我们已经知道怎么使用 Requests 进行各种请求骚操作也知道了对服务器返回的数据如何使用正则表达式来过滤我们想要的内容 ... 那么接下来我们就使用 requests 和 re ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
使用python爬取东方财富网机构调研数据
最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...
[转]使用python爬取东方财富网机构调研数据
最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...
Python爬虫项目--爬取自如网房源信息
本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储正文 1.分析目标站点 1. url: http:/ ...

随机推荐

安装-supervisor
centos 7.xx 1.#yum install python-setuptools 2.#easy_install supervisor 3.# vim /etc/supervisord.con ...
Solr7.x学习（5）-基本操作
1.删除所有数据在Documents中执行操作.Document Type选择XML:Document(s)输入:<delete><query>*:*</query&g ...
JDBC链接数据库MySQL 8.0 Public Key Retrieval is not allowed 错误的解决方法
现象 Mybatis和Spring框架整合过程中报 com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException: Publ ...
Mysql 表分区分类
针对Mysql数据库,表分区类型简析. [1]表分区类型 (1)Range分区:按范围分区.按列值的范围区间进行分区存储:比如:id小于10存储在一个分区:id大于10小于20存储在另外一个分区: ( ...
kafka Authentication using SASL/Kerberos
Authentication using SASL/Kerberos Prerequisites KerberosIf your organization is already using a Ker ...
JQuery EasyUI Tree组件的Bug记录
记录一下使用项目中使用EasyUI遇到的bug,废话少说直接上菜 - _-(bug)..... bug :: .netcore创建一个web应用时候,会自动引入jQuery库以及一些插件,但是在 ...
实验代码：const* 和 const&
C# EventHandler观察者模式
C#和java比较: java中使用的是接口.C#使用委托机制,可以用时 + 运算符进行注册,直接多播. 而java中是一般是使用一个集合来保存观察者. 发布者(Publisher)= 被观察者 (O ...
配置kubectl在Mac(本地)远程连接Kubernetes集群
集群部署在云服务器的ECS上,但是有时需要本地原创连接集群,这就需要通过ApiServer的外网地址去访问集群,但是-/.kube/config下的地址又都是内网,所以可以使用如下方式解决: Mac安 ...
bytearray与矩阵转换对应关系
import numpy as npimport osa=bytearray(os.urandom(27))# for i in range(21):# print(a[i])a=np.array(a ...

爬取前程无忧网站上python的招聘信息。

爬取前程无忧网站上python的招聘信息。的更多相关文章

随机推荐

热门专题