潭州课堂25班：Ph201805201 爬虫高级第三课 sclapy 框架腾讯招聘案例 (课堂笔记）

到指定目录下，创建个项目

进到 spiders 目录创建执行文件，并命名

运行调试

执行代码，：

# -*- coding: utf-8 -*-

import scrapy

from ..items import TenXunItem

class TenxunSpider(scrapy.Spider):

    name = 'tenxun'

    # allowed_domains = ['tenxun.com']  # 域名范围

    start_urls = ['https://hr.tencent.com/position.php?lid=&tid=87&keywords']

    burl = 'https://hr.tencent.com/'

    def parse(self, response):

        tr_list = response.xpath('//table[@class="tablelist"]/tr')

        for tr in tr_list[1:-1]:

            item = TenXunItem()

            item['position_name']=tr.xpath('./td[1]/a/text()').extract()[0]

            item['position_link']=self.burl+tr.xpath('./td[1]/a/@href').extract()[0]

            item['position_type']=tr.xpath('./td[2]/text()').extract()[0]

            item['position_num']=tr.xpath('./td[3]/text()').extract()[0]

            item['position_addr']=tr.xpath('./td[4]/text()').extract()[0]

            item['position_time']=tr.xpath('./td[5]/text()').extract()[0]

            # yield item

        # 匹配下一页

        next_url =self.burl + response.xpath('//div[@class="pagenav"]/a[11]/@href').extract()[0]

        yield scrapy.Request(url=next_url, callback=self.parse)

            # 要获取内容，则要发起个新的请求，                      回调函数                回调时传参

            yield scrapy.Request(url = item['position_link'],callback=self.detail_tent,meta={'items': item})

    def detail_tent(self,response):

        # 得到上面传过来的参数

        item = response.meta.get('items')

        item['position_con'] = ''.join(response.xpath('//ul[@class="squareli"]//text()').extract())

        yield item

        # # 名字

        # position_name_list = response.xpath('//td[@class="l square"]/a/text()').extract()

        # # 链接

        # position_link_list = response.xpath('//td[@class="l square"]/a/@href').extract()

        # # 类型

        # position_type_list = response.xpath('//table[@class="tablelist"]/tr/td[2]/text()').extract()

        # # 人数

        # position_num_list = response.xpath('//table[@class="tablelist"]/tr/td[3]/text()').extract()

        # print('====================')

        # print('====================')

        # print(self.burl + tr_list[2].xpath('./td[1]/a/@href').extract()[0])

        # print('====================')

        # print('====================')

pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import json

class TenXunPipeline(object):

    def open_spider(self,spider):

        self.f = open('tenxun.json', 'w', encoding='utf8')

    def process_item(self, item, spider):

        conn = json.dumps(dict(item), ensure_ascii=False)+'\n'

        self.f.write(conn)

        return item

    def close_spider(self,spider):

        self.f.close()

items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class TenXunItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    # 名字

    print('00000000000000001111111111111111')

    position_name = scrapy.Field()

    # 链接

    position_link = scrapy.Field()

    # 类型

    position_type = scrapy.Field()

    # 人数

    position_num = scrapy.Field()

    # 地点

    position_addr = scrapy.Field()

    # 发布时间

    position_time = scrapy.Field()

    # 要求

    position_con = scrapy.Field()

存入数据库：

潭州课堂25班：Ph201805201 爬虫高级第三课 sclapy 框架腾讯招聘案例 (课堂笔记）的更多相关文章

潭州课堂25班：Ph201805201 爬虫高级第七课 sclapy 框架爬前程网 (课堂笔)
定时对该网页数据采集,所以每次只爬第一个页面就可以, 创建工程 scrapy startproject qianchen 创建运行文件 cd qianchenscrapy genspider qian ...
潭州课堂25班：Ph201805201 爬虫高级第六课 sclapy 框架中间建与selenium对接 (课堂笔记）
因为每次请求得到的响应不一定是正常的, 也可以在中间建中与个类的方法,自动更换头自信,代理Ip, 在设置文件中添加头信息列表, 在中间建中导入刚刚的列表,和随机函数 class UserAgent ...
潭州课堂25班：Ph201805201 爬虫高级第五课 sclapy 框架日志和 settings 配置模拟登录(课堂笔记）
当要对一个页面进行多次请求时, 设 dont_filter = True 忽略去重在 scrapy 框架中模拟登录创建项目创建运行文件设请求头 # -*- coding: utf-8 ...
潭州课堂25班：Ph201805201 爬虫高级第四课 sclapy 框架 crawispider类 (课堂笔记）
以上内容以 spider 类获取 start_urls 里面的网页在这里平时只写一个,是个入口,之后通过 xpath 生成 url,继续请求, crawispider 中多了个 rules ...
潭州课堂25班：Ph201805201 爬虫高级第十三课代理池爬虫检测部分 (课堂笔记)
1,通过爬虫获取代理 ip ,要从多个网站获取,每个网站的前几页2,获取到代理后,开进程,一个继续解析,一个检测代理是否有用 ,引入队列数据共享3,Queue 中存放的是所有的代理,我们要分离出可用的 ...
潭州课堂25班：Ph201805201 爬虫高级第十一课 Scrapy-redis分布项目实战 (课堂笔
潭州课堂25班：Ph201805201 爬虫高级第十课 Scrapy-redis分布 (课堂笔记)
利用 redis 数据库,做 request 队列,去重,多台数据共享, scrapy 调度基于文件每户,默认只能在单机运行, scrapy-redis 默认把数据放到 redis 中,实现数据共享 ...
潭州课堂25班：Ph201805201 爬虫高级第八课 AP抓包 SCRAPY 的图片处理 (课堂笔记)
装好模拟器设置代理到 Fiddler 中, 代理 IP 是本机 IP, 端口是 8888, 抓包 APP斗鱼用 format 设置翻页
潭州课堂25班：Ph201805201 爬虫基础第三课 urllib (课堂笔记)
Python网络请求urllib和urllib3详解 urllib是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了url ...

随机推荐

oracle查询重复数据方法
SQL重复记录查询方法 2008年08月14日星期四 21:01 SQL重复记录查询 1.查找表中多余的重复记录,重复记录是根据单个字段(peopleId)来判断select * from peop ...
Jenkins中配置selenium测试
Jenkins中配置selenium测试 2015/03/23 第一步在jenkins中配置selenium服务器第二步工程配置: 第三步:执行构建: 第四步,查看报告:
mybatis二级缓存应用及与ehcache整合
mybaits的二级缓存是mapper范围级别,除了在SqlMapConfig.xml设置二级缓存的总开关,还要在具体的mapper.xml中开启二级缓存. 1.开启mybatis的二级缓存在核心配 ...
zabbix系列(七)zabbix3.0添加对tcp连接数及状态的监控
原理: netstat -an|awk '/^tcp/{++S[$NF]}END{for(a in S) print a,S[a]}' TIME_WAIT 79 ESTABLISHED 6 LISTE ...
kerberos介绍
重要术语 1. KDC 全称:key distributed center 作用:整个安全认证过程的票据生成管理服务,其中包含两个服务,AS和TGS 2. AS 全称:authentication s ...
ajax返回json对象的两种写法
1. 前言 dataType: 要求为String类型的参数,预期服务器返回的数据类型.如果不指定,JQuery将自动根据http包mime信息返回responseXML或responseText,并 ...
怎么在Eclipse上运行静态网页
1. 前言习惯用Eclipse开发动态网站,现在有一个静态网页(只有Html,Js,CSS代码,无后台Java代码)想跑一下,自己通过网上查询然后自己也研究捣鼓了一下,发现有三种方式可以发布静态网页 ...
android-----带你一步一步优化ListView(一)
ListView作为android中最常使用的控件,可以以条目的形式显示大量的数据,经常被用于显示最近联系人列表,对于每一个 Item,均要求adapter的getView方法返回一个View,因此L ...
性能测试四十：Mysql存储过程造数据
性能测试是基于大量数据的,而进行性能测试之前肯定没那么多数据,所以就要自己准备数据数据构造方法: 1.业务接口 -- 适合数据表关系复杂 -- 优点:数据完整性比较好2.存储过程 -- 适合表数量少 ...
java List.subList方法中的超级大陷阱
ArrayList 中 subList 的基本用法: subList(fromIndex:int,toIndex:int):List<E> 返回从fromIndex到toindex-1 的 ...

潭州课堂25班：Ph201805201 爬虫高级 第三课 sclapy 框架 腾讯 招聘案例 (课堂笔记）

潭州课堂25班：Ph201805201 爬虫高级 第三课 sclapy 框架 腾讯 招聘案例 (课堂笔记）的更多相关文章

随机推荐

热门专题

潭州课堂25班：Ph201805201 爬虫高级第三课 sclapy 框架腾讯招聘案例 (课堂笔记）

潭州课堂25班：Ph201805201 爬虫高级第三课 sclapy 框架腾讯招聘案例 (课堂笔记）的更多相关文章