Python爬虫框架Scrapy实例（一）

目标任务：爬取腾讯社招信息，需要爬取的内容为：职位名称，职位的详情链接，职位类别，招聘人数，工作地点，发布时间。

一、创建Scrapy项目

scrapy startproject Tencent

命令执行后，会创建一个Tencent文件夹，结构如下

二、编写item文件，根据需要爬取的内容定义爬取字段

# -*- coding: utf-8 -*-

import scrapy

class TencentItem(scrapy.Item):

    # 职位名

    positionname = scrapy.Field()

    # 详情连接

    positionlink = scrapy.Field()

    # 职位类别

    positionType = scrapy.Field()

    # 招聘人数

    peopleNum = scrapy.Field()

    # 工作地点

    workLocation = scrapy.Field()

    # 发布时间

    publishTime = scrapy.Field()

三、编写spider文件

进入Tencent目录，使用命令创建一个基础爬虫类：

#  tencentPostion为爬虫名，tencent.com为爬虫作用范围

scrapy genspider tencentPostion "tencent.com"

执行命令后会在spiders文件夹中创建一个tencentPostion.py的文件，现在开始对其编写：

# -*- coding: utf-8 -*-

import scrapy

from tencent.items import TencentItem

class TencentpositionSpider(scrapy.Spider):

    """

    功能：爬取腾讯社招信息

    """

    # 爬虫名
    name = "tencentPosition"
    # 爬虫作用范围

    allowed_domains = ["tencent.com"]

    url = "http://hr.tencent.com/position.php?&start="

    offset = 0

    # 起始url

    start_urls = [url + str(offset)]

    def parse(self, response):

        for each in response.xpath("//tr[@class='even'] | //tr[@class='odd']"):

            # 初始化模型对象

            item = TencentItem()

            # 职位名称

            item['positionname'] = each.xpath("./td[1]/a/text()").extract()[0]

            # 详情连接

            item['positionlink'] = each.xpath("./td[1]/a/@href").extract()[0]

            # 职位类别

            item['positionType'] = each.xpath("./td[2]/text()").extract()[0]

            # 招聘人数

            item['peopleNum'] =  each.xpath("./td[3]/text()").extract()[0]

            # 工作地点

            item['workLocation'] = each.xpath("./td[4]/text()").extract()[0]

            # 发布时间

            item['publishTime'] = each.xpath("./td[5]/text()").extract()[0]

            yield item

        if self.offset < 1680:

            self.offset += 10

        # 每次处理完一页的数据之后，重新发送下一页页面请求

        # self.offset自增10，同时拼接为新的url，并调用回调函数self.parse处理Response

        yield scrapy.Request(self.url + str(self.offset), callback = self.parse)

四、编写pipelines文件

# -*- coding: utf-8 -*-

import json

class TencentPipeline(object):
　　""" 
       功能：保存item数据 
   """

    def __init__(self):

        self.filename = open("tencent.json", "w")

    def process_item(self, item, spider):

        text = json.dumps(dict(item), ensure_ascii = False) + ",\n"

        self.filename.write(text.encode("utf-8"))

        return item

    def close_spider(self, spider):

        self.filename.close()

五、settings文件设置（主要设置内容）

# 设置请求头部，添加url

DEFAULT_REQUEST_HEADERS = {

    "User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;",

    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'

}

# 设置item——pipelines

ITEM_PIPELINES = {

    'tencent.pipelines.TencentPipeline': 300,

}

执行命令，运行程序

# tencentPosition为爬虫名

scrapy crwal tencentPosition

使用CrawlSpider类改写

# 创建项目

scrapy startproject TencentSpider

# 进入项目目录下，创建爬虫文件

scrapy genspider -t crawl tencent tencent.com

item等文件写法不变，主要是爬虫文件的编写

# -*- coding:utf-8 -*-

import scrapy

# 导入CrawlSpider类和Rule

from scrapy.spiders import CrawlSpider, Rule

# 导入链接规则匹配类，用来提取符合规则的连接

from scrapy.linkextractors import LinkExtractor

from TencentSpider.items import TencentItem

class TencentSpider(CrawlSpider):

    name = "tencent"

    allow_domains = ["hr.tencent.com"]

    start_urls = ["http://hr.tencent.com/position.php?&start=0#a"]

    # Response里链接的提取规则，返回的符合匹配规则的链接匹配对象的列表

    pagelink = LinkExtractor(allow=("start=\d+"))

    rules = [

        # 获取这个列表里的链接，依次发送请求，并且继续跟进，调用指定回调函数处理

        Rule(pagelink, callback = "parseTencent", follow = True)

    ]

    # 指定的回调函数

    def parseTencent(self, response):

        for each in response.xpath("//tr[@class='even'] | //tr[@class='odd']"):

            item = TencentItem()

            # 职位名称

            item['positionname'] = each.xpath("./td[1]/a/text()").extract()[0]

            # 详情连接

            item['positionlink'] = each.xpath("./td[1]/a/@href").extract()[0]

            # 职位类别

            item['positionType'] = each.xpath("./td[2]/text()").extract()[0]

            # 招聘人数

            item['peopleNum'] =  each.xpath("./td[3]/text()").extract()[0]

            # 工作地点

            item['workLocation'] = each.xpath("./td[4]/text()").extract()[0]

            # 发布时间

            item['publishTime'] = each.xpath("./td[5]/text()").extract()[0]

            yield item

Python爬虫框架Scrapy实例（一）的更多相关文章

Python爬虫框架Scrapy实例（三）数据存储到MongoDB
Python爬虫框架Scrapy实例(三)数据存储到MongoDB任务目标:爬取豆瓣电影top250,将数据存储到MongoDB中. items.py文件复制代码# -*- coding: utf-8 ...
Python爬虫框架Scrapy实例（二）
目标任务:使用Scrapy框架爬取新浪网导航页所有大类.小类.小类里的子链接.以及子链接页面的新闻内容,最后保存到本地. 大类小类如下图所示: 点击国内这个小类,进入页面后效果如下图(部分截图): 查 ...
python爬虫框架scrapy实例详解
生成项目scrapy提供一个工具来生成项目,生成的项目中预置了一些文件,用户需要在这些文件中添加自己的代码.打开命令行,执行:scrapy st... 生成项目 scrapy提供一个工具来生成项目,生 ...
Python爬虫框架Scrapy实例（四）下载中间件设置
还是豆瓣top250爬虫的例子,添加下载中间件,主要是设置动态Uesr-Agent和代理IP Scrapy代理IP.Uesr-Agent的切换都是通过DOWNLOADER_MIDDLEWARES进行控 ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Linux 安装python爬虫框架 scrapy
Linux 安装python爬虫框架 scrapy http://scrapy.org/ Scrapy是python最好用的一个爬虫框架.要求: python2.7.x. 1. Ubuntu14.04 ...
《Python3网络爬虫开发实战》PDF+源代码+《精通Python爬虫框架Scrapy》中英文PDF源代码
下载:https://pan.baidu.com/s/1oejHek3Vmu0ZYvp4w9ZLsw <Python 3网络爬虫开发实战>中文PDF+源代码下载:https://pan. ...
Python爬虫框架Scrapy教程(1)—入门
最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题.时间.正文等).问题是这些网站都很老旧和小众,当然也不可能遵守 Microdata 这类标准.这时候所有网页 ...

随机推荐

zookeeper_process内存泄露问题
单线程模式下,不能递归调用zookeeper_process函数,否则会造成内存泄露. 下列图是在watcher中调用zookeeper_process时,用valgrind检测到的情况:
【Java面试题】57 short s1 = 1; s1 = s1 + 1;有什么错? short s1 = 1; s1 += 1;有什么错?
Java规范有这样的规则 [ 1.高位转低位需要强制转换 2.低位转高位自动转. ] short s1 = 1; s1 = s1 + 1;有什么错? 答: i 是int 型 s1 short型通 ...
使用C#压缩解压rar和zip格式文件
为了便于文件在网络中的传输和保存,通常将文件进行压缩操作,常用的压缩格式有rar.zip和7z,本文将介绍在C#中如何对这几种类型的文件进行压缩和解压,并提供一些在C#中解压缩文件的开源库. 在C#. ...
Shell 启动java程序
#!/bin/sh SHELL_PATH=$(cd ")";pwd) echo $SHELL_PATH cd "$SHELL_PATH" CLASSPATH=. ...
web api post/put空值问题以及和angular的冲突的解决
先看web api自己的问题即便你新建一个项目,也会看到示例的values控制器有两个接受[FromBody]String参数的put和post方法,请求的时候发现不能从request里面得到想要的 ...
C语言----项目构建Make,Automake,CMake
http://blog.csdn.net/dc_726/article/details/48978849
[dubbo] dubbo 基础使用
Dubbo是一个分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,以及SOA服务治理方案.简单的说,dubbo就是个服务框架,如果没有分布式的需求,其实是不需要用的,只有在分布式的时候 ...
Java类的设计----方法的重写、覆盖
方法的重写.覆盖在子类中可以根据需要对从父类中继承来的方法进行改造—覆盖方法(方法的重置.重写),在程序执行时,子类的方法将覆盖父类的方法. 覆盖方法必须和被覆盖方法具有相同的方法名称.参数列表和返 ...
ios开发之--ios11适配：TableView的heightForHeaderInSection设置高度无效/UISearchBar消失
更新到ios11,然后使用x-code9运行项目,发现tableview的-(CGFloat)tableView:(UITableView *)tableView heightForHeaderInS ...
osgEarth2.8加载矢量数据描边效果
通过修改osgearth自带的agglite插件,实现矢量描边效果,可以自定义描边的颜色和宽度(单位像素) 测试文件osgearth_features.cpp #include <osg/Not ...

Python爬虫框架Scrapy实例（一）

Python爬虫框架Scrapy实例（一）的更多相关文章

随机推荐

热门专题