Python爬虫框架Scrapy实例（一）

目标任务：爬取腾讯社招信息，需要爬取的内容为：职位名称，职位的详情链接，职位类别，招聘人数，工作地点，发布时间。

一、创建Scrapy项目

scrapy startproject Tencent

命令执行后，会创建一个Tencent文件夹，结构如下

二、编写item文件，根据需要爬取的内容定义爬取字段

# -*- coding: utf-8 -*-

import scrapy

class TencentItem(scrapy.Item):

    # 职位名

    positionname = scrapy.Field()

    # 详情连接

    positionlink = scrapy.Field()

    # 职位类别

    positionType = scrapy.Field()

    # 招聘人数

    peopleNum = scrapy.Field()

    # 工作地点

    workLocation = scrapy.Field()

    # 发布时间

    publishTime = scrapy.Field()

三、编写spider文件

进入Tencent目录，使用命令创建一个基础爬虫类：

#  tencentPostion为爬虫名，tencent.com为爬虫作用范围

scrapy genspider tencentPostion "tencent.com"

执行命令后会在spiders文件夹中创建一个tencentPostion.py的文件，现在开始对其编写：

# -*- coding: utf-8 -*-

import scrapy

from tencent.items import TencentItem

class TencentpositionSpider(scrapy.Spider):

    """

    功能：爬取腾讯社招信息

    """

    # 爬虫名
    name = "tencentPosition"
    # 爬虫作用范围

    allowed_domains = ["tencent.com"]

    url = "http://hr.tencent.com/position.php?&start="

    offset = 0

    # 起始url

    start_urls = [url + str(offset)]

    def parse(self, response):

        for each in response.xpath("//tr[@class='even'] | //tr[@class='odd']"):

            # 初始化模型对象

            item = TencentItem()

            # 职位名称

            item['positionname'] = each.xpath("./td[1]/a/text()").extract()[0]

            # 详情连接

            item['positionlink'] = each.xpath("./td[1]/a/@href").extract()[0]

            # 职位类别

            item['positionType'] = each.xpath("./td[2]/text()").extract()[0]

            # 招聘人数

            item['peopleNum'] =  each.xpath("./td[3]/text()").extract()[0]

            # 工作地点

            item['workLocation'] = each.xpath("./td[4]/text()").extract()[0]

            # 发布时间

            item['publishTime'] = each.xpath("./td[5]/text()").extract()[0]

            yield item

        if self.offset < 1680:

            self.offset += 10

        # 每次处理完一页的数据之后，重新发送下一页页面请求

        # self.offset自增10，同时拼接为新的url，并调用回调函数self.parse处理Response

        yield scrapy.Request(self.url + str(self.offset), callback = self.parse)

四、编写pipelines文件

# -*- coding: utf-8 -*-

import json

class TencentPipeline(object):
　　""" 
       功能：保存item数据 
   """

    def __init__(self):

        self.filename = open("tencent.json", "w")

    def process_item(self, item, spider):

        text = json.dumps(dict(item), ensure_ascii = False) + ",\n"

        self.filename.write(text.encode("utf-8"))

        return item

    def close_spider(self, spider):

        self.filename.close()

五、settings文件设置（主要设置内容）

# 设置请求头部，添加url

DEFAULT_REQUEST_HEADERS = {

    "User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;",

    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'

}

# 设置item——pipelines

ITEM_PIPELINES = {

    'tencent.pipelines.TencentPipeline': 300,

}

执行命令，运行程序

# tencentPosition为爬虫名

scrapy crwal tencentPosition

使用CrawlSpider类改写

# 创建项目

scrapy startproject TencentSpider

# 进入项目目录下，创建爬虫文件

scrapy genspider -t crawl tencent tencent.com

item等文件写法不变，主要是爬虫文件的编写

# -*- coding:utf-8 -*-

import scrapy

# 导入CrawlSpider类和Rule

from scrapy.spiders import CrawlSpider, Rule

# 导入链接规则匹配类，用来提取符合规则的连接

from scrapy.linkextractors import LinkExtractor

from TencentSpider.items import TencentItem

class TencentSpider(CrawlSpider):

    name = "tencent"

    allow_domains = ["hr.tencent.com"]

    start_urls = ["http://hr.tencent.com/position.php?&start=0#a"]

    # Response里链接的提取规则，返回的符合匹配规则的链接匹配对象的列表

    pagelink = LinkExtractor(allow=("start=\d+"))

    rules = [

        # 获取这个列表里的链接，依次发送请求，并且继续跟进，调用指定回调函数处理

        Rule(pagelink, callback = "parseTencent", follow = True)

    ]

    # 指定的回调函数

    def parseTencent(self, response):

        for each in response.xpath("//tr[@class='even'] | //tr[@class='odd']"):

            item = TencentItem()

            # 职位名称

            item['positionname'] = each.xpath("./td[1]/a/text()").extract()[0]

            # 详情连接

            item['positionlink'] = each.xpath("./td[1]/a/@href").extract()[0]

            # 职位类别

            item['positionType'] = each.xpath("./td[2]/text()").extract()[0]

            # 招聘人数

            item['peopleNum'] =  each.xpath("./td[3]/text()").extract()[0]

            # 工作地点

            item['workLocation'] = each.xpath("./td[4]/text()").extract()[0]

            # 发布时间

            item['publishTime'] = each.xpath("./td[5]/text()").extract()[0]

            yield item

Python爬虫框架Scrapy实例（一）的更多相关文章

Python爬虫框架Scrapy实例（三）数据存储到MongoDB
Python爬虫框架Scrapy实例(三)数据存储到MongoDB任务目标:爬取豆瓣电影top250,将数据存储到MongoDB中. items.py文件复制代码# -*- coding: utf-8 ...
Python爬虫框架Scrapy实例（二）
目标任务:使用Scrapy框架爬取新浪网导航页所有大类.小类.小类里的子链接.以及子链接页面的新闻内容,最后保存到本地. 大类小类如下图所示: 点击国内这个小类,进入页面后效果如下图(部分截图): 查 ...
python爬虫框架scrapy实例详解
生成项目scrapy提供一个工具来生成项目,生成的项目中预置了一些文件,用户需要在这些文件中添加自己的代码.打开命令行,执行:scrapy st... 生成项目 scrapy提供一个工具来生成项目,生 ...
Python爬虫框架Scrapy实例（四）下载中间件设置
还是豆瓣top250爬虫的例子,添加下载中间件,主要是设置动态Uesr-Agent和代理IP Scrapy代理IP.Uesr-Agent的切换都是通过DOWNLOADER_MIDDLEWARES进行控 ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Linux 安装python爬虫框架 scrapy
Linux 安装python爬虫框架 scrapy http://scrapy.org/ Scrapy是python最好用的一个爬虫框架.要求: python2.7.x. 1. Ubuntu14.04 ...
《Python3网络爬虫开发实战》PDF+源代码+《精通Python爬虫框架Scrapy》中英文PDF源代码
下载:https://pan.baidu.com/s/1oejHek3Vmu0ZYvp4w9ZLsw <Python 3网络爬虫开发实战>中文PDF+源代码下载:https://pan. ...
Python爬虫框架Scrapy教程(1)—入门
最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题.时间.正文等).问题是这些网站都很老旧和小众,当然也不可能遵守 Microdata 这类标准.这时候所有网页 ...

随机推荐

Sublime Text 3安装清爽主题（著名的Soda Theme）
Sublime Text是一款强大的编辑器,不但拥有众多强大的功能,还拥有很多漂亮的主题以及大量的插件可供配置使用. 本文主要描述Sublime Text 3安装清爽的主题,默认的深色主题Monoka ...
7 天玩转 ASP.NET MVC — 第 2 天
0. 前言我相信在開始第 2 天的学习时,你已经顺利地完毕了第 1 天的课程. 我们回想一下第 1 天的主要关注点: 为什么选择 ASP.NET MVC ? ASP.NET Webforms 和 A ...
jquery获取当前select下拉选的属性值
body中: <li> <select id="select_phone"></select> <input type="but ...
org.xml.sax.SAXParseException: prolog 中不允许有内容
org.xml.sax.SAXParseException: prolog 中不允许有内容 digester.fatalError 不下心踢了电源导致的错误应该是解析xml出问题,找了半天不知道哪个x ...
分享jQuery封装好的一些常用操作
1. 禁止右键点击 $(document).ready(function(){ $(document).bind("contextmenu",function(e){ ...
Unity对象查找
1. GameObject.Find 全局摄像机全局画布全局灯光无法查找隐藏对象 ,效率低下,要用完全的路径来提升查找效率 2. transform.Find UI中全部使用此方法可以查找 ...
如何查看nginx的版本及配置选项?nginx都配置了哪些的模块?
需求描述: 新接手别人的nginx,想要查看当前都配置了哪些模块操作过程: 1.通过nginx -V选项查看nginx的配置选项 [root@hadoop3 sbin]# ./nginx -V ng ...
ubuntu 执行make menuconfig ARCH=arm
1.ubuntu 执行make menuconfig ARCH=arm出错了!! *** Unable to find the ncurses libraries or the *** require ...
Linux 内核中 likely 与 unlikely 的宏定义解析
在 2.6 内核中,随处能够见到 likely() 和 unlikely() 的身影,那么为什么要用它们?它们之间有什么差别? 首先要明白: if(likely(value)) 等价于 if(valu ...
2.1 C语言下的位运算
位运算符: 注:运算量仅仅能为整型和字符型数据,不能是实数型的数据. 当进行&运算时:0&1=0.1&0=0:1&1=1:0&0=0: 当进行|运算时:0|1= ...

Python爬虫框架Scrapy实例（一）

Python爬虫框架Scrapy实例（一）的更多相关文章

随机推荐

热门专题