scrapy自动抓取蛋壳公寓最新房源信息并存入sql数据库

利用scrapy抓取蛋壳公寓上的房源信息，以北京市为例，目标url：https://www.dankegongyu.com/room/bj

思路分析

每次更新最新消息，都是在第一页上显示，因此考虑隔一段时间自动抓取第一页上的房源信息，实现抓取最新消息。

利用redis的set数据结构的特征，将每次抓取后的url存到redis中；

每次请求，将请求url与redis中的url对比，若redis中已存在该url，代表没有更新，忽略该次请求；若redis中不存在该url，代表该信息是新信息，抓取并将url存入到redis中。

分析页面源码，发现该网页属于静态网页；首先获取最新页面每条数据的url，请求该url，得到详细页面情况，所有数据均从详情页面获取。

代码实现

明确抓取字段

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class DankeItem(scrapy.Item):

    """

    编辑带爬取信息字段

    """

    # 数据来源

    source = scrapy.Field()

    # 抓取时间

    utc_time = scrapy.Field()

    # 房间名称

    room_name = scrapy.Field()

    # 房间租金

    room_money = scrapy.Field()

    # 房间面积

    room_area = scrapy.Field()

    # 房间编号

    room_numb = scrapy.Field()

    # 房间户型

    room_type = scrapy.Field()

    # 租房方式

    rent_type = scrapy.Field()

    # 房间楼层

    room_floor = scrapy.Field()

    # 所在区域

    room_loca = scrapy.Field()

    # 所在楼盘

    estate_name = scrapy.Field()

编写爬虫逻辑

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from danke.items import DankeItem

class DankeSpider(CrawlSpider):

    # 爬虫名

    name = 'dkgy3'

    # 允许抓取的url

    allowed_domains = ['dankegongyu.com']

    custom_settings = {'DOWNLOAD_DELAY': 0.2}

    # 请求开始的url

    start_urls = ['https://www.dankegongyu.com/room/sz']

    # rules属性

    rules = (

        #编写匹配详情页的规则，抓取到详情页的链接后不用跟进

        Rule(LinkExtractor(allow=r'https://www.dankegongyu.com/room/\d+'), callback='parse_detail', follow=False),

    )

    def parse_detail(self, response):

        """

        解析详情页数据

        :param response:

        :return:

        """

        node_list = response.xpath('//div[@class="room-detail-right"]')

        for node in node_list:

            item = DankeItem()

            # 房间名称

            room_name = node.xpath('./div/h1/text()')

            item['room_name'] = room_name.extract_first()

            # 房间租金

            room_money = node.xpath('./div[@class="room-price"]/div/span').xpath('string(.)').extract_first()

            # 有的房子有首月租金，和普通租金不同，因此匹配方式也不同

            if room_money:

                item['room_money'] = room_money

            else:

                room_money = node.xpath('./div[@class="room-price hot"]/div/div[@class="room-price-num"]/text()').extract_first()

                item['room_money'] = room_money

                print(room_money)

            # 房间面积

            room_area = node.xpath('./*/div[@class="room-detail-box"]/div[1]/label/text()').extract_first().split('：')[-1]

            item['room_area'] = room_area

            # 房间编号

            room_numb = node.xpath('./*/div[@class="room-detail-box"]/div[2]/label/text()').extract_first().split('：')[-1]

            item['room_numb'] = room_numb

            # 房间户型

            room_type = node.xpath('./*/div[@class="room-detail-box"]/div[3]/label/text()').extract_first().split('：')[-1]

            item['room_type'] = room_type

            # 租房方式

            rent_type = node.xpath('./*/div[@class="room-detail-box"]/div[3]/label/b/text()').extract_first().split('：')[

                -1]

            item['rent_type'] = rent_type

            # 所在楼层

            room_floor = node.xpath('./div[@class="room-list-box"]/div[2]/div[2]').xpath('string(.)').extract_first().split('：')[-1]

            item['room_floor'] = room_floor

            # 所在区域

            room_loca = node.xpath('./div[@class="room-list-box"]/div[2]/div[3]/label/div/a[1]/text()').extract_first()

            item['room_loca'] = room_loca

            # 所在楼盘

            estate_name = node.xpath('./div[@class="room-list-box"]/div[2]/div[3]/label/div/a[3]/text()').extract_first()

            item['estate_name'] = estate_name

            yield item

编写下载中间件

下载中间件中实现两个逻辑：添加随机请求头和url存入redis中

# -*- coding: utf-8 -*-

# Define here the models for your spider middleware

#

# See documentation in:

# http://doc.scrapy.org/en/latest/topics/spider-middleware.html

import time

import random

import hashlib

import redis

from scrapy.exceptions import IgnoreRequest

from danke.settings import USER_AGENTS as ua

class DankeSpiderMiddleware(object):

    def process_request(self, request, spider):

        """

        给每一个请求随机分配一个代理

        :param request:

        :param spider:

        :return:

        """

        user_agent = random.choice(ua)

        request.headers['User-Agent'] = user_agent

class DankeRedisMiddleware(object):

    """

    将第一个页面上的每一个url放入redis的set类型中，防止重复爬取

    """

    # 连接redis

    def __init__(self):

        self.redis = redis.StrictRedis(host='39.106.116.21', port=6379, db=3)

    def process_request(self, request, spider):

        # 将来自详情页的链接存到redis中

        if request.url.endswith(".html"):

            # MD5加密详情页链接

            url_md5 = hashlib.md5(request.url.encode()).hexdigest()

            # 添加到redis，添加成功返回True,否则返回False

            result = self.redis.sadd('dk_url', url_md5)

            # 添加失败，说明链接已爬取，忽略该请求

            if not result:

                raise IgnoreRequest

数据存储

# -*- coding: utf-8 -*-

from datetime import datetime

import pymysql

class DankeSourcePipeline(object):

    def process_item(self, item, spider):

        item['source'] = spider.name

        item['utc_time'] = str(datetime.utcnow())

        return item

class DankePipeline(object):

    def __init__(self):

        self.conn = pymysql.connect(

            host='39.106.116.21',

            port=3306,

            database='***',

            user='***',

            password='****',

            charset='utf8'

        )

        # 实例一个游标

        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):

        sql = ("insert into result_latest(标题, 租金, 面积, "

               "编号, 户型, 出租方式, 楼层, "

               "区域, 楼盘, 抓取时间, 数据来源)"

               "values (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)")

        item = dict(item)

        data = [

                item['room_name'],

                item['room_money'],

                item['room_area'],

                item['room_numb'],

                item['room_type'],

                item['rent_type'],

                item['room_floor'],

                item['room_loca'],

                item['estate_name'],

                item['utc_time'],

                item['source'],

                ]

        self.cursor.execute(sql, data)

        # 提交数据

        self.conn.commit()

        return item

    def close_spider(self, spider):

        self.cursor.close()

        self.conn.close()

实现自动爬取

import os

import time

while True:

    """

    每隔20*60*60 自动爬取一次，实现自动更新

    """

    os.system("scrapy crawl dkgy3")

    time.sleep(20*60*60)

# from scrapy import cmdline

# cmdline.execute("scrapy crawl dkgy3".split())

完整代码

参见：https://github.com/zInPython/danke

scrapy自动抓取蛋壳公寓最新房源信息并存入sql数据库的更多相关文章

scrapy实现自动抓取51job并分别保存到redis，mongo和mysql数据库中
项目简介利用scrapy抓取51job上的python招聘信息,关键词为“python”,范围:全国利用redis的set数据类型保存抓取过的url,现实避免重复抓取: 利用脚本实现每隔一段时间, ...
学习笔记CB010:递归神经网络、LSTM、自动抓取字幕
递归神经网络可存储记忆神经网络,LSTM是其中一种,在NLP领域应用效果不错. 递归神经网络(RNN),时间递归神经网络(recurrent neural network),结构递归神经网络(recu ...
【VIP视频网站项目】VIP视频网站项目v1.0.3版本发布啦（程序一键安装+电影后台自动抓取+代码结构调整）
在线体验地址:http://vip.52tech.tech/ GIthub源码:https://github.com/xiugangzhang/vip.github.io 项目预览主页面登录页面 ...
SQL Server定时自动抓取耗时SQL并归档数据发邮件脚本分享
SQL Server定时自动抓取耗时SQL并归档数据发邮件脚本分享第一步建库和建表 USE [master] GO CREATE DATABASE [MonitorElapsedHighSQL] G ...
IIS崩溃时自动抓取Dump
背景:在客户现场,IIS有时会崩溃,开发环境没法重现这个bug,唯有抓取IIS的崩溃是的Dump文件分析. IIS崩溃时自动抓取Dump,需要满足下面几个条件 1.启动 Windows Error R ...
自动抓取java堆栈
参数1 进程名字,参数2 最大线程数例: pid为8888,达到1000个线程时自动抓取堆栈信息 ./autojstack.sh 8888 1000 & #!/bin/bashfileNam ...
SQL Server定时自动抓取耗时SQL并归档数据脚本分享
原文:SQL Server定时自动抓取耗时SQL并归档数据脚本分享 SQL Server定时自动抓取耗时SQL并归档数据脚本分享第一步建库 USE [master] GO CREATE DATABA ...
APP自动化框架LazyAndroid使用手册（2）--元素自动抓取
作者:黄书力概述前面的一篇博文简要介绍了安卓自动化测试框架LazyAndroid的组成结构和基本功能,本文将详细描述此框架中元素自动抓取工具lazy-uiautomaterviewer的使用方法. ...
巧用Grafana和Arthas自动抓取K8S中异常Java进程的线程堆栈
前言近期发现业务高峰期时刻会出现CPU繁忙导致的timeout异常,通过监控来看是因为Node上面的一些Pod突发抢占了大量CPU导致的. 问: 没有限制CPU吗?是不是限制的CPU使用值就可以解决 ...

随机推荐

Redis（四）Jedis客户端
一.客户端通信协议二.Java客户端Jedis 1.获取Jedis Jedis属于Java的第三方开发包,在Java中获取第三方开发包通常有两种方式: 直接下载目标版本的Jedis-${versio ...
Spring Boot2 系列教程(十九)Spring Boot 整合 JdbcTemplate
在 Java 领域,数据持久化有几个常见的方案,有 Spring 自带的 JdbcTemplate .有 MyBatis,还有 JPA,在这些方案中,最简单的就是 Spring 自带的 JdbcTem ...
Java中的substring()用法
String str = "Hello Java World!"; Method1: substring(int beginIndex) 返回从起始位置(beginIndex)至 ...
[springboot 开发单体web shop] 1. 前言介绍和环境搭建
前言介绍和环境搭建简述 springboot 本身是为了做服务化用的,我们为什么要反其道使用它来开发一份单体web应用呢? 在我们现实的开发工作中,还有大量的业务系统使用的是单体应用,特别是对于中小 ...
在线预览office文件
Office Online 实现在线预览 office的在线预览,针对不同的浏览器版本和系统具有要求,具体的相关文档请参考官方文档. 利用office online 平台进行office 文档的在线查 ...
EXCEL批量导入到Sqlserver数据库并进行两表间数据的批量修改
Excel 大量数据导入到sqlserver生成临时表并将临时表某字段的数据批量更新的原表中的某个字段 1:首先要对EXCEL进行处理列名改成英文,不要有多余的列和行(通过ctrl+shift 左或 ...
mysql中的锁机制之悲观锁和乐观锁
1.悲观锁? 悲观锁顾名思义就是很悲观,悲观锁认为数据随时就有可能会被外界进行修改,所以悲观锁一上来就会把数据给加上锁.悲观锁一般都是依靠关系型数据库提供的锁机制,然而事实上关系型数据库中的行锁,表锁 ...
[考试反思]阶段性总结：NOIP模拟测试7～13
苟且Rank#1.第二次分机房结束. 得到了喘息一会的权利. 在最后两场考试中大脸skyh慷慨舍弃264分让出Rank#1的故事也十分感人然而还是有很多东西值得思考. 虽说是反思,但是还是有一些地方 ...
NOIP模拟 11
差点迟到没赶上开题开题后看了T1,好像一道原题,没分析复杂度直接敲了个NC线段树,敲了个暴力,敲了个对拍,就1h了.. 对拍还对出错了,发现标记下传有点问题,改了以后对拍通过,就把T1扔掉看T2 觉 ...
RPA - UiPath简明教程 ║ .NET的又一领域
RPA概念 RPA全称为:Robotic Process Automation,即机器人流程自动化. Robotic:这里的机器人是一个虚拟的概念,并不是需要一个实体的机器人,它只是流程的执行体,或者 ...