本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途)

环境

win8, python 3.7, pycharm

正文

1. 目标网站分析

通过分析, 找出相关url, 确定请求方式, 是否存在js加密等.

2. 新建scrapy项目

1. 在cmd命令行窗口中输入以下命令, 创建lianjia项目

scrapy startproject lianjia

2. 在cmd中进入lianjia文件中, 创建Spider文件

cd lianjia

scrapy genspider -t crawl xinfang lianjia.com

这次创建的是CrawlSpider类, 该类适用于批量爬取网页

3. 新建main.py文件, 用于执行scrapy项目文件

到现在, 项目就创建完成了, 下面开始编写项目

3 定义字段

在items.py文件中定义需要的爬取的字段信息

import scrapy

from scrapy.item import Item, Field

class LianjiaItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    city = Field()          #城市名

    name = Field()          #楼盘名

    type = Field()          #物业类型

    status = Field()        #状态

    region = Field()        #所属区域

    street = Field()        #街道

    address = Field()       #具体地址

    area = Field()          #面积

    average_price = Field() #平均价格

    total_price = Field()   #总价

    tags = Field()          #标签

4 爬虫主程序

在xinfang.py文件中编写我们的爬虫主程序

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from lianjia.items import LianjiaItem

class XinfangSpider(CrawlSpider):

    name = 'xinfang'

    allowed_domains = ['lianjia.com']

    start_urls = ['https://bj.fang.lianjia.com/']

    #定义爬取的规则, LinkExtractor是用来提取链接(其中,allow指允许的链接格式, restrict_xpaths指链接处于网页结构中的位置), follow为True表示跟进提取出的链接, callback则是调用函数

    rules = (

        Rule(LinkExtractor(allow=r'\.fang.*com/$', restrict_xpaths='//div[@class="footer"]//div[@class="link-list"]/div[2]/dd'), follow=True),

        Rule(LinkExtractor(allow=r'.*loupan/$', restrict_xpaths='//div[@class="xinfang-all"]/div/a'),callback= 'parse_item', follow=True)

    )

    def parse_item(self, response):

        '''请求每页的url''''

        counts = response.xpath('//div[@class="page-box"]/@data-total-count').extract_first()

        pages = int(counts) // 10 + 2

        #由于页数最多为100, 加条件判断

        if pages > 100:

            pages = 101

        for page in range(1, pages):

            url = response.url + "pg" + str(page)

            yield scrapy.Request(url, callback=self.parse_detail, dont_filter=False)

    def parse_detail(self, response):

        '''解析网页内容'''

        item = LianjiaItem()

        item["title"] = response.xpath('//div[@class="resblock-have-find"]/span[3]/text()').extract_first()[1:]

        infos = response.xpath('//ul[@class="resblock-list-wrapper"]/li')

        for info in infos:

            item["city"] = info.xpath('div/div[1]/a/text()').extract_first()

            item["type"] = info.xpath('div/div[1]/span[1]/text()').extract_first()

            item["status"] = info.xpath('div/div[1]/span[2]/text()').extract_first()

            item["region"] = info.xpath('div/div[2]/span[1]/text()').extract_first()

            item["street"] = info.xpath('div/div[2]/span[2]/text()').extract_first()

            item["address"] = info.xpath('div/div[2]/a/text()').extract_first().replace(",", "")

            item["area"] = info.xpath('div/div[@class="resblock-area"]/span/text()').extract_first()

            item["average_price"] = "".join(info.xpath('div//div[@class="main-price"]//text()').extract()).replace(" ", "")

            item["total_price"] = info.xpath('div//div[@class="second"]/text()').extract_first()

            item["tags"] = ";".join(info.xpath('div//div[@class="resblock-tag"]//text()').extract()).replace(" ","").replace("\n", "")

            yield item

5 保存到Mysql数据库

在pipelines.py文件中编辑如下代码

import pymysql

class LianjiaPipeline(object):

    def __init__(self):

        #创建数据库连接对象

        self.db = pymysql.connect(

            host = "localhost",

            user = "root",

            password = "",

            port = 3306,

            db = "lianjia",

            charset = "utf8"

        )

        self.cursor = self.db.cursor()

    def process_item(self, item, spider):

        #存储到数据库中

        sql = "INSERT INTO xinfang(city, name, type, status, region, street, address, area, average_price, total_price, tags) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)"

        data = (item["city"], item["name"], item["type"], item["status"], item["region"], item["street"], item["address"], item["area"], item["average_price"], item["total_price"], item["tags"])

        try:

            self.cursor.execute(sql, data)

            self.db.commit()

        except:

            self.db.rollback()

        finally:

            return item

6 反反爬措施

由于是批量性爬取, 有必要采取些反反爬措施, 我这里采用的是免费的IP代理. 在middlewares.py中编辑如下代码:

from scrapy import signals

import logging

import requests

class ProxyMiddleware(object):

    def __init__(self, proxy):

        self.logger = logging.getLogger(__name__)

        self.proxy = proxy

    @classmethod

    def from_crawler(cls, crawler):

        '''获取随机代理的api接口'''

        settings = crawler.settings

        return cls(

            proxy=settings.get('RANDOM_PROXY')

        )

    def get_random_proxy(self):

　　　　 '''获取随机代理'''

        try:

            response = requests.get(self.proxy)

            if response.status_code == 200:

                proxy = response.text

                return proxy

        except:

            return False

    def process_request(self, request, spider):

　　　　 '''使用随机生成的代理请求'''

        proxy = self.get_random_proxy()

        if proxy:

            url = 'http://' + str(proxy)

            self.logger.debug('本次使用代理'+ proxy)

            request.meta['proxy'] = url

7 配置settings文件

import random

RANDOM_PROXY = "http://localhost:6686/random"

BOT_NAME = 'lianjia'

SPIDER_MODULES = ['lianjia.spiders']

NEWSPIDER_MODULE = 'lianjia.spiders'

ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY = random.random()*2

COOKIES_ENABLED = False

DEFAULT_REQUEST_HEADERS = {

  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

  'Accept-Language': 'en',

}

DOWNLOADER_MIDDLEWARES = {

   'lianjia.middlewares.ProxyMiddleware': 543

}

ITEM_PIPELINES = {

   'lianjia.pipelines.LianjiaPipeline': 300,

}

8 执行项目文件

在mian.py中执行如下命令

from scrapy import cmdline

cmdline.execute('scrapy crawl xinfang'.split())

scrapy项目即可开始执行, 最后爬取到1万4千多条数据.

Python爬虫项目--爬取链家热门城市新房的更多相关文章

python爬虫：爬取链家深圳全部二手房的详细信息
1.问题描述: 爬取链家深圳全部二手房的详细信息,并将爬取的数据存储到CSV文件中 2.思路分析: (1)目标网址:https://sz.lianjia.com/ershoufang/ (2)代码结构 ...
python爬虫项目-爬取雪球网金融数据（关注、持续更新）
(一)python金融数据爬虫项目爬取目标:雪球网(起始url:https://xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_ ...
Python爬虫项目--爬取自如网房源信息
本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储正文 1.分析目标站点 1. url: http:/ ...
Python爬虫项目--爬取猫眼电影Top100榜
本次抓取猫眼电影Top100榜所用到的知识点: 1. python requests库 2. 正则表达式 3. csv模块 4. 多进程正文目标站点分析通过对目标站点的分析, 来确定网页结构, ...
Python爬虫项目--爬取某宝男装信息
本次爬取用到的知识点有: 1. selenium 2. pymysql 3 pyquery 正文 1. 分析目标网站 1. 打开某宝首页, 输入"男装"后点击"搜索&q ...
python爬虫：利用BeautifulSoup爬取链家深圳二手房首页的详细信息
1.问题描述: 爬取链家深圳二手房的详细信息,并将爬取的数据存储到Excel表 2.思路分析: 发送请求--获取数据--解析数据--存储数据 1.目标网址:https://sz.lianjia.com ...
Python的scrapy之爬取链家网房价信息并保存到本地
因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息都保存在 ul 下的li 里面爬虫结构: 其中封装了一个数据库处理模 ...
【nodejs 爬虫】使用 puppeteer 爬取链家房价信息
使用 puppeteer 爬取链家房价信息目录使用 puppeteer 爬取链家房价信息页面结构爬虫库 pupeteer 库实现打开待爬页面遍历区级页面方法一方法二遍历街道页面遍 ...
Python——Scrapy爬取链家网站所有房源信息
用scrapy爬取链家全国以上房源分类的信息: 路径: items.py # -*- coding: utf-8 -*- # Define here the models for your scrap ...

随机推荐

EF LIKE 查询
 <edmx:ConceptualModels> <Schema Namespace="Model" Ali ...
go-micro介绍摘自https://www.cnblogs.com/s0-0s/p/6874800.html
Micro 架构与设计翻译自 Micro architecture & design patterns for microservices 注: 原文作者即 Micro 框架的开发者. 过去 ...
DataTable.Select 处理关联表数据
DataSet.Clone 会拷贝表结构,关联关系也会拷贝, 用Select 筛选后ImportRow 导入新的DataTable,然后处理关联DataTable DataSet ds2 = dsS ...
java中拼接两个对象集合
目标: 根据两个list中每条记录的某个属性是否相同来拼接. 1.首先定义一个字符串 String str = "[{\"ITEMID\":2,\"ITEMN ...
用kettle从mysql中使用存储过程读取数据写入到sqlserver数据库
1.mysql存储过程,可以实现动态表读取,满足较为复杂的业务逻辑 DROP PROCEDURE if exists p_get_car_trace; delimiter // CREATE PROC ...
vs2017 本地IP地址调试局域网调试
在项目sln目录下有一个隐藏文件夹.vs\config\applicationhost.config <bindings> <binding protocol="http& ...
spring 之 BeanPostProcessor
粗略一看, 它有这么多实现: 可见, 它是多么基础而重要的一个接口啊! 它提供了两个方法: public interface BeanPostProcessor { Object postProc ...
浏览器局部打印实现，iframe打印
const handleOk = () =>{ let ele = document.getElementById('printInfor'); let iframe=window.frames ...
WinForm c#操作Excel
1)Excel 的 Range 对象在可以对 Microsoft Office Excel 2003 中的任何范围执行操作前,必须将其表示为 Range 对象并使用此 Range 的方法和属性.Ra ...
leetcode309
使用动态规划,下面的代码可以通过210个测试,最后1个(第211个)会超时.说明思路是正确的,但是其中有一些是无效的计算. class Solution { public: int maxProfit ...

Python爬虫项目--爬取链家热门城市新房

环境

正文