Scrapy框架: 第一个程序

首先创建项目:

scrappy start project maitian

第二步: 明确要抓取的字段items.py

import scrapy

class MaitianItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    title = scrapy.Field()

    price = scrapy.Field()

    area = scrapy.Field()

    district = scrapy.Field()

第三步: 在spider目录下创建爬虫文件: zufang_spider.py

2.1 创建一个类，并继承scrapy的一个子类: scrapy.Spider

2.2 自定义爬取名, name="" 后面运行框架需要用到；

2.3 定义爬取目标网址

2.4 定义scrapy的方法

下面是简单项目:

import scrapy

from maitian.items import MaitianItem

class MaitianSpider(scrapy.Spider):

    name = "zufang"

    start_urls = ['http://bj.maitian.cn/zfall/PG1']

    def parse(self, response):

        for zufang_itme in response.xpath('//div[@class="list_title"]'):

            yield {

                'title': zufang_itme.xpath('./h1/a/text()').extract_first().strip(),

                'price': zufang_itme.xpath('./div[@class="the_price"]/ol/strong/span/text()').extract_first().strip(),

                'area': zufang_itme.xpath('./p/span/text()').extract_first().replace('㎡', '').strip(),

                'district': zufang_itme.xpath('./p//text()').re(r'昌平|朝阳|东城|大兴|丰台|海淀|石景山|顺义|通州|西城')[0],

            }

        next_page_url = response.xpath(

            '//div[@id="paging"]/a[@class="down_page"]/@href').extract_first()

        if next_page_url is not None:

            yield scrapy.Request(response.urljoin(next_page_url))

第四步: 在settings.py文件中设置数据保存到数据库

.

.

.

ITEM_PIPELINES = {'maitian.pipelines.MaitianPipeline': 300,}

MONGODB_HOST = '127.0.0.1'

MONGODB_PORT = 27017

MONGODB_DBNAME = 'maitian'

MONGODB_DOCNAME = 'zufang'

第五步: 通过管道pipelines.py 连接上面的操作

import pymongo

from scrapy.conf import settings

class MaitianPipeline(object):

    def __init__(self):

        host = settings['MONGODB_HOST']

        port = settings['MONGODB_PORT']

        db_name = settings['MONGODB_DBNAME']

        client = pymongo.MongoClient(host=host, port=port)

        db = client[db_name]

        self.post = db[settings['MONGODB_DOCNAME']]

    def process_item(self, item, spider):

        zufang = dict(item)

        self.post.insert(zufang)

        return item

其中 middlewares.py 文件暂不处理

以上简单的scrapy爬虫项目搭建完毕了

Scrapy框架: 第一个程序的更多相关文章

scrapy框架第一章
操作环境:python2.7+scrapy 安装比较简单,网上教程也超多,就不在此赘述. 示例网站:https://www.cnblogs.com/cate/python/ (爬去关于博客园所有pyt ...
scrapy框架搭建与第一个实例
scrapy是python的一个网络爬虫框架,关于它的介绍有很多资料,这里不做过多介绍(好吧我承认我还不是很懂...).我现在还在摸索阶段,因为用scrapy爬取的第一个网站非常简单,不涉及登陆.验证 ...
爬虫(十四)：Scrapy框架(一) 初识Scrapy、第一个案例
1. Scrapy框架 Scrapy功能非常强大,爬取效率高,相关扩展组件多,可配置和可扩展程度非常高,它几乎可以应对所有反爬网站,是目前Python中使用最广泛的爬虫框架. 1.1 Scrapy介绍 ...
asp.net -mvc框架复习（2）-创建ASP.NET MVC 第一个程序以及MVC项目文件夹说明
建议vs2013或2013以上版本的vs,要是跨平台的话最好用vs2015或vs2017的asp.net mvc core . 1.创建ASP.NET MVC 第一个程序打开vs2013->文 ...
Scrapy爬虫框架第一讲(Linux环境)
1.What is Scrapy? 答:Scrapy是一个使用python语言(基于Twistec框架)编写的开源网络爬虫框架,其结构清晰.模块之间的耦合程度低,具有较强的扩张性,能满足各种需求.(前 ...
利用scrapy框架进行爬虫
今天一个网友问爬虫知识,自己把许多小细节都忘了,很惭愧,所以这里写一下大概的步骤,主要是自己巩固一下知识,顺便复习一下.(scrapy框架有一个好处,就是可以爬取https的内容) [爬取的是杨子晚报 ...
python爬虫入门(六) Scrapy框架之原理介绍
Scrapy框架 Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬 ...
Scrapy 框架流程详解
框架流程图 Scrapy 使用了 Twisted 异步非阻塞网络库来处理网络通讯,整体架构大致如下(绿线是数据流向): 简单叙述一下每层图的含义吧: Spiders(爬虫):它负责处理所有Respon ...
爬虫基础(五)-----scrapy框架简介
---------------------------------------------------摆脱穷人思维 <五> :拓展自己的视野,适当做一些眼前''无用''的事情,防止进入只关 ...

随机推荐

Jmeter 使用技巧 (如何在linux下运行jmeter视窗界面呢）-jmeter如何模拟http发送gzip数据
jmeter如何模拟http发送gzip数据有时候我们需要模拟在客户端将数据压缩后, 发送(post)到服务器端. 通常这种情况,会发生在移动终端上. 这样做的好处, 是可以节省流量. 当然, 服 ...
sourcetree配置gitlab
一.准备 1.安装git,下载地址:https://git-scm.com/download 安装教程百度一下 git客户端(1.产生gitlab服务端和本地git相互传输时所需要校验的私钥 ...
poj3264 Balanced Lineup（树状数组）
题目传送门 Balanced Lineup Time Limit: 5000MS Memory Limit: 65536K Total Submissions: 64655 Accepted: ...
dataframe字段过长被截断
总之能,情况就是这样. 看看df类型: 64位明显不够用啊. 网上找到了segmentfault有这个问题,上面说试试 pd.set_option('display.width', 200) ,再百度 ...
【转】在配置静态IP的时候遇到：bringing up interface eth0 : error unknown connection
首先这是动态ip配置成功的结果接下来切换到root用户来配置静态的按照静态ip的配置方法配置好文件后(具体过程这里就不多加说明) 然后保存退出当我们重启网卡的时候问题来了(因为本人有点强迫症,多 ...
DB2临时表空间的作用
临时表空间分为系统临时表空间和用户临时表空间系统临时表空间用来存储各种数据操作(排序.重组表.创建索引.连接表)中所需的内部临时数据,虽然可以创建任意多个系统临时表空间,但建议用户只使用大多数表所使 ...
转：动态库路径配置- /etc/ld.so.conf文件
Linux 共享库 Linux 系统上有两类根本不同的 Linux 可执行程序.第一类是静态链接的可执行程序.静态可执行程序包含执行所需的所有函数 — 换句话说,它们是“完整的”.因为这一原因,静态可 ...
go语言从例子开始之Example16.函数递归
Go 支持递归.这里是一个经典的阶乘示例. Example: package main import "fmt" func fact(n int) int{ //先设置退出条件 ...
2019HDU多校训练第三场 Planting Trees 暴力 + 单调队列优化
题意:有一个n * n的网格,每个网格中间有一颗树,你知道每棵树的高,你可以选择一个矩形区域把里面的树都围起来,但是矩形区域里面任意两棵树的高度差的绝对值不超过m,问这个矩形的最大面积是多少? 思路: ...
python convert csv to xlsx
搬运:http://stackoverflow.com/questions/17684610/python-convert-csv-to-xlsx import os import glob impo ...

Scrapy框架: 第一个程序

Scrapy框架: 第一个程序的更多相关文章

随机推荐

热门专题