scrapy数据写入管道

1 setting里面启动管道

ITEM_PIPELINES = {
   'ganji.pipelines.GanjiPipeline': 300,
}

2 拿到的数据通过yield返回给管道

# -*- coding: utf-8 -*-

import csv

import scrapy

class GjSpider(scrapy.Spider):

    name = 'gj'

    allowed_domains = ['ganji.com']

    start_urls = ['http://sz.ganji.com/zufang/']

    def optimizeContent(self,res):

        res = res.replace('b\'', '')

        res = res.replace('\\n', '')

        res = res.replace('\'', '')

        res = res.replace('style', 'nouse')

        res = res.replace('\.', '')

        return res

    def parse(self, response):

        print(response.url)

        houseList = response.xpath('.//div[@class="f-main-list"]/div/div[position()>2]')

        for houst in houseList:

            title = houst.xpath(".//dl/dd[contains(@class,'title')]/a/@title").extract_first()

            size = houst.xpath(".//dl/dd[contains(@class,'size')]/span[3]/text()").extract_first()

            chaoxiang = houst.xpath(".//dl/dd[contains(@class,'size')]/span[5]/text()").extract_first()

            price = houst.xpath(".//dl/dd[contains(@class,'info')]/div/span[1]/text()").extract_first()

            address1 = houst.xpath(".//dl/dd[contains(@class,'address')]/span/a[1]/text()").extract_first()

            address2 = houst.xpath(".//dl/dd[contains(@class,'address')]/span/a[2]/span/text()").extract_first()

            item = {'title':title,"size":size,"chaoxiang":chaoxiang, "price":price,"address": str(address1)+"-"+str(address2)}

            yield item

3 pipeline文件里面写入文件

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import csv

class GanjiPipeline(object):

    def  open_spider(self,spider):

        with open('ganji.csv', 'a+', encoding='utf_8_sig') as fp:

            writer = csv.writer(fp)  # 先传入文件句柄

            writer.writerow(['标题', '大小', '朝向', '价格', '地址'])  # 然后写入

            fp.close()

    def process_item(self, item, spider):

        with open('ganji.csv', 'a+', encoding='utf_8_sig') as fp:

            writer = csv.writer(fp)  # 先传入文件句柄

            item['title'] = self.optimizeContent(item['title'])

            print(item['title'])

            writer.writerow([item['title'], item['size'], item['chaoxiang'], item['price'], item['address']])  # 按行写入

            fp.close()

        return item

    def optimizeContent(self,res):

        res = res.replace('b\'', '')

        res = res.replace('\\n', '')

        res = res.replace('\'', '')

        res = res.replace('style', 'nouse')

        res = res.replace('\.', '')

        return res

scrapy数据写入管道的更多相关文章

scrapy框架基于管道的持久化存储
scrapy框架的使用基于管道的持久化存储的编码流程在爬虫文件中数据解析将解析到的数据封装到一个叫做Item类型的对象将item类型的对象提交给管道管道负责调用process_item的方法 ...
Scrapy 教程(十)-管道与数据库
Scrapy 框架将爬取的数据通过管道进行处理,即 pipelines.py 文件. 管道处理流程一.定义 item item 表示的是数据结构,定义了数据包括哪些字段 class TianqiIt ...
python3下scrapy爬虫(第十二卷:解决scrapy数据存储大量数据时阻塞问题）
之前我们使用scrapy爬取数据,用的存储方式是直接引入PYMYSQL,或者MYSQLDB,案例中数据量并不大,这种数据存储方式属于同步过程,也就是上一条语句执行完才能执行下一条语句,当数据量变大时, ...
flume将数据写入各个组件
一.flume集成hdfs,将数据写入到hdfs a1.sources = r1 a1.sinks = k1 a1.channels = c ...
将Oracle数据库中的数据写入Excel
将Oracle数据库中的数据写入Excel 1.准备工作 Oracle数据库"TBYZB_FIELD_PRESSURE"表中数据如图: Excel模板(201512.xls): 2 ...
JavaIO 将数据写入到文件中去
package com.Practice_FileWriter; import java.io.FileWriter; import java.io.IOException; public class ...
《项目经验》--通过js获取前台数据向一般处理程序传递Json数据，并解析Json数据，将前台传来的Json数据写入数据库表中
先看一下我要实现的功能界面: 这个界面的功能在图中已有展现,课程分配(教师教授哪门课程)在之前的页面中已做好.这个页面主要实现的是授课,即给老师教授的课程分配学生.此页面实现功能的步骤已在页面 ...
PHP如何通过SQL语句将数据写入MySQL数据库呢？
1,php和MySQL建立连接关系 2,打开 3,接受页面数据,PHP录入到指定的表中 1.2两步可直接使用一个数据库链接文件即可:conn.php <?phpmysql_connect(&qu ...
简单通过java的socket&serversocket以及多线程技术实现多客户端的数据的传输，并将数据写入hbase中
业务需求说明,由于公司数据中心处于刚开始部署的阶段,这需要涉及其它部分将数据全部汇总到数据中心,这实现的方式是同上传json文件,通过采用socket&serversocket实现传输. 其中 ...

随机推荐

一、loadrunner脚本录制及回放
录制及回放的注意点: 1.测试系统教复杂时,正确的划分action,对监控的每一个业务模型和操作,起到重要作用 2.录制完成后,先进行编译(改动脚本之后检查下有没有语法错误):工具栏Vuser下有一个 ...
selenium中各个模块操作：下拉框、鼠标悬浮连贯、拼图拖拽操作、以及其他拖拽操作、连线操作
1.下拉框的修改操作方法一:定位到元素后,通过select选择对应的值方法二:通过两次点击的方法:没有select的value属性时,采用click两次的方法去选择: click第一次后,出现下拉 ...
2017年PHP程序员未来路在何方(转)
PHP 从诞生到现在已经有20多年历史,从Web时代兴起到移动互联网退潮,互联网领域各种编程语言和技术层出不穷, Node.js . GO . Python 不断地在挑战 PHP 的地位.这些技术的推 ...
SpringCloud实战 | 第一篇：Windows搭建Nacos服务
前言为什么放弃eureka选择nacos?本地开发环境需要搭建nacos-server,想着是很简单的事但是被一些文章(少了关键必要的步骤)给带偏了,所以亲测成功后写了这篇文章. 搭建nacos-s ...
Combine 框架，从0到1 —— 4.在 Combine 中使用 KVO
本文首发于 Ficow Shen's Blog,原文地址: Combine 框架,从0到1 -- 4.在 Combine 中使用 KVO. 内容概览前言用 KVO 监控改动将 KVO 代 ...
学习 | iscroll之上拉加载下拉刷新
引入文件顺序 1.zepto 2.iscroll.js 3.scroll-probe.js 链接完整代码:https://github.com/dirkhe1051931999/writeBlog/ ...
Spring Boot 所有相关的配置信息
加载顺序如上图所示,图片是从官网上截取的,这些配置信息都会加载,只不过顺序在前的会覆盖掉后面的上图的所有配置信息都会以(key,value)的形式加载到Spring中的Environment中,也 ...
Scanner输入方法
输入语句: * import java.util.Scanner; * System.out.println("请输入你想输入的东西:"); * Scanner (自定义)sc = ...
Windows Server系统部署MySQL数据库
由于工作需要在阿里云服务器中使用MySQL,所以安装一下MySQL数据库,中间也踩了一些坑,现在将整个过程给大家记录下来,便于后续查找. 阿里云服务器是WinServer2012系统,之前在Windo ...
线程的阻塞 sleep() wait() yield()
为了解决对共享存储区的访问冲突,Java 引入了同步机制,现在让我们来考察多个线程对共享资源的访问,显然同步机制已经不够了,因为在任意时刻所要求的资源不一定已经准备好了被访问,反过来,同一时刻准备好了 ...

scrapy数据写入管道

scrapy数据写入管道的更多相关文章

随机推荐

热门专题