scrapy_items

为什么要items？

当数据量多的时候，没有统一的数据管理，统一格式化麻烦

items中除了能添加字段，还能做什么？

　　1. 进行预先处理

　　2. 对从items出去的数据进行处理

　　3. 写上sql语句逻辑

# -*- coding: utf-8 -*-

import hashlib

import scrapy

import re

from w3lib.html import remove_tags

from scrapy.loader import ItemLoader

from scrapy.loader.processors import TakeFirst, Join, MapCompose

from tools.shared import get_md5, go_remove_tag

class AllItemLoader(ItemLoader):

    """

    通过自定义itemloader要求都取列表中第一个值

    """

    default_output_processor = TakeFirst()

def get_md5(url):

    """对获取的URL进行md5"""

    m = hashlib.md5()

    m.update(bytes(url, encoding='utf-8'))

    return m.hexdigest()

# 把对应的内容，去掉标签、空格、空行

def go_remove_tag(value):

    content = remove_tags(value)

    return re.sub(r'[\t\r\n\s]', '', content)

def comeback(value):

    """啥也不干，直接返回"""

    return value

class ENet(scrapy.Item):

    article_id = scrapy.Field(

        # 进来的值预处理

        input_processor=MapCompose(get_md5)

    )

    article_url = scrapy.Field()

    title = scrapy.Field()

    content = scrapy.Field(

        input_processor=MapCompose(go_remove_tag),

        # 从items出去的值进行拼接处理

        output_processor=Join('')

    )

    publish_time = scrapy.Field()

    come_form = scrapy.Field(

        # 获得结果还是列表

        output_processor=MapCompose(comeback)

    )

    def get_sql(self):

        """获得sql语句和对应的sql填充值"""

        # 获取sql语句

        sql = """insert into

                e_news(article_id, article_url, title, content, publish_time)

                 VALUE

                 (%s, %s, %s, %s, %s)

                 ON DUPLICATE KEY UPDATE

                 article_url=VALUES(article_url), title=VALUES(title), content=VALUES(content), publish_time=VALUES(publish_time)

                 """

        # 获取sql填充值

        parms = (self['article_id'], self['article_url'], self['title'],

                 self['content'], self['publish_time'])

        return sql, parms

注意点：

　　对于通过itemloda进行解析的值存放在列表中，传递给items时候，会把列表中一个一个值单独按序传入预处理函数进行操作

scrapy_items的更多相关文章

Python爬虫从入门到放弃（十六）之 Scrapy框架中Item Pipeline用法
当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为, ...
scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...
Scrapy爬虫框架第七讲【ITEM PIPELINE用法】
ITEM PIPELINE用法详解: ITEM PIPELINE作用: 清理HTML数据验证爬取的数据(检查item包含某些字段) 去重(并丢弃)[预防数据去重,真正去重是在url,即请求阶段做] ...
爬虫基础(五)-----scrapy框架简介
---------------------------------------------------摆脱穷人思维 <五> :拓展自己的视野,适当做一些眼前''无用''的事情,防止进入只关 ...
MongoDB 及 scrapy 应用
0 1.Scrapy 使用 MongoDB https://doc.scrapy.org/en/latest/topics/item-pipeline.html#write-items-to-mong ...
scrapy入门与进阶
Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非 ...
5、爬虫系列之scrapy框架
一 scrapy框架简介 1 介绍 (1) 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能 ...
python 全栈开发，Day137(爬虫系列之第4章-scrapy框架)
一.scrapy框架简介 1. 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前S ...
四: scrapy爬虫框架
5.爬虫系列之scrapy框架一 scrapy框架简介 1 介绍 (1) 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架 ...

随机推荐

SuperSocket入门（四）-命令行协议
前面已经了解了supersocket的一些基本的属性及相关的方法,下面就进入重点的学习内容,通信协议.在没有看官方的文档之前,对于协议的理解首先想到的是TCP和UDP协议.TCP 和 UDP ...
Java框架之Mybatis（一）
一.Mybatis 简介 Mybatis 本是apache的一个开源项目iBatis, 2010年这个项目由apache software foundation 迁移到了google code,并且改 ...
windows 安全模型简介
操作系统中有些资源是不能由用户代码直接访问的,比如线程进程,文件等等,这些资源必须由系统级代码由RING3层进入到RING0层操作,并且返回一些标识供用户程序使用,一般调用某个函数陷入到内核,这样的函 ...
【转载】MySQL5.6.27 Release Note解读（innodb及复制模块）
新功能问题描述(Bug #18871046, Bug #72811): 主要为了解决一个比较“古老”的MySQL在NUMA架构下的“swap insanity”问题,其表现为尽管为InnoDB ...
[转]Linux里的2>&1究竟是什么
我们在Linux下经常会碰到nohup command>/dev/null 2>&1 &这样形式的命令. 首先我们把这条命令大概分解下首先就是一个nohup表示当前用户和系 ...
JavaScript基础知识（概念、常量和变量）
1.JavaScript概念 JavaScript是脚本语言; 编写之后,可以直接运行(缺失了编译的过程) 2.JavaScript发展 LiveScript => JavaScri ...
JSR-303校验类型
空检查 @Null 验证对象是否为null @NotNull 验证对象是否不为null, 无法查检长度为0的字符串 @NotBlank 检查约束字符串是不是Null还有被Trim的长 ...
CSRF跨站
跨站请求伪造: 简单的说跨站请求伪造就是一些恶意的用户用自己的表单伪造网页实际的表单发送数据,接下来我就随便写一点: 跨站伪造的产生(form表单的methoud只有在等于post的时候才会有可能发生 ...
hihoCoder1498-Diligent Robots
#1498 : Diligent Robots Time Limit:10000ms Case Time Limit:1000ms Memory Limit:256MB Description The ...
Ubuntu搭建Gitlab服务器
想到Gitlab就必定会想到SVN,因为两者都是代码管理系统,作为开发人员来说,用习惯了SVN的图形化界面和SVN代码更新和提交的方式, 可能就会觉得使用git会比较麻烦,其实不然git使用起来非常方 ...

scrapy_items

scrapy_items的更多相关文章

随机推荐

热门专题