Scrapy学习-24-集成elasticsearch

elasticsearch简单集成到scrapy中

使用elasticsearch的python接口处理数据

https://github.com/elastic/elasticsearch-dsl-py

elasticsearch-dsl-py官方使用文档

http://elasticsearch-dsl.readthedocs.io/en/latest/

创建一个DocType类，类似于item类

#　以获取jobbole网站的文章为例

from datetime import datetime

from elasticsearch_dsl import DocType, Date, Nested, Boolean, \

    analyzer, InnerObjectWrapper, Completion, Keyword, Text, Integer

from elasticsearch_dsl.connections import connections

connections.create_connection(hosts=["localhost"])  # 允许连接至多台服务器

class ArticleType(DocType):

    #伯乐在线文章类型

    title = Text(analyzer="ik_max_word")

    create_date = Date()

    url = Keyword()

    url_object_id = Keyword()

    front_image_url = Keyword()

    front_image_path = Keyword()

    praise_nums = Integer()

    comment_nums = Integer()

    fav_nums = Integer()

    tags = Text(analyzer="ik_max_word")

    content = Text(analyzer="ik_max_word")

    class Meta:

        index = "jobbole"

        doc_type = "article"

if __name__ == "__main__":

    ArticleType.init()  # init方法会根据类定义直接生成mapping

创建一个items类，接收数据

class JobBoleArticleItem(scrapy.Item):

    title = scrapy.Field()

    create_date = scrapy.Field(

        input_processor=MapCompose(date_convert),

    )

    url = scrapy.Field()

    url_object_id = scrapy.Field()

    front_image_url = scrapy.Field(

        output_processor=MapCompose(return_value)

    )

    front_image_path = scrapy.Field()

    praise_nums = scrapy.Field(

        input_processor=MapCompose(get_nums)

    )

    comment_nums = scrapy.Field(

        input_processor=MapCompose(get_nums)

    )

    fav_nums = scrapy.Field(

        input_processor=MapCompose(get_nums)

    )

    tags = scrapy.Field(

        input_processor=MapCompose(remove_comment_tags),

        output_processor=Join(",")

    )

    content = scrapy.Field()

    def get_insert_sql(self):

        insert_sql = """

            insert into jobbole_article(title, url, create_date, fav_nums)

            VALUES (%s, %s, %s, %s) ON DUPLICATE KEY UPDATE content=VALUES(fav_nums)

        """

        params = (self["title"], self["url"], self["create_date"], self["fav_nums"])

        return insert_sql, params

    def save_to_es(self):

        article = ArticleType()

        article.title = self['title']

        article.create_date = self["create_date"]

        article.content = remove_tags(self["content"])

        article.front_image_url = self["front_image_url"]

        if "front_image_path" in self:

            article.front_image_path = self["front_image_path"]

        article.praise_nums = self["praise_nums"]

        article.fav_nums = self["fav_nums"]

        article.comment_nums = self["comment_nums"]

        article.url = self["url"]

        article.tags = self["tags"]

        article.meta.id = self["url_object_id"]

        article.save()

        return

创建一个pipeline类，处理elasticsearch数据写入

from models.es_types import ArticleType

class ElasticsearchPipeline(object):

    def process_item(self, item, spider):

        item.save_to_es()

        return item

配置settings

ITEM_PIPELINES = {

    'ArticleSpider.pipelines.ElasticsearchPipeline': 1

}

Scrapy学习-24-集成elasticsearch的更多相关文章

Python分布式爬虫打造搜索引擎完整版-基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站
Python分布式爬虫打造搜索引擎基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 https://github.com/mtianyan/Artic ...
springboot集成elasticsearch
在基础阶段学习ES一般是首先是安装ES后借助 Kibana 来进行CURD 了解ES的使用: 在进阶阶段可以需要学习ES的底层原理,如何通过Version来实现乐观锁保证ES不出问题等核心原理: 第 ...
python爬虫scrapy学习之篇二
继上篇<python之urllib2简单解析HTML页面>之后学习使用Python比较有名的爬虫scrapy.网上搜到两篇相应的文档,一篇是较早版本的中文文档Scrapy 0.24 文档, ...
Scrapy学习篇（十）之下载器中间件（Downloader Middleware）
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 激活Downloader Midd ...
Scrapy学习篇（七）之Item Pipeline
在之前的Scrapy学习篇(四)之数据的存储的章节中,我们其实已经使用了Item Pipeline,那一章节主要的目的是形成一个笼统的认识,知道scrapy能干些什么,但是,为了形成一个更加全面的体系 ...
第三百六十七节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中
第三百六十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中前面我们讲到的elasticsearch( ...
深度学习的集成方法——Ensemble Methods for Deep Learning Neural Networks
本文主要参考Ensemble Methods for Deep Learning Neural Networks一文. 1. 前言神经网络具有很高的方差,不易复现出结果,而且模型的结果对初始化参数异 ...
Scrapy:学习笔记(2)——Scrapy项目
Scrapy:学习笔记(2)——Scrapy项目 1.创建项目创建一个Scrapy项目,并将其命名为“demo” scrapy startproject demo cd demo 稍等片刻后,Scr ...
Scrapy:学习笔记(1)——XPath
Scrapy:学习笔记(1)——XPath 1.快速开始 XPath是一种可以快速在HTML文档中选择并抽取元素.属性和文本的方法. 在Chrome,打开开发者工具,可以使用$x工具函数来使用XPat ...

随机推荐

14.VUE学习之-v-if v-else-if语法在网站注册中的实际应用讲解
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <meta http ...
python字符编码小结
首先简要说一下各种字符编码: 1. ASCII 计算机只认识0101,但如何让计算机认识人类语言?将每个字母和符号给予固定的编号,然后将这个编号转换成二进制,计算机就可以正确识别这些字母与符号,同时计 ...
ICSharpCode.SharpZipLib.dll
using ICSharpCode.SharpZipLib.Checksums; using ICSharpCode.SharpZipLib.Zip; namespace { /// <summ ...
笔记-python-selenium,phantomjs
笔记-python-selenium,phantomjs 1. 简介 1.1. selenium selenium是一款自动化测试工具,支持多种语言为什么爬虫要使用selenium呢 ...
python中pip 出错
错误:error in launcher: Unable to create process using '" python多个版本时出现, 解决方法-- 将pip重新安装 python3 ...
mysql进阶三四五六
排序查询一.语法 select 查询表 from 表 where 筛选条件 order by 排序列表[asc / desc] 特点: 1.asc:升序 desc:降序 2.排序列表之中支持单字段, ...
leetcode 【 Remove Duplicates from Sorted Array II 】python 实现
题目: Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For ex ...
MongoDB快速入门学习笔记3 MongoDB的文档插入操作
1.文档的数据存储格式为BSON,类似于JSON.MongoDB插入数据时会检验数据中是否有“_id”,如果没有会自动生成.shell操作有insert和save两种方法.当插入一条数据有“_id”值 ...
安恒杯月赛 babypass getshell不用英文字母和数字
BABYBYPASS 先贴代码: ①限制字符长度35个 ②不能使用英文字母和数字和 _ $ 最后提示有个getFlag()函数,从这个函数入手. 我们的第一思路是直接eval执行getFlag函数,但 ...
性能测试工具—Jmeter
Jmeter视频教程: 在我要自学网搜索:关键字即可

Scrapy学习-24-集成elasticsearch

Scrapy学习-24-集成elasticsearch的更多相关文章

随机推荐

热门专题