scrapy将爬取到的数据存入elasticsearch

pip安装 elasticsearch-dsl的包, 是elasticsearch提供给python 的接口

if __name__  == "__main__":

这个用来调试,还是很强大的,可以直接为某个py文件进行单元测试??应该是这么个意思

自己生成一个 models的文件夹用来存放类定义,和Django差不多,这样结构比较好

然后为每一个爬虫都定义它的类, 通过定义类,和scrapy中的item是对应的,然后调用 init方法,就可以实现创建索引了

同样是在这里面设置需要连接的elastic的服务器, 而且这里可以设置多个服务器,更详细的设置应该也是可以的,但是还没有讲到

这样如果需要修改某个字段的类型或者重新设置类,直接修改完重新init一下就可以了

又出现了错误，而且调试了半天：结果是这个包的版本的问题，应该按照github的说明安装特定的版本就行了

真的我尼玛，因为我们的elasticsearch是5.1.1的，所以这个也必须安装5.x.x的版本

将数据写入到elastic中

和django的model基本一毛一样

定义一个pipeline ,然后在process_item 函数中实例化定义的elasticsearch中的type类,然后分别给字段赋值,最后直接调用save方法

把数据写入的逻辑定义在item的函数中,然后在pipeline中直接调用它的自己保存函数,这样可以增加代码重用

#这里python的import方式也有很多区别,同级的文件相互导入一般也得加上上级的目录???

pipeline的顺序越小,处理的顺序越早

又出现了次错误, item里面定义的只能用字典的keyword形式来获取,不能用类的属性,否则会报错

成功存入elasticsearch, 下一步进行搜索

scrapy将爬取到的数据存入elasticsearch的更多相关文章

Scrapy 实现爬取多页数据 + 多层url数据爬取
项目需求:爬取https://www.4567tv.tv/frim/index1.html网站前三页的电影名称和电影的导演名称项目分析:电影名称在初次发的url返回的response中可以获取,可以 ...
<scrapy爬虫>爬取360妹子图存入mysql(mongoDB还没学会,学会后加上去)
1.创建scrapy项目 dos窗口输入: scrapy startproject images360 cd images360 2.编写item.py文件(相当于编写模板,需要爬取的数据在这里定义) ...
Python爬虫【实战篇】scrapy 框架爬取某招聘网存入mongodb
创建项目 scrapy startproject zhaoping 创建爬虫 cd zhaoping scrapy genspider hr zhaopingwang.com 目录结构 items.p ...
Scrapy 通过登录的方式爬取豆瓣影评数据
Scrapy 通过登录的方式爬取豆瓣影评数据爬虫 Scrapy 豆瓣 Fly 由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现.scrapy工具使用起来 ...
scrapy关键字爬取百度图库（一）
刚入门学习python的菜鸟,如有错误,还望指教爬取百度图库需要知道百度图库的加载方式是通过下拉加载的,所以我们需要分析Ajax请求来爬取每一页的数据信息表述不清直接上图片图片一是刷新页面后加载 ...
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影在类型地区年代各个标签下电影的名字评分和图片连接以及电影连接首先我们先在mysql中建表 create table liubo4( id in ...
如何提高scrapy的爬取效率
提高scrapy的爬取效率增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加.在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置 ...
scrapy框架爬取笔趣阁完整版
继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ...

随机推荐

腾讯云图片鉴黄集成到C# SQL Server 怎么在分页获取数据的同时获取到总记录数 sqlserver 操作数据表语句模板 .NET MVC后台发送post请求百度api查询多个地址的经纬度的问题 try{}里有一个 return 语句，那么紧跟在这个 try 后的 finally {}里的 code 会不会被执行，什么时候被执行，在 return 前还是后? js获取某个日期
腾讯云图片鉴黄集成到C# 官方文档:https://cloud.tencent.com/document/product/641/12422 请求官方API及签名的生成代码如下: public c ...
Androidproject文件下assets目录与res目录的差别
1. assets : 不会在R.java文件下生成对应的标记,assets目录能够自己创建目录,必须使用AssetsManager类进行訪问,存放到这里的资源在执行打包的时候都会打入程序安装包中, ...
Photoshop 更改图片颜色
程序猿兼职美术的常常没有时间搞太多图片.我们能够一张图片更改主要颜色来到达目的.我知道的主要有2种方法,1是更改色相,2是替换颜色.直接用油漆桶仅仅能在异常简单的图片才干用. 1. 更改色相 ...
解决：Android4.3锁屏界面Emergency calls only - China Unicom与EMERGENCY CALL语义反复
从图片中我们能够看到,这里在语义上有一定的反复,当然这是谷歌的原始设计.这个问题在博客上进行共享从表面上来看着实没有什么太大的意义,只是因为Android4.3在锁屏功能上比起老版本号做了非常大的修改 ...
查看 python安装目录
打开终端输入: which python 打开终端依此输入: python import sys print sys.path
String,StringBuilder与StringBuffer的区别
相信大家看到过很多比较String和StringBuffer区别的文章,也明白这两者的区别,然而自从Java 5.0发布以后,我们的比较列表上将多出一个对象了,这就是StringBuilder类.St ...
kafka 和 zookeeper 常用命令记录
启动zookeeper zkServer.sh start 启动kafka服务器 kafka-server-start.sh /software/kafka_2.10-0.10.2.1/config/ ...
如何在 Ubuntu 云服务器上部署自己的 Rails 应用
安装步骤参考:https://ruby-china.org/topics/32851 在云服务器上安装Ruby|Rails : http://www.cnblogs.com/znsongshu/p ...
基于Delphi7 WebService 在Apache发布及Apache使用说明
基于Delphi7 WebService 在Apache 发布及Apache 使用说明 qq:394251165 前段时间,需要将基于Delphi7 WebService 发布在Apache, 很是苦 ...
FAT和FAT32文件系统的原理
[转自] http://www.sjhf.net/Article/sjhfdoc/200404/1.html 一.硬盘的物理结构: 硬盘存储数据是根据电.磁转换原理实现的.硬盘由一个或几个表面 ...

scrapy将爬取到的数据存入elasticsearch

scrapy将爬取到的数据存入elasticsearch的更多相关文章

随机推荐

热门专题