Elasticsearch全文检索实战小结

【Elasticsearch全文检索实战小结】的更多相关文章

Elasticsearch全文检索实战小结

一.项目概述这是一个被我称之为“没有枪.没有炮,硬着头皮自己造”的项目.项目是和其它公司合作的三个核心模块开发. 使用ES的目的是: 1).采集数据.网站数据清洗后存入ES: 2).对外提供精确检索.通配符检索.模糊检索.分词检索.全文检索接口等二次封装接口. 二.项目架构如上图所示,ES作为中间层,一方面存储数据清洗后存储的数据,另一方面对外提供插入.更新.删除.检索接口的. 三.ES使用小结 3.1 ES版本选型 1.X,2.X版本有太多局限性,5.X做了较大性能提升的改进.比如:str…

干货 |《从Lucene到Elasticsearch全文检索实战》拆解实践

1.题记 2018年3月初,萌生了一个想法:对Elasticsearch相关的技术书籍做拆解阅读,该想法源自非计算机领域红火已久的[樊登读书会].得到的每天听本书.XX拆书帮等. 目前市面上Elasticsearch的中文书籍就那么基本,针对ES5.X以上的三本左右:国外翻译有几本,都是针对ES1.X,2.X版本,其中<深入理解Elasticsearch>还算比较经典. 拆书的目的: 1)梳理已有的Elasticsearch知识体系: 2)拾遗拉在角落的Elasticsearch知识点: 3)…

《从Lucene到Elasticsearch全文检索实战》的P184页

curl -XPOST "http://localhost:9200/_bulk?pretty" --data-binary @books.json 这句话在书中是以crul的命令启动的,而不是使用Kibana. 其次,他说使用了books.json,在P183页说保存为books.json这个文件是直接放在curl解压缩后的文件夹的bin目录下的. 汗,我第一次,关于这个问题搞了半天,之前我一直使用Kibana的,坑.后来百度看到有人说这个都出现localhost:9200了,肯定是…

js中各种跨域问题实战小结（二）

这里接上篇:js中各种跨域问题实战小结(一) 后面继续学习的过程中,对上面第一篇有稍作休整.下面继续第二部分: -->5.利用iframe和location.hash -->6.window.name跨域实现利用iframe和location.hash实现跨域想必有很多人像我之前一样,或许只知道上面文中所说的那几种方法.所以,我刚了解到可以用iframe和location.hash来实现跨域的时候,我会想,为什么他们可以实现.iframe是什么,有什么特性,location.hash是什么…

js中各种跨域问题实战小结（一）

什么是跨域?为什么要实现跨域呢? 这是因为JavaScript出于安全方面的考虑,不允许跨域调用其他页面的对象.也就是说只能访问同一个域中的资源.我觉得这就有必要了解下javascript中的同源策略是怎么回事了:javascript的同源策略 .这里更加细致详细的总结了为什么要跨域:javascript跨域之什么是跨域?为什么跨域? 于是当我们想某些特定的功能的时候,实现合理的跨域请求就显得比较重要了.我努力通过自己动手,自己模拟环境来切实的尝试跨域是怎么回事. 第一部分总结如下: -->…

Elasticsearch全文检索工具入门

Elasticsearch全文检索工具入门: 1.下载对应系统版本的文件 elasticsearch-2.4.0.zip 1.1运行elasticsearch-2.4.0\elasticsearch-2.4.0\bin\elasticsearch.bat文件访问 http://127.0.0.1:9200 1.2ElasticSearch 插件安装 es head 在命令窗口输入下面的命令: %elasticsearch%/bin/plugin.bat install mobz/elastic…

《从Lucene到Elasticsearch：全文检索实战》学习笔记五

今天我给大家讲讲tf-idf权重计算 tf-idf权重计算: tf-idf(中文词频-逆文档概率)是表示计算词项对于一个文档集或语料库中的一份文件的重要程度.词项的重要性随着它在文档中出现的次数成正比,会随着它在文档集中出现的频率成反比.如果一个词项在一遍文档中出现的频率非常高,说明其比较重要,如果这个词项在其他文档中出现的频率也高,那么说明这个词有可能是比较通用的. tf代表词项频率,如果要计算指定词项的词频,统计该词在整篇文档中出现的次数就可以了.如果一篇3000字的文档中词语“足球”出现了…

《从Lucene到Elasticsearch：全文检索实战》学习笔记四

今天我给大家讲讲布尔检索模型基本概念布尔检索模型: 检索模型是判断文档内容与用户相关性的核心技术,以大规模网页搜索为例,在海量网页中与用户查询关键词相关的网页可能会有成千上万个,甚至耕读哦.那么信息检索系统是如何判断网页和查询关键词是相关的?内部的排序模型是怎样的? 布尔检索模型中主要有AND.OR.NOT三种逻辑运算,布尔逻辑运算符的作用是把检索词连接起来,构成一个逻辑检索式. AND:逻辑与,用来表示其所连接的两个检索项的交叉部分,即检索词的交集部分 OR:逻辑或,用于连接并列关系的检索词…

《从Lucene到Elasticsearch：全文检索实战》学习笔记三

今天我给大家讲讲倒排索引. 索引是构成搜索引擎的核心技术之一,它在日常生活中是非常常见的,比如我看一本书的时候,我首先会看书的目录,通过目录可以快速定位到具体章节的页码,加快对内容的查询速度. 文档通常保存在各种数据库管理系统之中,比如mysql,oracle等,但是搜索引擎的数据不能保存在数据库,主要原因有两点:一是搜索引擎的数据量非常庞大,大型搜索引擎需要处理数以亿计的网页数据,面对海量数据数据库很难管理.二是搜索引擎对数据的操作比较简单,一般的增删改查就够用了,而数据库支持的数据库操作是比…

《从Lucene到Elasticsearch：全文检索实战》学习笔记二

今天我给大家讲讲分词算法分词算法概述:词是语义的最小单位.分词对搜索引擎的作用很大,可以促进搜索引擎程序自动识别语句的含义,可以提高搜索结果的匹配度,分析的质量也将直接影响了搜索结果的精确度.分词存在于文本索引的建立过程和用户提交检索过程.利用相同的分词器把短语或句子划分成相同的结果,才能保证检索过程顺利进行.中文和英文的分词简介如下: 1.英文分词的原理基本的处理流程是: 输入文本——————>词汇分割——————>词汇过滤——————>词干提取——————>大写转为小写——…