ElasticSearch 笔记（一）

一、Elasticsearch 印象

分布式、全文检索、数据分析。

二、为什么不用传统关系型数据库，如 MySQL，做搜索

举个反例。假设有以下数据库表 t_game：

id	name
1	唐僧取经
2	西天取经
3	唐僧不取经

需求：你在搜索输入框中输入 “唐僧取经”，希望找出相关的游戏。

转化成 SQL 就是：SELECT * FROM t_game where name LIKE '%唐僧取经%';

LIKE 前后模糊匹配，不走索引，只能全表扫描，数据量很大的话，比如有个 1 千万条记录，就需要扫描 1 千万次，性能肯定很差。

还有一个问题，当你搜索 “唐僧取经” 的时候，也许 “唐僧不取经” 也是你想要的结果，

但是 SQL 查询无法匹配这条记录。

所以，用关系型数据库做搜索，有两大问题：① 全表扫描，性能不好 ② 只能把输入关键字作为一个整体，也就是不能全文检索。

三、全文搜索和倒排索引

利用一种叫做 “倒排索引” 的东东，大致原理：

把 t_game 表的 name 字段进行分词，然后记录分出来的词对应的 id

分词	ids
取经	1、2、3
唐僧	1、3
西天	2
不	3

然后，对搜索关键字 “唐僧取经” 也进行分词：唐僧、取经。

第一次拿 “唐僧” 去查倒排索引，可以查到游戏 id 为：1、3 的记录；接着用 “取经” 再去查倒排索引，

可以查到游戏 id 为：1、2、3 的记录，合并结果就是返回 1、2、3 的记录。

在本例中，即使数据有千千万，只需要 2 次查询，就可以查到所有结。

所以，利用倒排索引，可以解决两个问题：全文搜索、性能问题。

四、lucene

简单来说就是一个 jar 包，封装了建立倒排索引的算法，已经各种搜索算法，可以用来做全文检索。

五、Elasticsearch

lucene 虽然可以做全文检索，

但是只能单机，不能集群，当数据量太大以致单机无法容纳，需要分布式处理时，处理起来很麻烦；

也不能做复杂的数据分析。

于是顺其自然的就有了 Elasticsearch，Elasticsearch 可以分布式集群，并且可以做一些复杂的数据分析，而且高可用，

当一些节点挂掉后，还能正常对外服务。

ElasticSearch 笔记（一）的更多相关文章

Elasticsearch笔记九之优化
Elasticsearch笔记九之优化 ).get(); } curl命令可以在linux中建立一个定时任务每天执行一次,同样java代码也可以建立一个定时器来执行. 2:内存设置之前介绍过es集群有 ...
Elasticsearch笔记八之脑裂
Elasticsearch笔记八之脑裂概述: 一个正常es集群中只有一个主节点,主节点负责管理整个集群,集群的所有节点都会选择同一个节点作为主节点所以无论访问那个节点都可以查看集群的状态信息. 而脑 ...
Elasticsearch笔记七之setting,mapping,分片查询方式
Elasticsearch笔记七之setting,mapping,分片查询方式 setting 通过setting可以更改es配置可以用来修改副本数和分片数. 1:查看,通过curl或浏览器可以看到副 ...
Elasticsearch笔记二之Curl工具基本操作
Elasticsearch笔记二之Curl工具基本操作简介: Curl工具是一种可以在命令行访问url的工具,支持get和post请求方式.-X指定http请求的方法,-d指定要传输的数据. 创建索 ...
白日梦的Elasticsearch笔记（一）基础篇
目录一.导读 1.1.认识ES 1.2.安装.启动ES.Kibana.IK分词器二.核心概念 2.1.Near Realtime (NRT) 2.2.Cluster 2.3.Node 2.4.In ...
Elasticsearch笔记
资料官网: http://www.elasticsearch.org 中文资料:http://www.learnes.net/ .Net驱动: http://nest.azurewebsites.n ...
Elasticsearch笔记六之中文分词器及自定义分词器
中文分词器在lunix下执行下列命令,可以看到本来应该按照中文"北京大学"来查询结果es将其分拆为"北","京","大" ...
Elasticsearch笔记四之配置参数与核心概念
在es根目录下有一个config目录,在此目录下有两个文件分别是elasticsearch.yml和logging.yml. logging.yml是日志文件,es也是使用log4j来记录日志的,我在 ...
Elasticsearch笔记三之版本控制和插件
版本控制 1:关系型数据库使用的是悲观锁,数据被读取后就被锁定其他的线程就无法对其进行修改. 2:ex使用的是乐观锁,数据被读取后其他程序还可以对其进行修改,而执行修改时发现此数据已经被修改则修改就会 ...
Elasticsearch笔记五之java操作es
Java操作es集群步骤1:配置集群对象信息:2:创建客户端:3:查看集群信息 1:集群名称默认集群名为elasticsearch,如果集群名称和指定的不一致则在使用节点资源时会报错. 2:嗅探功能 ...

随机推荐

安装ruby-pg报错解决
ruby用pgsql做orm的时候,需要安装ruby-pg库,默认编译安装会提示缺少xx头文件 max下,我用的傻瓜式pgsql.app gem install pg -- --with-pg-con ...
Linux环境下安装XAMPP的PHP的PDF扩展
安装pdf扩展1. wget http://pecl.php.net/get/pdflib-4.1.2.tgz2. tar zxvf pdflib-4.1.2.tgz3. cd pdflib-4.1. ...
简述FPGA的一些优势
优势一: 更大的并行度.这个主要是通过并发和流水两种技术实现. A:并发是指重复分配计算资源,使得多个模块之间可以同时独立进行计算.这一点与现在的多核和SIMD技术相似.但相对与SIMD技术,FPGA ...
嵌入式媒体处理（EMP）中的编码和解码
我知道,我对与电子有关的所有事情都很着迷,但不论从哪个角度看,今天的现场可编程门阵列(FPGA),都显得“鹤立鸡群”,真是非常棒的器件.如果在这个智能时代,在这个领域,想拥有一技之长的你还没有关注FP ...
ThreadPoolExecutor之四：jdk实现的ScheduledThreadPoolExecutor
一.定时任务调度方式常见的有: 1.cron是一个linux下的定时执行工具,一些重要的任务的定时执行可以通过cron来实现,例如每天凌晨1点备份数据等. 2.在JAVA WEB开发中,我们也经常需要 ...
2017中国大学生程序设计竞赛 - 女生专场（dp）
Building Shops Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others) To ...
mysql核心参数优化
MySQL数据库服务器配置CPU的优化内存的优化IO的优化连接的优化数据一致性的优化 1.描述back_log参数的作用? back_log = 500 要求 MySQL 能有的连接数量.当主要MyS ...
Excel开发学习笔记：根据工作表worksheet内容控制按钮的状态
开发环境基于VSTO,具体配置:visual studio 2010,VB .Net,excel 2007,文档级别的定制程序. 在Ribbon工具栏中有2个功能按钮,它们是否可用取决于workshe ...
Julia - 变量
变量的赋值 julia> a = 1 # 把 10 赋给变量 a 1 julia> a + 1 # 变量 a 的值加 1 2 julia> a = 4 # 重新赋值给变量 a 4 j ...
List对象中的组合、查询、扩展
var Pnts = segs.Select( c => pntTsLst.Where ...

ElasticSearch 笔记（一）

ElasticSearch 笔记（一）的更多相关文章

随机推荐

热门专题