ElasticSearch 笔记（一）

一、Elasticsearch 印象

分布式、全文检索、数据分析。

二、为什么不用传统关系型数据库，如 MySQL，做搜索

举个反例。假设有以下数据库表 t_game：

id	name
1	唐僧取经
2	西天取经
3	唐僧不取经

需求：你在搜索输入框中输入 “唐僧取经”，希望找出相关的游戏。

转化成 SQL 就是：SELECT * FROM t_game where name LIKE '%唐僧取经%';

LIKE 前后模糊匹配，不走索引，只能全表扫描，数据量很大的话，比如有个 1 千万条记录，就需要扫描 1 千万次，性能肯定很差。

还有一个问题，当你搜索 “唐僧取经” 的时候，也许 “唐僧不取经” 也是你想要的结果，

但是 SQL 查询无法匹配这条记录。

所以，用关系型数据库做搜索，有两大问题：① 全表扫描，性能不好 ② 只能把输入关键字作为一个整体，也就是不能全文检索。

三、全文搜索和倒排索引

利用一种叫做 “倒排索引” 的东东，大致原理：

把 t_game 表的 name 字段进行分词，然后记录分出来的词对应的 id

分词	ids
取经	1、2、3
唐僧	1、3
西天	2
不	3

然后，对搜索关键字 “唐僧取经” 也进行分词：唐僧、取经。

第一次拿 “唐僧” 去查倒排索引，可以查到游戏 id 为：1、3 的记录；接着用 “取经” 再去查倒排索引，

可以查到游戏 id 为：1、2、3 的记录，合并结果就是返回 1、2、3 的记录。

在本例中，即使数据有千千万，只需要 2 次查询，就可以查到所有结。

所以，利用倒排索引，可以解决两个问题：全文搜索、性能问题。

四、lucene

简单来说就是一个 jar 包，封装了建立倒排索引的算法，已经各种搜索算法，可以用来做全文检索。

五、Elasticsearch

lucene 虽然可以做全文检索，

但是只能单机，不能集群，当数据量太大以致单机无法容纳，需要分布式处理时，处理起来很麻烦；

也不能做复杂的数据分析。

于是顺其自然的就有了 Elasticsearch，Elasticsearch 可以分布式集群，并且可以做一些复杂的数据分析，而且高可用，

当一些节点挂掉后，还能正常对外服务。

ElasticSearch 笔记（一）的更多相关文章

Elasticsearch笔记九之优化
Elasticsearch笔记九之优化 ).get(); } curl命令可以在linux中建立一个定时任务每天执行一次,同样java代码也可以建立一个定时器来执行. 2:内存设置之前介绍过es集群有 ...
Elasticsearch笔记八之脑裂
Elasticsearch笔记八之脑裂概述: 一个正常es集群中只有一个主节点,主节点负责管理整个集群,集群的所有节点都会选择同一个节点作为主节点所以无论访问那个节点都可以查看集群的状态信息. 而脑 ...
Elasticsearch笔记七之setting,mapping,分片查询方式
Elasticsearch笔记七之setting,mapping,分片查询方式 setting 通过setting可以更改es配置可以用来修改副本数和分片数. 1:查看,通过curl或浏览器可以看到副 ...
Elasticsearch笔记二之Curl工具基本操作
Elasticsearch笔记二之Curl工具基本操作简介: Curl工具是一种可以在命令行访问url的工具,支持get和post请求方式.-X指定http请求的方法,-d指定要传输的数据. 创建索 ...
白日梦的Elasticsearch笔记（一）基础篇
目录一.导读 1.1.认识ES 1.2.安装.启动ES.Kibana.IK分词器二.核心概念 2.1.Near Realtime (NRT) 2.2.Cluster 2.3.Node 2.4.In ...
Elasticsearch笔记
资料官网: http://www.elasticsearch.org 中文资料:http://www.learnes.net/ .Net驱动: http://nest.azurewebsites.n ...
Elasticsearch笔记六之中文分词器及自定义分词器
中文分词器在lunix下执行下列命令,可以看到本来应该按照中文"北京大学"来查询结果es将其分拆为"北","京","大" ...
Elasticsearch笔记四之配置参数与核心概念
在es根目录下有一个config目录,在此目录下有两个文件分别是elasticsearch.yml和logging.yml. logging.yml是日志文件,es也是使用log4j来记录日志的,我在 ...
Elasticsearch笔记三之版本控制和插件
版本控制 1:关系型数据库使用的是悲观锁,数据被读取后就被锁定其他的线程就无法对其进行修改. 2:ex使用的是乐观锁,数据被读取后其他程序还可以对其进行修改,而执行修改时发现此数据已经被修改则修改就会 ...
Elasticsearch笔记五之java操作es
Java操作es集群步骤1:配置集群对象信息:2:创建客户端:3:查看集群信息 1:集群名称默认集群名为elasticsearch,如果集群名称和指定的不一致则在使用节点资源时会报错. 2:嗅探功能 ...

随机推荐

datasnap的初步
datasnap的初步-回调函数服务器端 TServerMethods1 =class(TComponent) private { Private declarations } public { P ...
lua语法基本
lua的下载 http://luabinaries.sourceforge.net/点击所要下载的版本比如我下的是5.3.3https://sourceforge.net/projects/luabi ...
python开发socket套接字：套接字&通信循环&链接循环&模拟远程命令
一,套接字先从服务器端说起.服务器端先初始化Socket,然后与端口绑定(bind),对端口进行监听(listen),调用accept阻塞,等待客户端连接.在这时如果有个客户端初始化一个Socket ...
StringBuilder与StringBuffer的区别
相信大家看到过很多比较String和StringBuffer区别的文章,也明白这两者的区别,然而自从Java 5.0发布以后,我们的比较列表上将多出一个对象了,这就是StringBuilder类.St ...
Java学习之App开发公司手机端设想
背景:最近在学JAVA,看到JAVA做各种APP,而公司软件主要是做家居设计,使用者多是设计师和家具门店,很难让大部分非专业人士接触到我们的产品,由于设计复杂且占用资源较多不太可能用APP实现网站设计 ...
app端内容播放,web端的玩具,app通过websocket远程遥控玩具播放内容,玩具管理页面
一.app端内容播放下载代码 https://github.com/987334176/Intelligent_toy/archive/v1.0.zip 注意:由于涉及到版权问题,此附件没有图片和音 ...
Hadoop的HA机制
前言:正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制 1. HA的运作机制 (1)hadoop-HA集群运作机制介绍所谓HA,即高可用(7*24小时不中断服务) 实现高可用最关 ...
DataReader方式获取数据
/// /// 得到一个对象实体 DataReader方式 /// /// /// 成功返回对象模型,失败返回null public DotNet.Model.Base_Department GetM ...
webRTC peerconnection_client demo创建VS工程
编译了webRTC Windows源码之后,想使用编译出来的库写一个demo出来,但是又不知到怎么下手.就想通过源码中带的示例peerconnection_client和peerconnection_ ...
oracle:RETURNING 子句
RETURNING 自己通常结合DML 语句使用.(INSERT UPDATE DELETE) 使用方法: UPDATE table_name SET expr1 RETURNING column_n ...

ElasticSearch 笔记（一）

ElasticSearch 笔记（一）的更多相关文章

随机推荐

热门专题