背景

  • 实现网站自带的搜索功能,如淘宝中的商品搜索

全文搜索

  • 数据分类

    • 结构化数据:固定格式或长度有限的数据,如数据库、元数据等
    • 非结构化数据:不定长或无固定格式的数据,如邮件、word文档等
  • 搜索分类
    • 结构化数据搜索:关系型数据库
    • 非结构化数据搜索:顺序扫描(低效)/全文搜索
  • 索引
    • 从非结构化数据中提取出的然后重新组织的信息
    • 非结构化数据->有一定结构的数据
    • 对组织后的数据进行搜索
  • 倒排索引
    • 存储在全文搜索下某个单词在一个或一组文档中的存储位置的映射
    • 文档检索系统中最常用的数据结构
  • 场景
    • 搜索的数据对象是大量的非结构化的文本数据
    • 文件记录量达到数十万或数百万个甚至更多
    • 支持大量基于交互式文本的查询
    • 需求非常灵活的全文搜索查询
    • 对高度相关的搜索结果的有特殊需求,但是没有可用的关系数据库可以满足
    • 对不同记录类型、非文本数据操作或安全事务处理的需求相对较少的情况

Lucene

  • 全文搜索引擎
  • 一个代码库和API
  • 思路
    • 搜集数据
    • 通过数据创建索引
    • 用户输入关键字
    • 通过关键字创建查询器
    • 根据查询器到索引里获取数据
    • 把查询结果展示给用户

Solr

  • 一种非关系(no sql)数据库搜索/存储引擎
  • 封装了Lucene,有HTTP接口
  • 可以和Hadoop一起使用
  • Hadoop处理大量数据,Solr从中找需要的信息
  • 与数据库的区别
    • 搜索速度比关系型数据库快,一般在网站中单独处理搜索功能
    • 数据库不能实现分词效果,只能用模糊查询,效率很低
  • 原理:倒排索引,B+树
  • IK Analyzer:开源的java中文分词工具包

elasticsearch

  • 封装了Lucene
  • 分布式、多租户能力的全文搜索引擎
  • 具有HTTP Web页面和无架构JSON文档
  • 和Solr相比,更易于使用

参考

Solr介绍

https://blog.csdn.net/luo609630199/article/details/82494708

Solr原理

https://www.liangzl.com/get-article-detail-134667.html

全文搜索 Solr Elasticsearch

https://www.cnblogs.com/jajian/p/9801154.html

Solr Elasticsearch 性能比较

https://blog.csdn.net/jameshadoop/article/details/44905643

[Java] Solr & Elasticsearch的更多相关文章

  1. 开源搜索引擎solr elasticsearch学习计划

    其实不单单是研究solr elasticsearch把,进行调研性技术学习时,应该制定一些目标以及里程碑.新的技术调研 学习是一件很爽的事,能学到新技术新东西.但是在学习新技术同时,有几个问题是需要我 ...

  2. 使用java操作elasticsearch(1)

    1.安装elasticsearch 这儿用的是5.6.9的版本,下载安装过程较为简单,在官网上下载好后解压到文件夹.需要注意的是在elasticsearch-5.6.9\config下的elastic ...

  3. java使用elasticsearch实现集群管理

    本篇博客主要是查看集群中的相关信息,具体请看代码和注释 @Test public void test45() throws UnknownHostException{ //1.指定es集群 clust ...

  4. java操作elasticsearch实现组合桶聚合

    1.terms分组查询 //分组聚合 @Test public void test40() throws UnknownHostException{ //1.指定es集群 cluster.name 是 ...

  5. java操作elasticsearch实现query String

    1.CommonTersQuery: 指定字段进行模糊查询 //commonTermsQuery @Test public void test35() throws UnknownHostExcept ...

  6. java操作elasticsearch实现聚合查询

    1.max 最大值 //max 求最大值 @Test public void test30() throws UnknownHostException{ //1.指定es集群 cluster.name ...

  7. java操作elasticsearch实现前缀查询、wildcard、fuzzy模糊查询、ids查询

    1.前缀查询(prefix) //prefix前缀查询 @Test public void test15() throws UnknownHostException { //1.指定es集群 clus ...

  8. java操作elasticsearch实现条件查询(match、multiMatch、term、terms、reange)

    1.条件match query查询 //条件查询match query @Test public void test10() throws UnknownHostException { //1.指定e ...

  9. java操作elasticsearch实现查询删除和查询所有

    后期博客本人都只给出代码,具体的说明在代码中也有注释. 1.查询删除 //查询删除:将查询到的数据进行删除 @Test public void test8() throws UnknownHostEx ...

随机推荐

  1. KubeEdge云边协同设计原理

    云端组件CloudCore与k8s Master的关系 从黑盒角度看,CloudCore就是k8s的一个插件,它是非侵入的来扩展k8s的一部分功能,将原来云上的节点映射到边缘端进行管理,一个Cloud ...

  2. Prometheus联邦

    联邦使得一个 Prometheus 服务器可以从另一个 Prometheus 服务器提取选定的时序. 1. 使用场景 Prometheus 联邦有不同的使用场景.通常,联邦被用来实现可扩展的 Prom ...

  3. [递推]C. 【例题3】数的划分

    C . [ 例 题 3 ] 数 的 划 分 C. [例题3]数的划分 C.[例题3]数的划分 题目描述 将整数 n n n 分成 k k k 份,且每份不能为空,任意两个方案不相同(不考虑顺序). 例 ...

  4. 2020-BUAA OO-面向对象设计与构造-第三单元总结

    Part-1 JML总结 Section-1 理论基础 The Java Modeling Language (JML) is a behavioral interface specification ...

  5. git版本控制之维护旧仓库和往仓库里放货物

    [git bash下 git clone git项目地址:输入这个命令 就会在你运行命令路径下创建一个文件夹,名字就是这个仓库的名字!!这样就完成了把一个别人的旧仓库克隆到自己本地仓库中进行管理维护和 ...

  6. Lucas(卢卡斯)定理

    Lucas(卢卡斯)定理 定义 若 \(p\) 为质数,且\(a\ge b\ge1\),则有: \[C_{a}^{b}\equiv C_{a/p}^{b/p}\cdot C_{a (mod\,p)}^ ...

  7. Java第三章基础学习课后题练习

    小结:final 类型 变量名 = 数值 定义常量使用 变量的原则*** 一定要"先声明,后使用",变量使用前必须先声明.这点就没php好玩:两种键盘输入方式InputStream ...

  8. JavaScript中的new,bind,call,apply的简易实现

    Function原型链中的 apply,call 和 bind 方法是 JavaScript 中相当重要的概念,与 this 关键字密切相关,相当一部分人对它们的理解还是比较浅显,所谓js基础扎实,绕 ...

  9. 1.jsp-out和response输出的区别

    jsp中代码: out.write("out输出1 <br/>"); out.write("out输出2 <br/>"); respon ...

  10. Debian10 安装MyCLI

    1 概述 Debian10安装MyCLI. 环境: Debian10 Python3.7 2 准备环境 2.1 Python 首先确保安装了Python: apt install python3 若是 ...