如何大幅优化solr的查询性能(转)

提升软件性能，通常喜欢去调整各种启动参数，这没有多大意义，小伎俩。性能优化要从架构和策略入手，才有可能得到较大的收益

Solr的查询是基于Field的，以Field为基本单元，例如一个文章站要索引

classArticle
{
String title;
String content;
String tags;
}

查询参数: q=title:big && content:six

Solr会顺序执行两次 field查询，这个开销非常大。实际例子：50万条记录，一次在6，7个字段上检索，24 core的服务器也需要10-20ms

如果把title和content 合并，那只需要查询一次，性能可以提升50%

在生成索引xml的时候，把title和content填入同一个字段，就能达到这种效果，但是产生新的问问题

无法对title和content的查询分别指定权重了，一般来说，title的权重要高于content

Solr给出一种解决方法:在schema中使用 copyField

上述的Article Schema可以写成如下这种格式，就能达到效果

<fieldname="title"type="text_general"indexed="true"stored="true"/>
<fieldname="content"type="text_general"indexed="true"stored="true"/>
<fieldname="tags"type="text_general"indexed="true"stored="true"/>
<fieldname="text"type="text_general"indexed="true"stored="false"multiValued="true"/>
<copyFieldsource="title"dest="text"/>
<copyFieldsource="content"dest="text"/>
<copyFieldsource="tags"dest="text"/>

这种schema定义方式，既可以对单个field指定查询权重，也可以在泛查询的时候提升性能，同时生成索引数据的时候不需要多写任何代码

如何大幅优化solr的查询性能(转)的更多相关文章

[转] 利用SET STATISTICS IO和SET STATISTICS TIME 优化SQL Server查询性能
首先需要说明的是这篇文章的内容并不是如何调节SQL Server查询性能的(有关这方面的内容能写一本书),而是如何在SQL Server查询性能的调节中利用SET STATISTICS IO和SET ...
利用SET STATISTICS IO和SET STATISTICS TIME 优化SQL Server查询性能
首先需要说明的是这篇文章的内容并不是如何调节SQL Server查询性能的(有关这方面的内容能写一本书),而是如何在SQL Server查询性能的调节中利用SET STATISTICS IO和SET ...
Mysql优化系列之查询性能优化前篇2
接前一篇,这一篇主要总结下几个经常要用的命令命令一:explain+sql mysql> explain select * from servers; +----+-------------+ ...
Mysql优化系列之查询性能优化前篇3（必须知道的几个事实）
事实一:临时表没有任何索引最常见的临时表莫过于在from子句中写子查询,遇到这种情况,Mysql会先将其查询结果放到一张临时表中, 然后将这个临时表当做普通表对待事实二:执行计划优化大多数的sq ...
Mysql优化系列之查询性能优化前篇1
前言这是优化系列的最后一篇的第1小篇,我们其实可以直接从sql怎么写讲起,why not?但是我还是决定花2个篇幅问一些问题,带着几个问题循序渐进的往下走. 一个sql语句是怎么被执行的? sql ...
JuiceFS V1.0 RC1 发布，大幅优化 dump/load 命令性能，深度用户不容错过
各位社区的伙伴, JuiceFS v1.0 RC1 今天正式发布了!这个版本中,最值得关注的是对元数据迁移备份工具 dump/load 的优化. 这个优化需求来自于某个社区重度用户,这个用户在将亿级数 ...
高性能MySQL笔记第6章查询性能优化
6.1 为什么查询速度会慢查询的生命周期大致可按照顺序来看:从客户端,到服务器,然后在服务器上进行解析,生成执行计划,执行,并返回结果给客户端.其中“执行”可以认为是整个生命周期中最重要的阶段. ...
mysql笔记03 查询性能优化
查询性能优化 1. 为什么查询速度会慢? 1). 如果把查询看作是一个任务,那么它由一系列子任务组成,每个子任务都会消耗一定的时间.如果要优化查询,实际上要优化其子任务,要么消除其中一些子任务,要么减 ...
MySQL优化技巧之五（mysql查询性能优化)
对于高性能数据库操作,只靠设计最优的库表结构.建立最好的索引是不够的,还需要合理的设计查询.如果查询写得很糟糕,即使库表结构再合理.索引再合适,也无法实现高性能.查询优化.索引优化.库表结构优化需要齐 ...

随机推荐

Java 持久化之 -- IO 全面整理（看了绝不后悔）
目录: 一.java io 概述什么是IO? IO包括输入流和输出流,输入流指的是将数据以字符或者字节形式读取到内存分为字符输入流和字符输入流输入流指的是从内存读取到外界 ,分为字符输入流和字节 ...
webview知多少？
原生页面不会用到webview,html页面内嵌APP,才会用到webview. 一.什么是webview?WebView是手机中内置了一款高性能 webkit 内核浏览器,在 SDK 中封装的一个组 ...
分类器评估方法：ROC曲线
注:本文是人工智能研究网的学习笔记 ROC是什么二元分类器(binary classifier)的分类结果 ROC空间最好的预测模型在左上角,代表100%的灵敏度和0%的虚警率,被称为完美分类器. ...
JZYZOJ 2042 多项式逆元 NTT 多项式
http://172.20.6.3/Problem_Show.asp?id=2042 题意:求一个次数界为n的多项式在模P并模x^m的意义下的逆元.P=7*17*2^23+1. 多项式逆元的含义以及求 ...
Git 忽略某个目录中的文件，同时保留这个目录
类似的一个问题是项目根目录下可能有 logs 一类的目录, 我们希望他人把仓库 clone 下来的时候能够已经携带了这个目录, 但又不希望让这个目录中的日志文件进版本库. 之前看到一些项目用了一种比较 ...
Git 修复 bug 切换分支时，如何保存修改过的代码（即如何保存现场）？
工作除了开发最新的版本之外还要对原来的版本做例行的维护,修修补补.于是有了在两个分支之间游走切换的问题,最新改版的代码在分支 new 上,旧版本的代码在分支 old 上,我在 new 上开发了一半,忽 ...
RDMA over TCP的协议栈工作过程浅析
http://blog.chinaunix.net/uid-140205-id-2849342.html
基于设备树的TQ2440的中断（2）
下面以按键中断为例看看基于设备数的中断的用法: 设备树: tq2440_key { compatible = "tq2440,key"; interrupt-parent = &l ...
AutoMapper在MVC中的运用03-字典集合、枚举映射,自定义解析器
本篇AutoMapper使用场景: ※ 源字典集合转换成目标字典集合 ※ 枚举映射 ※ 自定义解析器 ※ 源中的复杂属性和Get...方法转换成目标属性源字典集合转换成目标字典集合 □ Domain ...
Android Initializing a Build Environment
from://https://source.android.com/source/initializing.html#next-download-the-source Initializing a B ...

如何大幅优化solr的查询性能(转)

如何大幅优化solr的查询性能(转)的更多相关文章

随机推荐

热门专题