solr学习四（关于性能的杂知识）

将所有只用于搜索的，而不需要作为结果的field（特别是一些比较大的field）的stored设置为false
比如我们在solr中index了一篇word，对于这篇word，我们只需要这篇文章的下载地址，而不需要显示word的内容，并且这篇word又比较大。那么就不要stored了。（再仔细一点：我们已经用分析器将这篇word的内容索引了，能对其进行全文搜索了，那就不需要再存储这篇文章了）

多值Field（Multi-valued Fields）
比如一本书有多个作者，怎么办呢？
一种方法是，添加多个同一key，不同value的Field

Document doc = new Document();
    for (int i = 0; i < authors.length; i++) {
      doc.add(new Field(“author”, authors[i],
                        Field.Store.YES,
                        Field.Index.ANALYZED));
    }

还一种方法是在一个field字段中存一个数组：
Collection<SolrInputDocument> docs = new ArrayList<SolrInputDocument>();
docs.add(doc1);
docs.add( doc2 );
server.add(docs);

对数字、日期、时间等进行索引
索引数字

有两种场景：

1.数字嵌入在Text中，例如“Be sure to include Form 1099 in your tax return”，而你想要搜索1099这个词。此时需要选择不分解数字的Analyzer，例如WhitespaceAnalyzer或者StandardAnalyzer。而SimpleAnalyzer和StopAnalyzer会忽略数字，无法通过1099检出。

2.数字式单独的Field，2.9之后，Lucene支持了数字类型，使用NumericField即可：doc.add(new NumericField(“price”).setDoubleValue(19.99));此时，对数字Field使用字典树存储，

可向document中添加一样的NumericField数值，在NumericRangeQuery、NumericRangeFilter中以or的方式支持，但是排序中不支持。因此如果要排序，必须添加唯一的NumericField。

precisionStep控制了扫描精度，越小越精确但速度越慢。

索引日期和时间

方法是：将日期转化为时间戳（长整数），然后按照NumericField进行处理。

或者，如果不需要精确到毫秒，可以转化成秒处理

doc.add(new NumericField(“day”) .setIntValue((int) (new Date().getTime()/24/3600)));

甚至对某一天进行索引而不是具体时间。

Calendar cal = Calendar.getInstance();
    cal.setTime(date);
    doc.add(new NumericField(“dayOfMonth”)
            .setIntValue(cal.get(Calendar.DAY_OF_MONTH)));

优化索引
索引优化可以提升搜索速度，而非索引速度。它指的是将小索引文件合并成几个。

IndexWriter提供了几个优化方法：

optimize()：将索引合并为一个段，完成前不会返回。但是太耗费资源。

optimize(int maxNumSegments)：部分优化，优化到最多maxNumSegments个段？是优化于上述极端情况的这种，例如5个。

optimize(boolean doWait)：通optimize()，但是它将立即返回。

optimize(int maxNumSegments, boolean doWait)：同optimize(int maxNumSegments)，但是将立即返回。

另外：在优化中会耗费大量的额外空间。即旧的废弃段直到IndexWriter.commit()之后才能被移除。

理解索引过程
总体来说，索引过程为：

1.提取摘要：从原文提取，并创建Document和Field对象。Tika提供了PDF、Word等非文本的文本提取。

2.分析：Analysis，首先对Document的Field进行分解，产生token流，然后经过一系列Filter（如小写化）等。

3.建立索引：通过IndexWriter的addDocument写入到索引中。Lunece使用了反向索引，即“那个Document包含单词X”，而不是“Document包含哪些Word”

索引文件组成

为了保证效率，每个索引由若干segments组成：

_X.cfs 每个segments由若干个cfs组成，X为0,1,2….如果开启了useCompoundFile，则只有一个.cfs文件。

segments_<N>：记载每个分区对应的cfs文件。

每个一段时间后，在调用IndexWriter时，会自动合并这些segment

solr学习四（关于性能的杂知识）的更多相关文章

Solr学习之二-Solr基础知识
一基本说明简单来说Solr是基于Lucene的高性能的,开源的Java企业搜索服务器.Solr可以看作一个Web app,运行在tomcat或Jetty这类HTTP服务器上, 底层是一个基于Luc ...
Tomcat学习四步走：内核、集群、参数及性能
主题简介: 内核实现原理分布式集群生产部署关键参数性能监控和分析一.内核实现原理 HTTP Web服务器与浏览器之间以HTTP协议通信,浏览器要访问服务器即向服务器发送HTTP请求报文. 如图 ...
Solr学习总结（六）SolrNet的高级用法（复杂查询，分页，高亮，Facet查询）
上一篇,讲到了SolrNet的基本用法及CURD,这个算是SolrNet 的入门知识介绍吧,昨天写完之后,有朋友评论说,这些感觉都被写烂了.没错,这些基本的用法,在网上百度,资料肯定一大堆,有一些写的 ...
超详细的Java面试题总结（四）之JavaWeb基础知识总结
系列文章请查看: 超详细的Java面试题总结(一)之Java基础知识篇超详细的Java面试题总结(二)之Java基础知识篇超详细的Java面试题总结(三)之Java集合篇常见问题超详细的Java ...
Solr学习笔记之1、环境搭建
Solr学习笔记之1.环境搭建一.下载相关安装包 1.JDK 2.Tomcat 3.Solr 此文所用软件包版本如下: 操作系统:Win7 64位 JDK:jdk-7u25-windows-i586 ...
『高性能模型』Roofline Model与深度学习模型的性能分析
转载自知乎:Roofline Model与深度学习模型的性能分析在真实世界中,任何模型(例如 VGG / MobileNet 等)都必须依赖于具体的计算平台(例如CPU / GPU / ASIC 等 ...
JVM学习03：性能监控工具
JVM学习03:性能监控工具写在前面:本系列分享主要参考资料是周志明老师的<深入理解Java虚拟机>第二版. 性能监控工具知识要点Xmind梳理案例分析案例分析1-JPS 案例分 ...
Solr学习之四-Solr配置说明之二
上一篇的配置说明主要是说明solrconfig.xml配置中的查询部分配置,在solr的功能中另外一个重要的功能是建索引,这是提供快速查询的核心. 按照Solr学习之一所述关于搜索引擎的原理中说明了建 ...
（转）SpringMVC学习(四)——Spring、MyBatis和SpringMVC的整合
http://blog.csdn.net/yerenyuan_pku/article/details/72231763 之前我整合了Spring和MyBatis这两个框架,不会的可以看我的文章MyBa ...

随机推荐

20170617xlVBA调查问卷基础数据分类计数
Public Sub GatherDataPicker() Application.ScreenUpdating = False Application.DisplayAlerts = False A ...
Filters: before, after, around, 常用到before_action，执行顺序是从外到内。
Filters是继承的,所以可以在ApplicationControlooer中设置filters. 如果有多个过滤,它们执行的顺序先父类,然后往下推倒到子类同一个类,按照代码上下顺序执行.
12月13日什么是help_method，session的简单理解, find_by等finder method
helper_method Declare a controller method as a helper. For example, helper_method :link_to def link_ ...
[洛谷P1507]NASA的食物计划以及对背包问题的整理
P1507 NASA的食物计划题面每个物品有三个属性,"所含卡路里":价值\(v\),"体积":限制1\(m_1\),以及"质量":限制 ...
负载均衡中使用 Redis 实现共享 Session
最近在研究Web架构方面的知识,包括数据库读写分离,Redis缓存和队列,集群,以及负载均衡(LVS),今天就来先学习下我在负载均衡中遇到的问题,那就是session共享的问题. 一.负载均衡负载均 ...
从0开始接触html--第一天学习内容总结
第一天总结: h1-h6 p 段落 hr br 有序 ol li 无序 ul li 定义列表 dl dt dd 块级元素:独占一行,h1-h6 p hr div 行内元素:共占一行, em和i st ...
ASCII码表(0-127 ) C中的转义字符
所有的ASCII码都可以用“\”加数字(一般是8进制数字)来表示.而C中定义了一些字母前加"\"来表示常见的那些不能显示的ASCII字符,如\0,\t,\n等,就称为转义字符,因为 ...
CAS-登出配置
该图当一个web 浏览器登录到应用服务器时,应用服务器(application)会监测用户的session,如果没有session,则应用服务器会把url跳转到CAS server上.要求用户登录 ...
learning uboot how to enable watchdog in qca4531 cpu
find cpu datasheet , watchdog relate registers: 0x18060008 watchdong timer control 0x1806000c watchd ...
bzoj1092
题解: 按照时间枚举一下那些点有水然后用物理方案来计算代码: #include<bits/stdc++.h> ,M=; int n,m,x,y,z,i,A,B,T,g[N],v[M], ...

solr学习四（关于性能的杂知识）

solr学习四（关于性能的杂知识）的更多相关文章

随机推荐

热门专题