Lucene字段】的更多相关文章

字段是最低单元或索引过程的起点.它代表其中一个键被用于识别要被索引的值的键值对关系.用于表示一个文件的内容的字段中将具有键为“内容”和值,可以包含文本或文档的数字内容的部分或全部. Lucene可以索引仅文本或仅数字内容.此类表示索引的存储位置,并通常是文件的列表.这些文件被称为索引文件.索引文件通常创建一次,然后用于读操作或可以被删除. 类声明 以下是 org.apache.lucene.document.Field 类的声明: 点击链接查看详细内容…
1.1 IndexWriter: 充当  创造/在索引过程中更新指标的   核心组成部分 1.2 Lucene目录 Directory: 索引的存储位置: 通常是文件的列表: 这些文件被称为索引文件.索引文件通常创建一次,然后用于读操作或可以被删除: 1.3 Lucene文档 Document: 表示一个虚拟   文档与字段: 字段是可包含在物理文档的内容,它的元数据等的对象: Analyzer只能理解文档: 1.4 Lucene字段 Field: 字段是  最低单元  或  索引过程的起点:…
文章来源: http://www.cnblogs.com/guozp/p/8686904.html 一 elasticsearch基础 这里假设各位已经简单了解过elasticsearch,并不对es进入更多的,更深层次的解释,如有必要,会在写文章专门进行es讲解. Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎.无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进.性能最好的.功能最全的搜索引擎库. 但是,Lucene只是一个库.想要使用它,你必…
一.简介 寻找匹配的文档是构建优质搜索体验的关键步骤,但这仅仅是第一步.大多数用户不愿意通过逐页翻阅搜索结果来找到想要的文档.根据一般经验,仅有10%的用户在网页搜索中有意愿继续翻阅第一页以后的搜索结果,仅有1%的用户会翻看到第三页结果.Solr实现了搜索结果排序,最佳的结果位于列表顶端.它会计算每个文档的相关度得分,并从高到低对搜索解决进行排序. 二.默认相似度 solr的相似度得分基于Similarity类.这个类被定义为一个预置字段.Similarity是一个Java类,它根据给定的查询定…
一.ES的存储结构 1.索引 es 中存储数据的基本单位,比如说你现在要在 es 中存储一些订单数据,你就应该在 es 中创建一个索引 order_idx,所有的订单数据就都写到这个索引里面去.看了一些文章有的说索引可以理解为关系型数据库中的数据库,有的说相当于数据库中的表.我的理解是它相对于关系型数据库更为灵活,因为在7.0之后的版本,type被废除,它直接可以自定义,感觉就就是直接添加到属性中,而不是原来的在索引之后添加type,所以在添加数据时就可以更加灵活,所以我认为一个索引可以理解为一…
一.常用术语 索引(Index).类型(Type).文档(Document) 索引Index是含有相同属性的文档集合.索引在ES中是通过一个名字来识别的,且必须是英文字母小写,且不含中划线(-):可类比于 MySQL 中的 database :在 7.0中,由于类型(Type)的移除,我们可以理解为,一个索引就是一张 table. 一个索引中可以定义一个或多个类型Type,文档必须属于一个类型:可类比于 MySQL 中的 table: 文档Document是可以被索引的基本数据单位.文档是Ela…
  1 Elasticsearch¶   在如今数据为王的时代,如何充分高效实现数据检索和分析是数据应用的关键.以电商平台为例,输入一个商品名称,那么就要求系统以最快的速度将所有相关的商品搜索处理.现在的数据大多存储在mysql.Oracle或其他企业自主研发的关系型数据库中,搜索能力已经逐渐跟不上实际需求.例如需要检索"格力空调"这个商品,那么,按照关系型数据库中的逻辑,sql语句大概应该是这样的: select * from table where name like "…
版权声明<UniEAP V4 WorkShop用户手册>的版权归东软集团(大连)有限公司所有.未经东软集团(大连)有限公司的书面准许,不得将本手册的任何部分以任何形式.采用任何手段(电子的或机械的,包括照相复制或录制).或为任何目的,进行复制或扩散.Copyright© 1997-2011 东软集团(大连)有限公司.版权所有,翻制必究. ®是东软软件股份有限公司的注册. 更改履历版本号 更改时间 更改的图表和章节号 状态 更改简要描述 更改申请编号 更改人 批准人1.0 2011-07-08…
http://www.cnblogs.com/LBSer/p/4419052.html 1 问题描述 我们的检索排序服务往往需要结合个性化算法来进行重排序,一般来说分两步:1)进行粗排序,这一过程由检索引擎快速完成:2)重排序,粗排序后将排名靠前的结果发送给个性化服务引擎,由个性化服务引擎进行深度排序.在我们的业务场景下检索引擎除了传递doc列表,还要传业务字段如商家id以及用户位置与该doc的最近距离. 我们的检索引擎基于lucene,而lucene查询的结果只包含docId以及对应的scor…
最近在学习Lucene的过程中遇到了需要多域搜索并排序的问题,在网上找了找,资料不是很多,现在都列出来,又需要的可以自己认真看看,都是从其他网站粘贴过来的,所以比较乱,感谢原创的作者们!     使用MultiFieldQueryParser类即可. 示例代码: package com.lucene.search; import java.io.File; import java.io.IOException; 54com.cn import org.apache.lucene.analysis…
前言:上一章中我们已经实现了索引器的创建,但是我们没有索引文档,本章将会讲解如何生成字段.创建索引文档,给字段加权以及保存文档到索引器目录 luncene5.5.3集合jar包下载地址:http://download.csdn.net/detail/eguid_1/9677589 一.创建索引文档 一个索引目录可以放多个索引文档,每个索引文档由多个索引字段组成,索引字段由要索引的字段名和字段内容以及权重值组成 1.构建索引字段并加权 /** * 创建索引字段 * @param boost * -…
最近需要对公司的产品搜索功能做一步改动,搜索到的结果首先按照是否有库存进行排序,然后再按照销量.由于库存量也是一个整数,如果直接按照库存量进行倒序排序的话,是不符合要求的,Lucene也没有支持我们这种特殊的业务需求,但是可以通过扩展的方式进行改写.   参考文档:http://blog.csdn.net/cctcc/article/details/45672247   public class EmptyStockComparatorSource extends FieldComparator…
在lucene使用过程中,如果要对同一IndexWriter中不同 Document,不同Field中使用不同的analyzer,我们该如何实现呢? 通过对<lucene in action>的阅读,发现是可以解决这一问题的.lucene可以正对整个IndexWriter对象或者每一个document对象或者特定 Field使用不同的分析器. Java代码 复制代码 Analyzer analyzer = new StandardAnalyzer();             IndexWri…
1.方法一,通过Term删除 Term构造中没有.Int类型须要转换成Lucene自带的类BytesRef . /** * 依据商品ID删除索引文件 * @param id */ public void deleteDocument(int id) {; File file = new File("E://index"); IKAnalyzer analyzer = new IKAnalyzer(); IndexWriterConfig indexWriterConfig = new…
目录 1 Field的特性 2 常用的Field类型 3 常用的Field种类使用 3.1 准备环境 3.2 需求分析 3.3 修改代码 3.4 重新建立索引 1 Field的特性 Document(文档)是Field(域)的承载体, 一个Document由多个Field组成. Field由名称和值两部分组成, Field的值是要索引的内容, 也是要搜索的内容. 是否分词(tokenized) 是: 将Field的值进行分词处理, 分词的目的是为了索引. 如: 商品名称, 商品描述. 这些内容用…
前言 当我们输入关键字时希望可以支持筛选多个字段,这样搜索内容的覆盖率就会大一些. 匹配多个字段主要用 MultiFieldQueryParser类. 单一字段搜索 QueryParser parser=new QueryParser("content",analyzer); Query query =parser.parse(kw); 多个字段搜索 String[] fields={"title","content"}; MultiFieldQ…
/** * 搜索域加权 */ Map<String, Float> boosts = new HashMap<>(); boosts.put("title", 1.2f); boosts.put("author", 1.1f); boosts.put("content", 1.0f); /** * 多条件之间的关系 */ BooleanClause.Occur[] flags = {BooleanClause.Occur.…
部分知识点的梳理,参考<lucene实战>及网络资料 1.基本概念 lucence 可以认为分为两大组件: 1)索引组件 a.内容获取:即将原始的内容材料,可以是数据库.网站(爬虫).文本转换为lucence的Docment Docment 为若干个带值得域 b.文档分析:利用分词器对文档进行分析: c.建立索引:根据文档分析的结构建立索引文件: 2)搜索组件 a.建立查询:即将用户请求转换为搜索引擎支持的查询对象格式: b.执行搜索查询:并反馈Document结果集: 2.官方样例代码分析…
第一.按词条搜索 - TermQuery query = new TermQuery(new Term("name","word1"));hits = searcher.search(query); 这样就可以把 field 为 name 的所有包含 word1 的文档检索出来了. 第二."与或"搜索 - BooleanQuery 它实际是一个组合 query 看看下面的代码: query1 = new TermQuery(new Term(&q…
在Lucene 中 BooleanClause用于表示布尔查询子句关系的类,包括:BooleanClause.Occur.MUST表示and,BooleanClause.Occur.MUST_NOT表示not,BooleanClause.Occur.SHOULD表示or. 下面给出个例子 ** * 根据信息分类和关键词进行查询 * @param type,资源的类型,其值为news或product * @param searchKey,搜索的关键字 * @return Hits */ publi…
先介绍下查询与过滤的区别和联系,其实查询(各种Query)和过滤(各种Filter)之间非常相似,可以这样说只要用Query能完成的事,用过滤也都可以完成,它们之间可以相互转换,最大的区别就是使用过滤返回的结果集不带评分操作,而使用Query返回的结果都是带相关性评分的,所以当我们如果有一些跟评分操作没有关系的业务,优先使用Filter操作,将会获取更好的性能,其实这也是Solr里面的q参数跟fq参数的区别. 下面,开始进入正题,在这之前,散仙还是喜欢老生常谈的先来了解一下Lucene里面有关于…
介绍两种全文检索的技术. 1.  lucene+ 中文分词(IK) 关于lucene的原理,在这里可以得到很好的学习. http://www.blogjava.net/zhyiwww/archive/2006/07/07/57122.html 本帖主要贴几个关于lucene的工具类. 索引建立 package com.lpm.fanger.search.base; import java.io.File; import java.io.IOException; import java.text.…
MySQL和Lucene都可以对数据构建索引并通过索引查询数据,一个是关系型数据库,一个是构建搜索引擎(Solr.ElasticSearch)的核心类库.两者的索引(index)有什么区别呢?以前写过一篇<Solr与MySQL查询性能对比>,只是简单的对比了下查询性能,对于内部原理却没有解释,本文简单分析下两者的索引区别. MySQL索引实现 在MySQL中,索引属于存储引擎级别的概念,不同存储引擎对索引的实现方式是不同的,本文主要讨论MyISAM和InnoDB两个存储引擎的索引实现方式. M…
前言:最近翻开了之前老杨(杨中科)的Lucene.Net站内搜索项目的教学视频,于是作为老杨脑残粉的我又跟着复习了一遍,学习途中做了一些笔记也就成了接下来您看到的这篇博文,仅仅是我的个人笔记,大神请呵呵一笑而过.相信做过站内搜索的.Net程序员应该对Lucene.Net不陌生,没做过的也许会问:就不是个查询嘛!为什么不能使用Like模糊查找呢?原因很简单:模糊查询的契合度太低,匹配关键字之间不能含有其他内容.最重要的是它会造成数据库全表扫描,效率低下,即使使用视图,也会造成数据库服务器"亚历山大…
前言:上一篇我们学习了Lucene.Net的基本概念.分词以及实现了一个最简单的搜索引擎,这一篇我们开始开发一个初具规模的站内搜索项目,通过开发站内搜索模块,我们可以方便地在项目中集成站内搜索功能.本次示例Demo麻雀虽小,五脏俱全,值得学习. 一.项目初窥 1.1 项目背景 本项目模拟一个BBS论坛的文章内容管理系统,当用户发帖之后首先将内容存到数据库,然后对内容进行分词后存入索引库.因此,当用户在论坛站内搜索模块进行搜索时,会直接从索引库中进行匹配并获取查询结果.站内搜索界面的效果如下图所示…
首先声明:我对Lucene.Net并不熟悉,但搜索确实是分词的一个重要应用,所以这里还是尝试将两者集成起来,也许对你有一参考. 看到了两个中文分词与Lucene.Net的集成项目:Lucene.Net.Analysis.PanGu和Lucene.Net.Analysis.MMSeg,参考其中的代码实现了最简单的集成:jiebaForLuceneNet.下面给出简单的介绍. 1.JiebaTokenizer 主要的集成点是自定义一个Tokenizer的子类,此时必须要实现它的抽象方法Increme…
文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/. 1.背景 目前跟信息采集相关的一个项目提出了这样的一个需求:中国银行等一些部门和政府关系较好,需要在兴趣点搜索时优先显示他们. 我们的兴趣点查询是使用的Lucene进行分词查询的,这涉及到我们要对我们搜索出来的结果进行一次优先级排序.这里,我和大家一起探讨解决此问题的两种方案. 2.字典创立时对字典文档设置优先级 2.1.通过Document的setBoost来建立文…
文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/. 1.前言 兴趣点查询是指:输入框中输入地名.人名等查询信息后,地图上可以展示出对应信息所在的地址,并且根据需求以不同方式展示出相关地址的属性信息等. 以百度地图为例: 2.原理 所谓兴趣点查询,也就是前台输入描述信息后,后台根据该描述信息在地理数据库中查询到符合查询信息的地理数据和与此对应的属性数据,然后将数据返回给前台,前台进行展示.具体流程图如下: 3.数据采集…
引言 在分析同事开发的客户端搜索项目时注意到,搜索的关键是索引,而提到索引就不得不提Lucene.net,思路就是将需要搜索内容写入索引,客户端自己或局域网其他机器搜索时直接搜索索引,从而查看到你共享的信息. 初探Lucene.net时关注了几个关键类: a):IndexReader 索引读取. b):IndexWriter  创建索引. c):StandardAnalyzer 分词解析,这个应用就比较多了,他解析英文和中文时会拆成单个的字母或者汉字,如果使用PanGuAnalyzer[盘古分析…
一:简单的示例 1.1:生成索引 1.1.1:Field.Store和Field.Index 1.1.2:为数字生成索引 1.1.3:为索引加权 1.1.4:为日期生成索引 1.2:查询 1.2.1:介绍IndexReader 1.3:删除 1.3.1:还原删除的文档 1.3.2:清空回收站时面的数据 1.4:更新 前言:本教程用于Lucene3.5,Maven地址为 <dependency> <groupId>org.apache.lucene</groupId> &…