Luke介绍

Luke是一个方便的索引查看和诊断工具,可以访问Lucene构建的索引文件,显示和修改某些索引内容。能提供:

  • 通过document编号或term浏览索引
  • 查看document内容,可复制到剪贴板
  • 对频率最高的term的索引字段提供排名后的浏览
  • 执行搜索语句并浏览搜索结果
  • 分析搜索结果
  • 从索引中选择性删除文件
  • 重建原始文档字段,对其进行编辑,然后重新插入的索引
  • 优化索引
  • 可以打开hadoop文件系统内的索引文件

首次用Luke打开索引文件。Overview里面显示了索引具有的Field数目(以最大的Field为准吧?),还有就是文档的总数和 Term即索引词的总数? 有时一个关键词,对应于多个文档,所以文档数要多于关键字数目。

还显示了索引的版本和索引的格式。 类似于Javaclass的格式做法,在文件头部放了对应的Lucene版本信息吧。。。

右下方的Rank是怎么算出来的?事实上我并没有做什么操作啊。。。

在Document视图,根据doc号,查看具体的文档项,这个功能不错。

通过Document标签可以查看各个Term,点击show All,会进入search页面,显示使用term查询,匹配的所有记录。 这里的term就相当于 查询关键字吧。。。

Luke的查询结果和直接的代码查询结果是一致的。。。

这个功能赞的。通过luke就可以直接研究索引文件里面的内容了。。。。。

在查询标签,选择分词器。。。。点击查询就可以查了。。。 这里选择的是CJK分词器,针对东亚文字的分析器。。。

使用同一个数据源,现在搜到的东西是一样了,呵呵...

在Search标签页里,点击Explain structure,可以看到对查询字符串的分词结果。。。.

(在查询输入框)更新查询字符串之后,需要点击update,才会更新下面的字符。。。

Term对应的各个文档,这里相当于是遍历列表?从头到尾的遍历?也可以show all,这会跳转到Search标签。。也可以点击Show Position显示文档的位置信息。 这里的term frequency是指 term在文档中的出现次数。只有Show all,才会触发Search,并跳转到Search标签。

如下操作序列挺有意思的。 首先点击Next term,转到下一个Term,再点击First Doc,显示该Term的第一个Document。

同个Term对应的文档也是排序的? 这里根据Document之后的数字排列了,至少从截图上看起来是这样的。

Tool菜单栏里有个Check Index选项:

如下是我对当前操作索引的check操作。。。

Segments file=segments_2 numSegments=1 version=FORMAT_HAS_PROX [Lucene 2.4]

1 of 1: name=_0 docCount=153090

compound=true

hasProx=true

numFiles=1

size (MB)=17.396

no deletions

test: open reader.........OK

test: fields, norms.......OK [2 fields]

test: terms, freq, prox...OK [88735 terms; 559179 terms/docs pairs; 563003 tokens]

test: stored fields.......OK [306180 total field count; avg 2 fields per doc]

test: term vectors........OK [0 total vector count; avg 0 term/freq vector fields per doc]

No problems were detected with this index.OverView里面的show top terms,显示的是 对应document数目最多的term。。。

可以通过Luke查看文档评分机制的。。。

numDocs是文档总数,docFreq是匹配这个term的文档总数。 idf是定义在这两个量之上的吧。。。。

queryNorm和fieldNorm是怎么算出来的?

打开索引时,选择载入内存,速度会快很多。。。

luke使用的更多相关文章

  1. 用luke看索引

    Luke是一个用于Lucene搜索引擎的第三方工具,它可以访问现有Lucene的索引,并允许您显示和修改.可以看每篇文档建立了哪些索引,验证有没有成功建立了索引.不然建立了,不能确定有没有成功. 可以 ...

  2. AIM Tech Round (Div. 2) A. Save Luke 水题

    A. Save Luke 题目连接: http://codeforces.com/contest/624/problem/A Description Luke Skywalker got locked ...

  3. codeforces 624A Save Luke(水题)

    A. Save Luke time limit per test 1 second memory limit per test 256 megabytes input standard input o ...

  4. lucene开发序之luke神器

    lucene是一款很优秀的全文检索的开源库,目前最新的版本是lucene4.4,关于lucene的历史背景以及发展状况,在这里笔者就不多介绍了,如果你真心想学习lucene,想必在这之前你已经对此作过 ...

  5. 【Lucene4.8教程之五】Luke

    一.Luke基本内容 1.Luke简介 Luke可用于查看Lucene创建的索引,并对其进行基本操作. 2.创建Luke (1)从Github上下载源文件 https://github.com/tar ...

  6. 2.Lucene3.6.2包介绍,第一个Lucene案例介绍,查看索引信息的工具lukeall介绍,Luke查看的索引库内容,索引查找过程

     1  Lucen目录介绍 2  lucene-core-3.6.2.jar是lucene开发核心jar包 contrib  目录存放,包含一些扩展jar包 3  案例 建立第一个Lucene项目 ...

  7. lucene索引查看工具luke和文本提取工具Tika

    luke可以方便的查看lucene的索引信息,当然也可以查看solr和es中的索引信息(基于lucene实现). 查看索引前,要注意lucene版本的问题,高版本的lucene用低版本的luke工具就 ...

  8. Lucene7.2.1系列(二)luke使用及索引文档的基本操作

    系列文章: Lucene系列(一)快速入门 Lucene系列(二)luke使用及索引文档的基本操作 Lucene系列(三)查询及高亮 luke入门 简介: github地址:https://githu ...

  9. 带 IK 分词器的 Luke 和 搜索应用服务器solr

    首先在网上查了一下: Solr Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口.用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索 ...

随机推荐

  1. 开源一个WEB版本GEF,基于SVG的网页流程图框架

    8月开始断断续续的制作这个web gef,没有任何依赖,完全原生js开发,目前已经完成了雏形,基本上可以在项目里应用了. 下图展示的是demo1的效果,包括拖拽,生成连线,点击生成\取消墙体,整个de ...

  2. WPF - 属性系统 - APaas(AttachedProperty as a service)

    是的,文章的题目看起来很牛,我承认. 附加属性是WPF中的一个非常重要的功能.例如在设置布局的过程中,软件开发人员就常常通过DockPanel的Dock附加属性来设置其各个子元素所处的布局位置.同样地 ...

  3. 新应用上线 Snippet

    Snippet 是一款代码片段收集工具,经过一天三夜的开发终于上线了. 应用地址:snippets.barretlee.com 源码地址:barretlee/snippets 由于使用原生 JS 开发 ...

  4. Web API 入门指南 - 闲话安全

    Web API入门指南有些朋友回复问了些安全方面的问题,安全方面可以写的东西实在太多了,这里尽量围绕着Web API的安全性来展开,介绍一些安全的基本概念,常见安全隐患.相关的防御技巧以及Web AP ...

  5. 到爱尔兰敲代码 / Come, Coding in Ireland

    这是我在都柏林的第四个月,该办的证也都办完了,该安定下来的也安定下来了,所以也简单介绍下到爱尔兰做IT的相关过程和政策. 如果有兴趣在英语环境工作的话,我也可以帮忙推荐或者找找. 去年15年1月正好开 ...

  6. Atitit 外包管理规范attilax总结

    Atitit 外包管理规范attilax总结 1. 常见的外包问题2 1.1. 使用了过时的语言与技术2 1.2. 不易扩展的架构,架构落后2 1.3. 使用了小众语言,框架类库,组件等技术,导致维护 ...

  7. jQuery之常用且重要方法梳理(target,arguments,slice,substring,data,trigger,Attr)-(一)

    1.jquery  data(name) data() 方法向被选元素附加数据,或者从被选元素获取数据. $("#btn1").click(function(){ $(" ...

  8. Java设计模式之策略模式(Strategy)

    前言: 最近一直在学习基于okHttp网络请求,学习的过程中就想起了之前项目中有这么一个需求不同的接口要采用不同的加密方式,比如登录之前要采用RSA加密,登录之后要采用AES加密,当时是采用靠传递一个 ...

  9. 用spm2构建seajs项目的过程

    前言 Javascript模块化规范有CommonJs规范,和主要适用于浏览器环境的AMD规范,以及国内的CMD规范,它是SeaJs遵循的模块化规范.因为以前项目中用SeaJs做过前端的模块管理工具, ...

  10. AngularJs学习笔记(制作留言板)

    原文地址:http://www.jmingzi.cn/?post=13 初学Anjularjs两天了,一边学一边写的留言板,只有一级回复嵌套.演示地址 这里总结一下学习的过程和笔记.另外,看看这篇文章 ...