lucene中facet实现统计分析的思路——本质上和word count计数无异，像splunk这种层层聚合（先filed1统计，再field2统计，最后field3统计）lucene是排序实现

http://stackoverflow.com/questions/185697/the-most-efficient-way-to-find-top-k-frequent-words-in-a-big-word-sequence

http://www.geeksforgeeks.org/find-the-k-most-frequent-words-from-a-file/

http://cs.stackexchange.com/questions/26427/word-frequency-with-ordering-in-on-complexity

思路大致如下：

（1）hash表统计单词出现次数，然后寻找top k出现的，其中top k可以使用n*log(k)的堆思路，或者快排思路，或者是桶排序思路（以前fbt里实现实时的积分排序）；

（2）使用trie来统计单词出现次数，然后便利trie，利用堆排序思路求top k；

（3）使用桶排序，尤其是当你知道最大出现次数时候，类似以前做fbt实现的实时积分排序，然后从大到小取出top k；

（4）用map reduce。

（5）直接排序，然后统计。

如果只是统计top K上面的思路没有任何问题，如果是统计所有的呢？则时间复杂度无疑是n*log(n)，相当于是排序了，和5一样！

lucene里是如何做的呢？

下面三篇文章针对源码分析提到了：

http://wandzk.iteye.com/blog/2187858

http://wandzk.iteye.com/blog/2187975

http://wandzk.iteye.com/blog/2188229

摘录最核心和本质的东西：

例子中有如下docs： 
Doc0: 
  doc.add(new SortedSetDocValuesFacetField("Author", "Bob")); 
  doc.add(new SortedSetDocValuesFacetField("Publish Year", "2010")); 
Doc1: 
  doc.add(new SortedSetDocValuesFacetField("Author", "Lisa")); 
  doc.add(new SortedSetDocValuesFacetField("Publish Year", "2010")); 
Doc2: 
  doc.add(new SortedSetDocValuesFacetField("Author", "Lisa")); 
  doc.add(new SortedSetDocValuesFacetField("Publish Year", "2012")); 
Doc3: 
  doc.add(new SortedSetDocValuesFacetField("Author", "Susan")); 
  doc.add(new SortedSetDocValuesFacetField("Publish Year", "2012")); 
Doc4: 
  doc.add(new SortedSetDocValuesFacetField("Author", "Frank")); 
  doc.add(new SortedSetDocValuesFacetField("Publish Year", "1999")); 

根据上章分析所有的dim（就是filed name，此处为author和publish year）,label（filed value） 将会拼接在一起，而且生成termid, 其term id 与term对应关系如下:

(注lucene存贮字符串是用utf8存储为了便于理解这里还是用字符串显示但是中间分隔符是1f) 

 ----- "Author1fBob"

 ----- "Publish Year1f2010"

 ----- "Author1fLisa"

 ----- "Publish Year1f2012"

 ----- "Author1fSusan"

 ----- "Author1fFrank"

 ----- "Publish Year1f1999"

sortedValues 在排序后就是:  [0, 5, 2, 4, 6, 1, 3] 
同时它会记录每个doc id对应的所有term ids，因为每个filed value都有filed id嘛！

lucene做聚合的本质是：排序！例如要实现聚合：先filed1统计，再field2统计，最后field3统计。那么lucene的处理思路是filed1+2+3所有的字段值都事先排序！（当然，要先设置好filed1,2,3是facet filed，动态设置应该不支持！）

搜索的时候，根据搜索到的所有id，去filed1+2+3字段值排序好的来过滤，例如先过滤所有包含field1的，针对排序做统计！

针对单个filed1聚合的时间复杂度：(字段123所有的数值）*log(字段123所有的数值)；后续的聚合分析，例如再针对filed2聚合，排序来做！

lucene中facet实现统计分析的思路——本质上和word count计数无异，像splunk这种层层聚合（先filed1统计，再field2统计，最后field3统计）lucene是排序实现的更多相关文章

Solr中Facet用法和Group用法
Group分组划分结果,返回的是分组结果: Facet分组统计,侧重统计,返回的是分组后的数量: 一.Group用法: //组查询基础配置params.set(GroupParams.GROUP, & ...
详细分析 Java 中实现多线程的方法有几种?(从本质上出发)
详细分析 Java 中实现多线程的方法有几种?(从本质上出发) 正确的说法(从本质上出发) 实现多线程的官方正确方法: 2 种. Oracle 官网的文档说明方法小结方法一: 实现 Runnabl ...
【Lucene3.6.2入门系列】第03节_简述Lucene中常见的搜索功能
package com.jadyer.lucene; import java.io.File; import java.io.IOException; import java.text.SimpleD ...
Lucene中的 Query对象
"Lucene中的 Query对象": 检索前,需要对检索字符串进行分析,这是由queryparser来完成的.为了保证查询的正确性,最好用创建索引文件时同样的分析器. quer ...
lucene 中关于Store.YES 关于Store.NO的解释
总算搞明白 lucene 中关于Store.YES 关于Store.NO的解释了一直对Lucene Store.YES不太理解,网上多数的说法是存储字段,NO为不存储. 这样的解释有点郁闷:字面意 ...
solr中facet及facet.pivot理解（整合两篇文章保留参考）
Facet['fæsɪt]很难翻译,只能靠例子来理解了.Solr作者Yonik Seeley也给出更为直接的名字:导航(Guided Navigation).参数化查询(Paramatic Searc ...
solr中facet及facet.pivot理解
Facet['fæsɪt]很难翻译,只能靠例子来理解了.Solr作者Yonik Seeley也给出更为直接的名字:导航(Guided Navigation).参数化查询(Paramatic Searc ...
Lucene 中自定义排序的实现
使用Lucene来搜索内容,搜索结果的显示顺序当然是比较重要的.Lucene中Build-in的几个排序定义在大多数情况下是不适合我们使用的.要适合自己的应用程序的场景,就只能自定义排序功能,本节我们 ...
Lucene 中的Tokenizer, TokenFilter学习
lucene中的TokenStream,TokenFilter之间关系 TokenStream是一个能够在被调用后产生语汇单元序列的类,其中有两个类型:Tokenizer和TokenFilte ...

随机推荐

rar 7z文件打包
把D:\file目录下的所有东西打包为file.rar放到D:\目录下, Rar.exe是放在c盘根目录下 >>C:\Rar.exe a -k -r -s -m1 D:\file.rar ...
C#如何打印RichTextBox控件的内容
本任务的内容摘要创建 RichTextBoxPrintCtrl 控件测试控件参考概要本分步指南介绍了如何打印 RichTextBox 控件的内容.RichTextBox 控件没有提供任 ...
PictureBox 双缓冲防止闪屏
Bitmap bm = new Bitmap(this.pbTraffic.Image); BufferedGraphicsContext current = BufferedGraphicsMana ...
乐思启慧教学系列—Bootstrap布局规则
1外层变化,内层相应变化规则 col-md-6 col-md-4 外层6变成12,扩大了2倍,里面就得缩小2倍(除以2), 只有这样才能保持外部变化了,内部依然对齐 col-md-12 col-md- ...
iOS 11 Xcode9开发新特性学习 (新方法篇)
1 . 引入github (1) 在Xcode 9 中,引入了 gitHub,新源代码管理导航器可以展示branch分支和 tag标签. (2)点进去,就可以看指定一次commit了哪些东西 2 ...
Raspberry Pi开发之旅-WIFI遥控小车
一.简单介绍树莓派的GPIO口上图是树莓派2代的接口(不同型号接口会有差异),我们就以此为例来说下这些接口. 1.GPIO介绍 GPIO 英文全称是:General-purpose input/ou ...
MySQL运维问题集锦
1.莫名的慢查询问题.解决思路:http://hidba.org/?spm=5176.153233.793262.6.d75LDx&p=1119
HTML5_CSS3实现iOS Path菜单
在线演示本地下载
blast+简介
blast+有三大工具类型: 功能 search database filter 命令 blastn, blastp, blastx, tblastx, tblastn, psiblast, rpsb ...
INSPIRED启示录读书笔记 - 第41章产品经理的反省清单
十大问题 1.产品能吸引目标消费者的关注吗? 2.产品的设计是否人性化,是否易于操作? 3.产品能在竞争中取胜吗?即使是面对未来风云变化的市场,依旧有取胜的把握吗? 4.我了解目标用户吗?产品(不是理 ...

lucene中facet实现统计分析的思路——本质上和word count计数无异，像splunk这种层层聚合（先filed1统计，再field2统计，最后field3统计）lucene是排序实现

lucene中facet实现统计分析的思路——本质上和word count计数无异，像splunk这种层层聚合（先filed1统计，再field2统计，最后field3统计）lucene是排序实现的更多相关文章

随机推荐

热门专题