lucene中facet实现统计分析的思路——本质上和word count计数无异，像splunk这种层层聚合（先filed1统计，再field2统计，最后field3统计）lucene是排序实现

http://stackoverflow.com/questions/185697/the-most-efficient-way-to-find-top-k-frequent-words-in-a-big-word-sequence

http://www.geeksforgeeks.org/find-the-k-most-frequent-words-from-a-file/

http://cs.stackexchange.com/questions/26427/word-frequency-with-ordering-in-on-complexity

思路大致如下：

（1）hash表统计单词出现次数，然后寻找top k出现的，其中top k可以使用n*log(k)的堆思路，或者快排思路，或者是桶排序思路（以前fbt里实现实时的积分排序）；

（2）使用trie来统计单词出现次数，然后便利trie，利用堆排序思路求top k；

（3）使用桶排序，尤其是当你知道最大出现次数时候，类似以前做fbt实现的实时积分排序，然后从大到小取出top k；

（4）用map reduce。

（5）直接排序，然后统计。

如果只是统计top K上面的思路没有任何问题，如果是统计所有的呢？则时间复杂度无疑是n*log(n)，相当于是排序了，和5一样！

lucene里是如何做的呢？

下面三篇文章针对源码分析提到了：

http://wandzk.iteye.com/blog/2187858

http://wandzk.iteye.com/blog/2187975

http://wandzk.iteye.com/blog/2188229

摘录最核心和本质的东西：

例子中有如下docs： 
Doc0: 
  doc.add(new SortedSetDocValuesFacetField("Author", "Bob")); 
  doc.add(new SortedSetDocValuesFacetField("Publish Year", "2010")); 
Doc1: 
  doc.add(new SortedSetDocValuesFacetField("Author", "Lisa")); 
  doc.add(new SortedSetDocValuesFacetField("Publish Year", "2010")); 
Doc2: 
  doc.add(new SortedSetDocValuesFacetField("Author", "Lisa")); 
  doc.add(new SortedSetDocValuesFacetField("Publish Year", "2012")); 
Doc3: 
  doc.add(new SortedSetDocValuesFacetField("Author", "Susan")); 
  doc.add(new SortedSetDocValuesFacetField("Publish Year", "2012")); 
Doc4: 
  doc.add(new SortedSetDocValuesFacetField("Author", "Frank")); 
  doc.add(new SortedSetDocValuesFacetField("Publish Year", "1999")); 

根据上章分析所有的dim（就是filed name，此处为author和publish year）,label（filed value） 将会拼接在一起，而且生成termid, 其term id 与term对应关系如下:

(注lucene存贮字符串是用utf8存储为了便于理解这里还是用字符串显示但是中间分隔符是1f) 

 ----- "Author1fBob"

 ----- "Publish Year1f2010"

 ----- "Author1fLisa"

 ----- "Publish Year1f2012"

 ----- "Author1fSusan"

 ----- "Author1fFrank"

 ----- "Publish Year1f1999"

sortedValues 在排序后就是:  [0, 5, 2, 4, 6, 1, 3] 
同时它会记录每个doc id对应的所有term ids，因为每个filed value都有filed id嘛！

lucene做聚合的本质是：排序！例如要实现聚合：先filed1统计，再field2统计，最后field3统计。那么lucene的处理思路是filed1+2+3所有的字段值都事先排序！（当然，要先设置好filed1,2,3是facet filed，动态设置应该不支持！）

搜索的时候，根据搜索到的所有id，去filed1+2+3字段值排序好的来过滤，例如先过滤所有包含field1的，针对排序做统计！

针对单个filed1聚合的时间复杂度：(字段123所有的数值）*log(字段123所有的数值)；后续的聚合分析，例如再针对filed2聚合，排序来做！

lucene中facet实现统计分析的思路——本质上和word count计数无异，像splunk这种层层聚合（先filed1统计，再field2统计，最后field3统计）lucene是排序实现的更多相关文章

Solr中Facet用法和Group用法
Group分组划分结果,返回的是分组结果: Facet分组统计,侧重统计,返回的是分组后的数量: 一.Group用法: //组查询基础配置params.set(GroupParams.GROUP, & ...
详细分析 Java 中实现多线程的方法有几种?(从本质上出发)
详细分析 Java 中实现多线程的方法有几种?(从本质上出发) 正确的说法(从本质上出发) 实现多线程的官方正确方法: 2 种. Oracle 官网的文档说明方法小结方法一: 实现 Runnabl ...
【Lucene3.6.2入门系列】第03节_简述Lucene中常见的搜索功能
package com.jadyer.lucene; import java.io.File; import java.io.IOException; import java.text.SimpleD ...
Lucene中的 Query对象
"Lucene中的 Query对象": 检索前,需要对检索字符串进行分析,这是由queryparser来完成的.为了保证查询的正确性,最好用创建索引文件时同样的分析器. quer ...
lucene 中关于Store.YES 关于Store.NO的解释
总算搞明白 lucene 中关于Store.YES 关于Store.NO的解释了一直对Lucene Store.YES不太理解,网上多数的说法是存储字段,NO为不存储. 这样的解释有点郁闷:字面意 ...
solr中facet及facet.pivot理解（整合两篇文章保留参考）
Facet['fæsɪt]很难翻译,只能靠例子来理解了.Solr作者Yonik Seeley也给出更为直接的名字:导航(Guided Navigation).参数化查询(Paramatic Searc ...
solr中facet及facet.pivot理解
Facet['fæsɪt]很难翻译,只能靠例子来理解了.Solr作者Yonik Seeley也给出更为直接的名字:导航(Guided Navigation).参数化查询(Paramatic Searc ...
Lucene 中自定义排序的实现
使用Lucene来搜索内容,搜索结果的显示顺序当然是比较重要的.Lucene中Build-in的几个排序定义在大多数情况下是不适合我们使用的.要适合自己的应用程序的场景,就只能自定义排序功能,本节我们 ...
Lucene 中的Tokenizer, TokenFilter学习
lucene中的TokenStream,TokenFilter之间关系 TokenStream是一个能够在被调用后产生语汇单元序列的类,其中有两个类型:Tokenizer和TokenFilte ...

随机推荐

线程锁、threading.local（flask源码中用的到）、线程池、生产者消费者模型
一.线程锁线程安全,多线程操作时,内部会让所有线程排队处理.如:list/dict/Queue 线程不安全 + 人(锁) => 排队处理 1.RLock/Lock:一次放一个 a.创建10个线 ...
ThreadLocal(四) : FastThreadLocal原理
一.ThreadLocal的原理以及存在的问题 a. 每个线程内部维护了一个ThreadLocal.ThreadLocalMap类型的变量 b. ThreadLocalMap 的 key 为 Thre ...
Java输入输出重定向代码
try { BufferedInputStream in = new BufferedInputStream(new FileInputStream("input.txt")) ...
django admin基础
通过onetoonefiled扩展得到的不会在添加user是自动添加原因是onetoonefiled只是一个model 可以they are just Django models that happe ...
小程序学习第二天认识框架WXML
一.初级小程序HelloWorld 心得: (1)progect.config.json :app的个性化设置 (2)一个小程序至少包括两个文件 (2.1)app.json 小程序全局配置 ...
011_Eclipse中使用HDFSFileSystemAPI事例介绍
需求 1．文件操作 1)上传本地文件到HDFS 2)读取文件 3)在hadoopfs中新建文件,并写入 4)重命名文件 5)删除hadoopfs上的文件 2．目录操作 1)读取某个目录下的所有文件 2 ...
Hearbeat + Nginx 安装配置
Hearbeat + Nginx 安装配置实验环境两台主机:Linux Centos 6.5 32位主服务端:Hearbeat + Nginx eth0:192.168.1.160(公网) e ...
request模块一基础部分
一.HTTP请求通过requests发送网络请求,方法有get post put delete head options import requests r=requests.get(" ...
4.2《深入理解计算机系统》笔记（五）并发、多进程和多线程【Final】
该书中第11章是写web服务器的搭建,无奈对web还比较陌生.还没有搞明白. 这些所谓的并发,其实都是操作系统做的事情,比如,多进程是操作系统fork函数实现的.I/O多路复用需要内核挂起进程.多线程 ...
同类型元素，只有一个被选中js
<div class="wrap-box flex_row"> <div class="wrap-block"> <div cla ...

lucene中facet实现统计分析的思路——本质上和word count计数无异，像splunk这种层层聚合（先filed1统计，再field2统计，最后field3统计）lucene是排序实现

lucene中facet实现统计分析的思路——本质上和word count计数无异，像splunk这种层层聚合（先filed1统计，再field2统计，最后field3统计）lucene是排序实现的更多相关文章

随机推荐

热门专题