一.基础内容 0.官方文档说明 (1)org.apache.lucene.index provides two primary classes: IndexWriter, which creates and adds documents to indices; and IndexReader, which accesses the data in the index. (2)涉及的两个主要包有: org.apache.lucene.index:Code to maintain and acces…
1.关于默认搜索域 If you are using the Lucene query parser, queries that don't specify a field name will use the defaultSearchField. The DisMax and Extended DisMax query parsers do not use this value.  Use of the defaultSearchField element is deprecated in S…
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程. Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的过程. 本文详细解读了Apache Lucene - Index File Formats(http://lucene.apache.or…
  spark可以通过交互式命令行及编程两种方式来进行调用: 前者支持scala与python 后者支持scala.python与java 本文参考https://spark.apache.org/docs/latest/quick-start.html,可作快速入门 再详细资料及用法请见https://spark.apache.org/docs/latest/programming-guide.html   建议学习路径: 1.安装单机环境:http://blog.csdn.net/jedia…
参考官方文档:http://gora.apache.org/current/tutorial.html 项目代码见:https://code.csdn.net/jediael_lu/mygorademo 另环境准备见: http://blog.csdn.net/jediael_lu/article/details/43272521 当着数据已通过之前的示例存储在hbase中,数据如下: \x00\x00\x00\x00\x00\x00\x00D column=common:ip, timesta…
java中用于解释json的主流工具有org.json.json-lib与gson,本文介绍org.json的应用. 官方文档: http://www.json.org/java/ http://developer.android.com/reference/org/json/package-summary.html 1.主要类 Classes JSONArray A dense indexed sequence of values. JSONObject A modifiable set of…
1.关键类 Lucene的搜索过程中涉及的主要类有以下几个: (1)IndexSearcher:执行search()方法的类 (2)IndexReader:对索引文件进行读操作,并为IndexSearcher提供搜索接口 (3)Query及其子类:查询对象,search()方法的重要参数 (4)QueryParser:根据用户输入的搜索词汇生成Query对象. (5)TopDocs:search()方法返回的前n个文档 (6)ScoreDocs:提供TopDocs中搜索结果的访问接口 2.搜索的…
Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现.分类.聚类等.Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能. 一.Mahout安装.配置 1.下载并解压Mahout http://archive.apache.org/dist/mahout/ tar -zxvf mahout-distribution-0.9.tar.…
一.向Solr提交索引的方式 1.使用post.jar进行索引 (1)创建文档xml文件 <add> <doc> <field name="id">test4</field> <field name="title">testagain</field> <field name="url">http://www.163.com</field> </d…
一.Luke基本内容 1.Luke简介 Luke可用于查看Lucene创建的索引,并对其进行基本操作. 2.创建Luke (1)从Github上下载源文件 https://github.com/tarzanek/luke (2)解压文件后,打开DOS窗口,进入Luke源代码所有位置,运行ant即可.此时,在build文件夹中会生成一个lukeall.jar的文件. 版权声明:本文为博主原创文章,未经博主允许不得转载.…