基于 Lucene 的桌面文件搜索

开源2010年,自己在学习 Lucene 时开发的一款桌面文件搜索工具,这么多年过去了,代码一直静静存放在自己的硬盘上,与其让其沉睡,不如分享出来. 这款工具带有明显的模仿 Everything 的痕迹.事实上这是当时某项课程的作业,而那个时候刚好发现了 Eveything 这款神奇的工具,出于想探究其原理,就着手做了一款与其类似的工具,但是最后的结果却是令人不满意的,因为差距仍然是很大. 就比如 Everything 能够实时监测 NTFS 文件的变化(据说是监测 NTFS 的日志)并自动更新…

Apache Solr采用Java开发、基于Lucene的全文搜索服务器

http://docs.spring.io/spring-data/solr/ 首先介绍一下solr: Apache Solr (读音: SOLer) 是一个开源.高性能.采用Java开发.基于Lucene的全文搜索服务器,文档通过Http利用XML加到一个搜索集合中,查询该集合也是通过 http收到一个XML/JSON响应来实现.Solr 中存储的资源是以 Document 为对象进行存储的.每个文档由一系列的 Field 构成,每个 Field 表示资源的一个属性.Solr 中的每个 Doc…

一种安全云存储方案设计（下）——基于Lucene的云端搜索与密文基础上的模糊查询

一种安全的云存储方案设计(未完整理中) 一篇老文了,现在看看错漏颇多,提到的一些技术已经跟不上了.仅对部分内容重新做了一些修正,增加了一些机器学习的内容,然并卵. 这几年来,云产品层出不穷,但其安全性一直饱受诟病.这篇博文以数据隐私安全为核心,从用户需求着手,讨论云存储的安全实现问题. 因为设计问题较多,我将内容拆分为两篇,最终会得到一套较为安全且高效易用的云存储加密系统的完整设计,该系统具有以下特征:1 使用机器学习的技术进行图片内容标注和文本分类,最终实现图文混合检索功能:2 所有文档数据对…

8 个基于 Lucene 的开源搜索引擎推荐

Lucene是一种功能强大且被广泛使用的搜索引擎,以下列出了8种基于Lucene的搜索引擎,你可以想象它们有多么强大. 1. Apache Solr Solr 是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器.文档通过Http利用XML加到一个搜索集合中.查询该集合也是通过 http收到一个XML/JSON响应来实现.它的主要特性包括:高效.灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提供一套强大Data Schema来定义字段,类型和设置文本分…

Lucene5.5.4入门以及基于Lucene实现博客搜索功能

前言一直以来个人博客的搜索功能很蹩脚,只是自己简单用数据库的like %keyword%来实现的,所以导致经常搜不到想要找的内容,而且高亮显示.摘要截取等也不好实现,所以决定采用Lucene改写博客的搜索功能.先来看一下最终效果: 本文demo地址:https://github.com/liuxianan/lucene-demo (包括本文需要用到的jar包可以从这里面下载) 效果演示地址:http://blog.liuxianan.com/search?kw=%E7%AB%AF%E5%8F%…

基于Solr的空间搜索

如果需要对带经纬度的数据进行检索,比如查找当前所在位置附近1000米的酒店,一种简单的方法就是:获取数据库中的所有酒店数据,按经纬度计算距离,返回距离小于1000米的数据. 这种方式在数据量小的时候比较有效,但是当数据量大的时候,检索的效率是很低的,本文介绍使用Solr的Spatial Query进行空间搜索. 空间搜索原理空间搜索,又名Spatial Search(Spatial Query),基于空间搜索技术,可以做到: 1)对Point(经纬度)和其他的几何图形建索引 2)根据距离排序…

WebGIS中解决使用Lucene进行兴趣点搜索排序的两种思路

文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/. 1.背景目前跟信息采集相关的一个项目提出了这样的一个需求:中国银行等一些部门和政府关系较好,需要在兴趣点搜索时优先显示他们. 我们的兴趣点查询是使用的Lucene进行分词查询的,这涉及到我们要对我们搜索出来的结果进行一次优先级排序.这里,我和大家一起探讨解决此问题的两种方案. 2.字典创立时对字典文档设置优先级 2.1.通过Document的setBoost来建立文…

WebGIS中兴趣点简单查询、基于Lucene分词查询的设计和实现

文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/. 1.前言兴趣点查询是指:输入框中输入地名.人名等查询信息后,地图上可以展示出对应信息所在的地址,并且根据需求以不同方式展示出相关地址的属性信息等. 以百度地图为例: 2.原理所谓兴趣点查询,也就是前台输入描述信息后,后台根据该描述信息在地理数据库中查询到符合查询信息的地理数据和与此对应的属性数据,然后将数据返回给前台,前台进行展示.具体流程图如下: 3.数据采集…

Apache Lucene(全文检索引擎)—搜索

目录返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://github.com/kencery/Lucene_Compass(项目内部有很详细的注释) 1. 搜索思路 a. 当用户在搜索的时候,先在词汇表中查找,得到符合条件的文档编号列表,再根据文档编号去索引库中得到数据(Document). b. Lucene实现搜索的思路 b.1 首先把需要查询的字符串转换为…

基于lucene的案例开发：查询语句创建PackQuery

转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/44656141 http://www.llwjy.com/blogdetail/162e5e70516d7ddfb6df8f77e6b13a2b.html 个人博客站已经上线了,网址 www.llwjy.com ~欢迎各位吐槽 -----------------------------------------------------------------------------…

如何使用 Lucene 做网站高亮搜索功能？

现在基本上所有网站都支持搜索功能,现在搜索的工具有很多,比如Solr.Elasticsearch,它们都是基于 Lucene 实现的,各有各的使用场景.Lucene 比较灵活,中小型项目中使用的比较多,我个人也比较喜欢用. 1.效果展示我前段时间做了一个网站,搜索功能用的就是 Lucene 技术,效果还可以,支持中文高亮显示,支持标题和摘要同时检索,若能检索出,均高亮展示等功能,可以看下效果. 点击查看更清晰可以看出,搜索 “微服务” 之后,可以将相关的资源全部检索出来,不管是标题包含还是摘…

通通WPF随笔（1）——基于lucene.NET让ComboBox拥有强大的下拉联想功能

原文:通通WPF随笔(1)--基于lucene.NET让ComboBox拥有强大的下拉联想功能我一直很疑惑百度.谷哥搜索框的下拉联想功能是怎么实现的?是不断地查询数据库吗?其实到现在我也不知道,他们是怎么实现这么高效的.后来在博客园无意邂逅了“鹿神”,搜索引擎唉,听起来就很高端.于是研究了一段时间后就产生了这个WPF的下拉联想控件. 名称: 简拼: 全拼: 区号: 邮编: 这么强大的功能代码一定会复杂吧?不是的哦,亲~代码只有短短几句哦界面如下:(下拉框后面的数字为查询的延时,可见效率还是很…

C#编写了一个基于Lucene.Net的搜索引擎查询通用工具类：SearchEngineUtil

最近由于工作原因,一直忙于公司的各种项目(大部份都是基于spring cloud的微服务项目),故有一段时间没有与大家分享总结最近的技术研究成果的,其实最近我一直在不断的深入研究学习Spring.Spring Boot.Spring Cloud的各种框架原理,同时也随时关注着.NET CORE的发展情况及最新技术点,也在极客时间上订阅相关的专栏,只要下班有空我都会去认真阅读观看,纸质书箱也买了一些,总之近一年都是在通过:微信技术公众号(.NET.JAVA.算法.前端等技术方向).极客时间.技术书…

基于lucene实现自己的推荐引擎

基于lucene实现自己的推荐引擎推荐常用算法之-基于内容的推荐推荐算法…

SDUT 2141 【TEST】数据结构实验图论一：基于邻接矩阵的广度优先搜索遍历

数据结构实验图论一:基于邻接矩阵的广度优先搜索遍历 Time Limit: 1000MS Memory Limit: 65536KB Submit Statistic Discuss Problem Description 给定一个无向连通图,顶点编号从0到n-1,用广度优先搜索(BFS)遍历,输出从某个顶点出发的遍历序列.(同一个结点的同层邻接点,节点编号小的优先遍历) Input 输入第一行为整数n(0< n <100),表示数据的组数.对于每组数据,第一行是三个整数k,m,t(0<…

Lucene的其他搜索(三)

生成索引: package com.wp.search; import java.nio.file.Paths; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; imp…

OpenCV 学习笔记 06 图像检索以及基于图像描述符的搜索

OpenCV 可以检测图像的主要特征,然后提取这些特征,使其成为图像描述符,这些图像特征可作为图像搜索的数据库:此外可以利用关键点将图像拼接 stitch 起来,组成一个更大的图像.如将各照片组成一个360度的全景照片. 本章节将介绍使用 OpenCV 来检测图像特例,并利用这些特征进行图像匹配和搜索.本章节选取一些图像,检测它们的主要特征,并通过单应性(homography)来检测这些图像是否存在于另一个图像中. 1 特征检测算法特征检测和提取算法有很多,OpenCV 中常用的有如下几种:…

7款基于jquery的动画搜索框

无论是电商网站,还是媒体网,还是个人博客,每个网站都有属于自己个性化的搜索框.今天小编给大家带来7款基于jquery的动画搜索框.每个搜索框都采用了动画效果,一起看下效果图吧. 在线预览源码下载实现的代码. html代码: <h1> CSS Animated Search Boxes</h1> <p> (with occasional help from javascript to assign focus)</p> <div class=&q…

聊聊基于Lucene的搜索引擎核心技术实践

最近公司用到了ES搜索引擎,由于ES是基于Lucene的企业搜索引擎,无意间在“聊聊架构”微信公众号里发现了这篇文章,分享给大家. 请点击链接:聊聊基于Lucene的搜索引擎核心技术实践…

数据结构之图论---基于邻接矩阵的广度优先搜索遍历（输出bfs遍历序列）

数据结构实验图论一:基于邻接矩阵的广度优先搜索遍历 Time Limit: 1000MS Memory limit: 65536K 题目描述给定一个无向连通图,顶点编号从0到n-1,用广度优先搜索(BFS)遍历,输出从某个顶点出发的遍历序列.(同一个结点的同层邻接点,节点编号小的优先遍历) 输入输入第一行为整数n(0< n <100),表示数据的组数. 对于每组数据,第一行是三个整数k,m,t(0<k<100,0<m<(k-1)*k/2,0< t<k),…

基于lucene的案例开发：纵横小说分布式採集

转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/46812645 http://www.llwjy.com/blogdetail/9df464b20cca5405c7ce07e2fb2d768f.html 个人博客站已经上线了,网址 www.llwjy.com ~欢迎各位吐槽~ ----------------------------------------------------------------------------…

Elasticsearch由浅入深（十）搜索引擎：相关度评分 TF&IDF算法、doc value正排索引、解密query、fetch phrase原理、Bouncing Results问题、基于scoll技术滚动搜索大量数据

相关度评分 TF&IDF算法 Elasticsearch的相关度评分(relevance score)算法采用的是term frequency/inverse document frequency算法,简称为TF/IDF算法. 算法介绍: relevance score算法:简单来说就是,就是计算出一个索引中的文本,与搜索文本,它们之间的关联匹配程度. TF/IDF算法:分为两个部分,IF 和IDF Term Frequency(TF): 搜索文本中的各个词条在field文本中出现了多少次,出现…

SDUT-2124_基于邻接矩阵的广度优先搜索遍历

数据结构实验之图论一:基于邻接矩阵的广度优先搜索遍历 Time Limit: 1000 ms Memory Limit: 65536 KiB Problem Description 给定一个无向连通图,顶点编号从0到n-1,用广度优先搜索(BFS)遍历,输出从某个顶点出发的遍历序列.(同一个结点的同层邻接点,节点编号小的优先遍历) Input 输入第一行为整数n(0< n <100),表示数据的组数. 对于每组数据,第一行是三个整数k,m,t(0<k<100,0<m<(…

基于lucene.net 和ICTCLAS2014的站内搜索的实现1

Lucene.net是一个搜索引擎的框架,它自身并不能实现搜索.须要我们自己在当中实现索引的建立,索引的查找.全部这些都是依据它自身提供的API来实现.Lucene.net本身是基于java的,可是经过翻译成.ne版本号的,能够在ASP.net中使用这个来实现站内搜索. 要实现基于汉语的搜索引擎,首先的要实现汉语的分词.眼下网上大部分都是利用已经有的盘古分词来实现的分词系统.可是盘古分词效果不太好.在这里我把最新的ICTCLAS2014嵌入到Lucene.net中.Lucene.net中全部的分…

基于SolrCloud的内容搜索和热点推送

➠更多技术干货请戳:听云博客什么是热点我认为热点有时效性和受众面用户关注从低到高再到低的内容 .有公共热点和分类热点.例如医辽养老全民关注,科技汽车等只有特定的人群关注. 推送的条件搜索频次达到一定数量单位时间内搜索频次上升一定倍数.例如1000一周内达到100万,这样就达到推送标准了. 问题背景自动提示功能是所有搜索应用的标准配置,目的主要有两个 1．提供更好的用户体验,降低输入的复杂度. 2．避免用户输入错误的词,将用户的输入引导向正确的词.弱化同义词处理的重要性需求分析海量…

基于Lucene的文件检索Demo

通过Lucene实现了简单的文件检索功能的Demo.这个Demo支持基于文件内容的检索,支持中文分词和高亮显示. 下面简单的介绍下核心的类 1)索引相关的类 1.FileIndexBuilder ---建立索引 package uap.pub.bap.fs.search.indexer; import java.io.File; import java.io.FileNotFoundException; import java.io.IOException; import java.util.A…