Solr分词搜索结果不准确

Solr的schema.xml默认配置分词后条件取 OR 例如:大众1.6T 系统会自动分词为 [大众] [1.6T](ps:不同分词器分词效果不同) 会搜索出包含 [大众 OR 1.6T] 的结果. 想要让Solr搜索默认为 [大众 AND 1.6T] 则只需要修改solr\collection1\conf\schema.xml文件solrQueryParser节点打开schema.xml文件,搜索<solrQueryParser defaultOperator="OR…

linux环境下安装sphinx中文支持分词搜索(coreseek+mmseg)

linux环境下安装sphinx中文支持分词搜索(coreseek+mmseg) 2013-11-10 16:51:14 分类: 系统运维为什么要写这篇文章? 答:通过常规的三大步(./configure,make,make install)的编译安装mmseg时,总是出现找不到src/Makefile.in文件的错误(config.status: error: cannot find input file: src/Makefile.in).即便是依照官方教程所说的先安装好依赖软件(yum…

ECSHOP模糊分词搜索和商品列表关键字飘红功能

ECSHOP联想下拉框 1.修改page_header.lbi模版文件,将搜索文本框修改为: <input name="keywords" type="text" id="keyword" value="ecshop<!--{/if}…

solr 分词词库管理思路

solr 分词词库管理思路大概有以下几种思路: 1. 自定义 SolrRequestHandler 由 SolrRequestHandler 来进行对分词器,进行A)词库加载B)动态添加词库等操作这样的话,还需要在内存中hold 住所有的词,或者需要引用到分词的jar 2. 在自定义分词器中实现从文件拉取对词库文件设置FileWatcher,只要文件有变更,就重新加载一遍词库. 这个成本比较高. 3. 在自定义分词器中实现从db拉…

【netcore基础】.Net core通过 Lucene.Net 和 jieba.NET 处理分词搜索功能

业务要求是对商品标题可以进行模糊搜索例如用户输入了[我想查询下雅思托福考试],这里我们需要先将这句话分词成[查询][雅思][托福][考试],然后搜索包含相关词汇的商品. 思路如下首先我们需要把数据库里的所有商品内容,自动同步到 Lucene 的分词索引目录下缓存,效果如下这里就用到了之前写的自动作业 Hangfire 大家可以参考下面的博文 https://www.cnblogs.com/jhli/p/10027074.html 定时更新缓存,后面就可以分词搜索了,更新索引代码如下 pub…

solr简单搜索案例

solr简单搜索案例使用Solr实现电商网站中商品信息搜索功能,可以根据关键字搜索商品信息,根据商品分类.价格过滤搜索结果,也可以根据价格进行排序,实现分页. 架构分为: 1. solr服务器 2. 自己的web服务器(需要开发) 3. 数据库mysql solr案例本案例用的springmvc+solr+mysql 自己开发的应用 1. Controller 获取搜索条件,并响应搜索结果到前台页面. 2. Service 使用solrj来调用solr的服务进行索引和搜索 Service调用…

Sphinx + Coreseek 实现中文分词搜索

Sphinx + Coreseek 实现中文分词搜索 Sphinx Coreseek 实现中文分词搜索全文检索 1 全文检索 vs 数据库 2 中文检索 vs 汉化检索 3 自建全文搜索与使用Google等第三方站点提供的站内全文搜索的差别 Sphinx Coreseek介绍 Coreseek安装使用 1. 全文检索 1.1 全文检索 vs. 数据库全文检索是数据库的有力补充,全文检索并不能替代数据库在应用系统中的作用.当应用系统的数据以大量的文本信息为主时,採用全文检索技术能够极大的提升应…

搜索引擎solr系列---solr分词配置

分词我理解的是,输入的一句话,按照它自己定义的规则分为常用词语. 首先,Solr有自己基本的类型,string.int.date.long等等. 对于string类型,比如在你的core/conf/manage-schema文件中,配置一个字段类型为string类型,如果查询符合“我是中国人”的数据,它就认为“我是中国人”是一个词语. 但是如果你将该字段设置成了分词,即配置成了text_ik类型,就可能匹配“我”.“中国人”.“中国”.“中”.“人”带有这些字的该字段数据都可能被查询到.…

Java solr 分词

代码如下: import java.io.IOException; import java.util.*; import org.apache.solr.client.solrj.SolrClient; import org.apache.solr.client.solrj.SolrQuery; import org.apache.solr.client.solrj.SolrRequest; import org.apache.solr.client.solrj.SolrServerExcept…

Solr 空间搜索配置、按经纬度计算距离排序

Solr 空间搜索配置 1. 在solr目录下的找到conf文件夹下的schema.xml. <fields>  <field name="store_lat_lon" type="location" indexed="true" stored="true"/> <dynamicField name="*_coordinate…

Solr 全文搜索

## 1. 概述在本文中,我们将探讨一个[Apache Solr](http://lucene.apache.org/solr/)搜索引擎中的基本概念 - 全文搜索. Apache Solr是一个开源框架,旨在处理数百万的文档.我们将通过使用Java库- [SolrJ](https://wiki.apache.org/solr/Solrj)的示例来介绍它的核心功能. ## 2. maven配置由于Solr是开源的 - 我们可以简单地下载二进制文件并在我们的应用程序中单独启动服务器. 要与服务…

ElasticSearch 中文分词搜索环境搭建

ElasticSearch 是强大的搜索工具,并且是ELK套件的重要组成部分好记性不如乱笔头,这次是在windows环境下搭建es中文分词搜索测试环境,步骤如下 1.安装jdk1.8,配置好环境变量 2.下载ElasticSearch7.1.1,版本变化比较快,刚才看了下最新版已经是7.2.0,本环境基于7.1.1搭建,下载地址https://www.elastic.co/cn/downloads/elasticsearch,得到一个zip压缩包,解压缩后cmd下运行下面的命令即可启动ES .…

SOLR企业搜索平台二（分词安装）

标签:linux lucene 分词 solr 全文检索原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://3961409.blog.51cto.com/3951409/833417 中文分词器安装 1)下载分词器,下载地址: http://code.google.com/p/mmseg4j/downloads/list(版本自己选择吧,我用的是1.8.5) 2)解压mmseg4j-1.8.5.zip,将mmseg4j-all-…

项目之solr全文搜索工具之创建项目索引库

以创建项目baotao core为例 1. 在example目录下创建baotao-solr文件夹: 2. 将./solr下的solr.xml拷贝到baotao-solr目录下: 3. 在baotao-solr下创建baotao目录,并且在baotao目录下创建conf和data目录: 4. 将example\solr\collection1\core.properties文件拷贝到example\baotao-solr\baotao下,并且修改name=baotao: 5. 将exa…

solr的搜索

主要讲一下solr面板的使用: 查询 q: 查询用语法: name:刘中华支持通配符 ? 表示单个任意字符的通配 * 表示多个任意字符的通配(不能在检索的项开始使用*或者?符号) ~ 表示模糊检索,如检索拼写类似于”roam”的项这样写:roam将找到形如foam和roams的单词:roam0.8,检索返回相似度在0.8以上的记录. AND.|| 布尔操作符 OR.&& 布尔操作符 NOT.!.-(排除操作符不能单独与项使用构成查询) + 存在操作符,要求符号”+”…

solr分词一:mmseg4j

刚接触Lucene2.x和Solr2.x的时候,谈到中文分词,会让我立即想到用庖丁中文分词,庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库,而且是纯文本格式,一行一词,使用后台线程检测词库的更新,自动编译更新过的词库到二进制版本而出名. 几年过去了,Lucene和Solr都发展到了4.7.x版本,重拾中文分词,发现庖丁中文分词不再是首选,mmseg4j是更佳的选择. mmseg4j支持最多分词,是一款很优秀的中文分词器,是用Chih-Hao Tsai 的 MMSeg 算法( ht…

SOLR企业搜索平台三（schema.xml配置和solrj的使用）

标签:solrj 原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://3961409.blog.51cto.com/3951409/836027 前面讲到如何搭建solr运行环境以及对中文查询语句进行分词处理,这篇文章主要讲解对schema.xml的相关配置和如何使用solrj 对于搜索程序来说,最重要的是理解他的总体架构.solr也是基于Lucene的全文搜索服务器.同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同…

solr学习篇（二） solr 分词器篇

关于solr7.4搭建与配置可以参考 solr7.4 安装配置篇在这里我们探讨一下分词的配置目录关于分词配置分词验证成功 1.关于分词 1.分词是指将一个中文词语拆成若干个词,提供搜索引擎进行查找,比如说:北京大学是一个词那么进行拆分可以得到:北京与大学,甚至北京大学整个词也是一个语义 2.市面上常见的分词工具有 IKAnalyzer MMSeg4j Paoding等,这几个分词器各有优劣,大家可以自行研究在这篇文章,我先演示IKAnalyzer分词器下载:IKAnalyze…

ES 或 Solr 分词器的相关面试题：

个人博客网:https://wushaopei.github.io/ (你想要这里多有) 1.ES 中的 IK 分词器能分中文和英语的原因是什么? ik分词器为中文分词器,默认可对中文分词:通过 Setting API 构造analyzer(字符过滤),可以对IK中文分词器做一些修改,让它实现回溯词根,从而实现真正的英文分词. ES默认有8个 analyzer. 2.IK分词器的类型? Ik_smart分词器和 ik_max_word 分词器最粗粒度最细粒度 3.ES中怎么进行拼音的分…

项目之solr全文搜索工具的安装

1. Solr简介 Solr是一个基于Lucene的Java搜索引擎服务器.Solr 提供了层面搜索.命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式).它易于安装和配置,而且附带了一个基于 HTTP 的管理界面.Solr已经在众多大型的网站中使用,较为成熟和稳定.Solr 包装并扩展了 Lucene,所以Solr的基本上沿用了Lucene的相关术语.更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容.通过对Solr 进行适当的配置,某些情况下可能需…

Solr -- 实时搜索

在solr中,实时搜索有3种方案 ①soft commit,这其实是近实时搜索,不能完全实时. ②RealTimeGet,这是实时,但只支持根据文档ID的查询. ③和第一种类似,只是触发softcommit. 综上,其实是由实时(②)和近实时(①③)两种. solr4.0 之后使用NRT的方法和需要的配置方案1 使用soft commit达到近实时搜索的效果. 为了使用soft commit ,需要配置solrconfig.xml.其中两个地方需要修改 <autoCommit> <ma…

.net中运用solr提升搜索效率(入门)

概述: 在开发网站的时候经常有要对某些内容查询的需求.此时如果基于数据库查询来做搜索功能,由于要对多个字段做模糊匹配,效率往往非常糟糕.这种情况就可以用Solr来提升搜索的效率.Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口.这里介绍下Solr的环境和配置,然后说下应用SolrNet客户端对Solr服务器的操作. 一.Solr安装软件下载:Solr 5.0.JDK 7以上安装jdk..Solr直接解压完,用命令行直接可以启动. 命令行中进入ser…

Lucene/Solr企业级搜索学习资源

Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口.用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引:也可以通过Http GSolret操作提出查找请求,并得到XML格式的返回结果: 学习资源: 1.Solr中国 http://www.solr.cc/blog/?paged=2 2. solr技术大牛的博客 http://blog.csdn.net/lgnlgn 对应视频地址:http://v.youku.com/v_sho…

提高solr的搜索速度

之前是使用12台机分布式搜索,1台为主机做索引并分发给子机,8台做大索引搜索服务,3 台做小索引搜索服务,配置基本是内存在4-8G,cpu:2-8core的服务器,索引的大小为8G.搜索的响应时间是150ms左右.(使用solr架构的搜索服务) 在一次技术群中,中听到一位sina的架构师,他们是采用基于lucene做的搜索服务,索引在20多G数据量,差不多是在亿的级别上,PV量在500万/天左右,高峰时期500个并发量/s,采用的是增量索引 ,读写索引都在同一台机上.他们并没有采用分布式,而是…

Solr 同义词搜索

1. 进入solr配置目录 cd /usr/local/solr/solrhome/collection1/conf vi schema.xml 增加配置节 <fieldType name="text_syn" class="solr.TextField"> <analyzer type="query"> <tokenizer class="solr.WhitespaceTokenizerFactory&…

分词搜索 sphinx3.1.1+php+mysql

sphinx3.1.1的安装与使用下载sphinx3.1.1 wget http://sphinxsearch.com/files/sphinx-3.1.1-612d99f-linux-amd64.tar.gz 解压 tar zxf sphinx-3.1.1-612d99f-linux-amd64.tar.gz 改名 sphinx 并移动到 /usr/local/ mv sphinx-3.1.1 sphinx mv sphinx /usr/local/ 到sphinx目录下创建 data,l…

分词搜索 sphinx+php+mysql

使用spring data solr 实现搜索关键字高亮显示

后端实现: @Service public class ItemSearchServiceImpl implements ItemSearchService { @Autowired private SolrTemplate solrTemplate; @Override public Map<String, Object> search(Map searchMap) { Map<String,Object> map=new HashMap<>(); //1.查询列表…

Solr Facet 搜索时，facet.missing = true 的真正含义

Solr的WiKI原文是如下解释: facet.missing Set to "true" this param indicates that in addition to the Term based constraints of a facet field, a count of all matching results which have no value for the field should be computed The default value is false.…

SOLR企业搜索平台一 (搭建SOLR)

前提是已经安装了java的环境,环境变量的配置不做为讲解,网上也有大量资料.下面以linux为例来说明如何搭建好一个solr 1)首先下载solr,下载地址:http://mirror.bit.edu.cn/apache/lucene/solr/ 2)准备运行容器,我用的是tomcat-7.0.27. 也可以不用准备专门的容器,只需解压好solr,找到example文件夹,然后运行 start.jar.具体指令:java -jar start.jar.做应用的时候,不建议采用该方式.该方式内部包…

【Solr分词搜索结果不准确】的更多相关文章