Solr 数字字符不能搜索的一个问题

问题一：测试人员告诉我数字不能被搜索。于是开始找原因：

***
<field name="productName" type="text" indexed="true" stored="true" />
***
</fields>

fieldType text配置：
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
   <analyzer type="index">
  <tokenizer class="solr.LowerCaseTokenizerFactory"/>
  <filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50" side="front"/>
   </analyzer>
   <analyzer type="query">
  <tokenizer class="solr.LowerCaseTokenizerFactory"/>
  <filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50" side="front"/>
   </analyzer>
</fieldType>

当我的productName中包含数字字符的时。比如有个产品的名字叫 ‘嘎嘎噶123’ 那么用数字1/2/3/12等等都不能搜索到

当时‘123嘎嘎噶’时也是一样。找了好久没有找到原因。也不知道怎么去找这个原因。于是边问喷油。猜想是分词的问题。于是边看Solr的管理界面看能发现点啥？

终于QQ群里一哥们说 solr.LowerCaseTokenizerFactory
会过滤掉数字在Solr的Analysis
菜单下看到了可以进行分词的演示正对当前的schema.xml配置。还可以选择相应的 field 一试果真是LowerCaseTokenizerFactory
这个家伙的问题。于是寻找替代方案。经过尝试与搜索。下面的配置

最终解决了数字不能被搜索的问题。（相应的属性也改为此类型）

由于我们库里的产品有拼音字段。而且是大写。
如果我用AMXL 搜索能搜到相应的拼音。进而搜索相应的产品阿莫西林。（solr配置了all查询。拼音字段copy到了all中。）

可如果我用amxl搜索则不能搜到。于是我在程序中solr的查询语句时把查询值toUpperCase();
终于解决了小写字母不能搜索的问题。

问题二：

但第二天发现引入的了新的问题。如果一个产品是
‘d阿莫西林’ 那么我用d阿莫西林
进行搜索，将不能把 'd阿莫西林'这个产品搜出来。开始不知道为啥，放到Solr的Analysis中一测。发现了。我程序把它变为
‘D阿莫西林’
进行查询了。但SOlr中搜索的却是'd阿莫西林
' ，这次所有已小写字母打头的产品。如果用产品全名如‘‘d阿莫西林’进行搜索（自动补全出来的），将不能搜索出来。

解决了数字的问题。又遇到了小写字母的问题。
这次没有找到个Solr这边的方案。于是打算修改程序。思路就是
把程序中SOlr的查询值变大写的地方改为。如果查询的值中有中文则不变大写。如果没有则变大写。

这样的话。如果产品是有数字的，或者有小写字母的
都能被搜索出来。全字母的也能根据拼音搜索出来。（"solr.EdgeNGramFilterFactory"
minGramSize="1"
maxGramSize="50"）这个就是从左到右一个一个分词的。

于是
网上搜索一个正则查找字符串中是否有中文：

/**

	     * 判断一个字符串中是否含有中文

	     * @param str

	     * @return

	     */

	    public static boolean isContainsChinese(String str)

	    {

	        Matcher matcher = Pattern.compile("[\u4e00-\u9fa5]").matcher(str);

	        boolean flg = false;

	        if (matcher.find())    {

	            flg = true;

	        }

	        return flg;

	    }  

	public static String toUpperOrNot(String temp)

	{

		if (temp == null)

			return "";

		if(StringUtils.isContainsChinese(temp))

		{

			return temp;

		}else

		{

			return temp.toUpperCase();

		}

	}

于是在SOLR查询值的地方调用下toUpperOrNot()即可。最好调用下下面的转义。

温馨提示：
Solr查询中如果查询值中有特殊字符需要转义：

public static final String	NEAD_TO_CONVERT_CHAR	= "([/:()!])";

	// solr query need to convert meaning

	public static String convertMeaningChar(String temp)

	{

		if (temp == null)

			return "";

		temp = temp.replaceAll(NEAD_TO_CONVERT_CHAR, "\\\\$1");

		return temp;

	}

Solr 数字字符不能搜索的一个问题的更多相关文章

solr服务（搜索服务）
1 Solr实现全文搜索 1.1 Solr是什么? Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器.Solr提供了比Lucene更为丰富的 ...
基于Solr的空间搜索
如果需要对带经纬度的数据进行检索,比如查找当前所在位置附近1000米的酒店,一种简单的方法就是:获取数据库中的所有酒店数据,按经纬度计算距离,返回距离小于1000米的数据. 这种方式在数据量小的时候比 ...
利用SOLR搭建企业搜索平台之——MultiCore
Solr Multicore 是 solr 1.3 的新特性.其目是一个solr实例,可以有多个搜索应用. 下面着手来将solr给出的一个example跑出来.这篇文章是基于<利用SOLR搭建企 ...
SOLR搭建企业搜索平台
一. SOLR搭建企业搜索平台运行环境: 运行容器:Tomcat6.0.20 Solr版本:apache-solr-1.4.0 分词器:mmseg4j-1.6.2 词库:sogou-dic ...
【solr基础教程之中的一个】Solr相关知识点串讲
Solr是Apache Lucene的一个子项目.Lucene为全文搜索功能提供了完备的API.但它仅仅作为一个API库存在.而不能直接用于搜索. 因此,Solr基于Lucene构建了一 ...
Solr实现全文搜索
1.1 Solr是什么? Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器.Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置.可扩展 ...
整合Solr与tomcat以及第一个core的配置
整合Solr与tomcat以及第一个core的配置一.准备安装文件 Tomcat : apache-tomcat-8.5.32.tar.gz Solr:solr-5.3.1.tgz 二.创建目录并解 ...
【Solr】 solr对拼音搜索和拼音首字母搜索的支持
问:对于拼音和拼音首字母的支持,当你在搜商品的时候,如果想输入拼音和拼音首字母就给出商品的信息,怎么办呢? 实现方式有2种,但是他们其实是对应的. 用lucene实现 1.建索引, 多建一个索引字段 ...
利用SOLR搭建企业搜索平台之——solr配置solrconfig.xml
来源:http://blog.csdn.net/zx13525079024/article/details/25310781 solrconfig.xml配置文件主要定义了SOLR的一些处理规则,包括 ...

随机推荐

C++使用hiredis连接带密码的redis服务
c = redisConnect((char*)redis_host, redis_port); if (c->err) { /* Error flags, 0 when there is no ...
Windows删除无效服务
W+R运行:regedit http://os.51cto.com/art/201208/354989.htm
navicat 使用
sql是操作数据库中数据的语句,在不同的数据库中会略有不同,如mysql,postgreSQL,oracle,sqlserver,sqlite等等,但是sql的基础select.insert.upda ...
java如何将毫秒数转为相应的年月日格式
public static void main(String[] args) { Date date = new Date(); Long time = date.getTime(); System. ...
[Python]网络爬虫（六）：一个简单的百度贴吧的小爬虫
转自:http://blog.csdn.net/pleasecallmewhy/article/details/8927832 # -*- coding: utf-8 -*- #----------- ...
从域名到网站，快速创建全新社区站点 - phpwind一键部署操作文档
关于phpwind一键部署服务,请查阅PW官网:http://www.phpwind.com/setup.html 选择一键部署镜像版本,立即开始使用: PW建站系统(Centos 64位) ———— ...
兼容火狐,ie8的 js urlencode和urldecode
function UrlEncode(str)//url编码{ var i,temp,p,q; var result=""; for(i=0;i<str.length;i++ ...
HDUOJ ---1269迷宫城堡
http://acm.hdu.edu.cn/showproblem.php?pid=1269 迷宫城堡 Time Limit: 2000/1000 MS (Java/Others) Memory ...
Python 的 pandas 实践
Python 的 pandas 实践: # !/usr/bin/env python # encoding: utf-8 __author__ = 'Administrator' import pan ...
面向对象程序设计（OOP设计模式）－行为型模式之观察者模式的应用与实现
课程名称:程序设计方法学实验5:OOP设计模式-行为型模式的应用与实现时间:2015年12月02日三,第3.4节地点:理一.实验目的加深对行为型设计模式的理解以及在开发中的实际应用能力. 二. ...

Solr 数字字符不能搜索的一个问题

Solr 数字字符不能搜索的一个问题的更多相关文章

随机推荐

热门专题