compass和paoding分词器的基本使用

1.实现搜索的技术:

数据库查询：like查询；lucene全文检索技术；

1）在数据量比较大，查询字段比较多的情况下，如果采用数据库like sql查询,性能比较差；采用lucene来查询，性能相对于数据库like sql查询要好些；

2）如果采用lucene进行搜索，搜索到的结果相关度比较高，而且会把匹配度高的记录排在最前面，而数据库的like语句查询只会查询回来含有关键字的记录，其内容相关度不高，并且不能实现把匹配度高的记录排在前面；

使用baidu/google搜索引擎搜索某个关键字，搜索结果比较靠前的是匹配度比较高的数据；

3）采用lucene进行搜索，能够进行高显示，而数据库like sql语句查询达不到这一点（可用js页面实现）

2.建立索引，根据分词器对这个内容，分完词，放在索引中

查询索引，输入的关键字进行分词，分完词就查询索引；

分词原理：一元分词（一个字一个字分）/二元词（两个字两个字分）/字典分词匹配度是最好的，但必须要建立字典，目前关于中午这个分词，叫paoding解牛分词，（使用字典分词）：用它解析分词比较好；

不准备用lucene的API来进行开发，使用对lucene进行面向对象封装的一个框架compass API来完成商品搜索功能；相当于不使用JDBC API操作数据库，而使用Hibernate API操作数据库原理是一样的；

做软件一直强调的是面向对象，所以用Hibernate api(ORM),所以使用面向对象方式操作搜索引擎索引，所以就使用compass api(object search engine/mapping osem)，但底层还是使用的lucene;

学习compass API，只要会hibernate，掌握compass api只需半个小时

1）设计实体，并完成实体的映射元数据（hbm.xml/@Entity注解）

hibernate：3.0之后可以用注解方式，hibernate解压包里的doc文档可以查看用注解方式进行映射

在实体类上加上：@Searchable作用：把该类定义为搜索实体，该搜索实体与搜索的document进行映射

@SearchableId作用：定义该属性为搜索实体的标识属性；默认映射到document的id字段

@SearchProperty(name="跟document中的哪个字段相映射"，index=Index.NOT_ANALYZED(不分词，但建立索引)/ANALYZED(分词并建立索引)，store=Store.YES(默认是属性值保存到索引文件中))

2)利用hibernate的api完成对实体的添加、删除、修改、查找这些操作，

compass和paoding分词器的基本使用的更多相关文章

Solr添加paoding分词器
1.Solr3.6.2 并可运行 paoding-analysis3.0.jar 下载 2.1 解压{$Solr-Path}/example/webapp 下的solr.war文件,解压到当前文件夹 ...
11大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
11大Java开源中文分词器的使用方法和分词效果对比，当前几个主要的Lucene中文分词器的比较
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
Apache Lucene(全文检索引擎)—分词器
目录返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://gith ...
【Lucene3.6.2入门系列】第04节_中文分词器
package com.jadyer.lucene; import java.io.IOException; import java.io.StringReader; import org.apach ...
Lucene 03 - 什么是分词器 + 使用IK中文分词器
目录 1 分词器概述 1.1 分词器简介 1.2 分词器的使用 1.3 中文分词器 1.3.1 中文分词器简介 1.3.2 Lucene提供的中文分词器 1.3.3 第三方中文分词器 2 IK分词器的 ...
13.solr学习速成之IK分词器
IKAnalyzer简介 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包. IKAnalyzer特性 a. 算法采用“正向迭代最细粒度切分算法”,支持细粒度和最大词长两 ...
（五）Lucene——中文分词器
1. 什么是中文分词器对于英文,是安装空格.标点符号进行分词对于中文,应该安装具体的词来分,中文分词就是将词,切分成一个个有意义的词. 比如:“我的中国人”,分词:我.的.中国.中国人.国人. 2 ...
Lucene的分词_中文分词器介绍
Paoding:庖丁解牛分词器.已经没有更新了. MMSeg:搜狗的词库. MMSeg分词器的一些截图: 步骤: 1.导入包 2.创建的时候使用MMSegAnalyzer分词器

随机推荐

MyCat - 数据库中间插件
什么是MyCat 是目前最流行的分布式数据库中间插件为什么使用MyCat 如今随着互联网的发展,数据的量级也是撑指数的增长,从GB到TB到PB.对数据的各种操作也是愈加的困难,传统的关系性数据库已经 ...
python day 20: 线程池与协程,多进程TCP服务器
目录 python day 20: 线程池与协程 2. 线程 3. 进程 4. 协程:gevent模块,又叫微线程 5. 扩展 6. 自定义线程池 7. 实现多进程TCP服务器 8. 实现多线程TCP ...
vscode+phpstudy构建php调试环境
由于vs code开源和跨平台,而且插件很多,所以打算以后编写和调试php都用vs code. 配置vs code+phpstudy的php调试环境步骤如下: 1.配置phpstudy,其他选项菜单- ...
C程序中的内存分布
一个典型的C程序存储分区包含以下几类: Text段已初始化数据段未初始化数据段栈堆进程运行时的典型内存布局 1. Text段 Text段通常也称为代码段,由可执行指令构成,是程序在目标文件或 ...
8.7 —— 排序函数及 splice 插入
.排序,按自己的逻辑 nid_item_vec.sort([](const NID_PBDATA &l, const NID_PBDATA &r) -> bool { retur ...
用java刷剑指offer(数组中只出现一次的数字)
题目描述一个整型数组里除了两个数字之外,其他的数字都出现了两次.请写程序找出这两个只出现一次的数字. 牛客网链接思路链接:https://www.nowcoder.com/questionTer ...
手写二叉树-先序构造(泛型)-层序遍历（Java版）
如题先序构造数据类型使用了泛型,在后续的更改中,更换数据类型只需要少许的变更代码层序遍历利用Node类的level属性所有属性的权限全为public ,为了方便先这么写吧,建议还是用priv ...
pipy配置镜像源
新电脑第一次使用使用pip命令下载贼慢我们需要使用国内pipy镜像,参考如下 https://mirrors.tuna.tsinghua.edu.cn/help/pypi/ 所以只要设置一下就行了: ...
2019-2020-1 20199301《Linux内核原理与分析》第九周作业
第八章进程的切换和系统的一般执行过程进程的调度实际与进程的切换 ntel定义的中断类型硬中断:就是CPU的两根引脚(可屏蔽中断和不可屏蔽中断) 软中断/异常:包括除零错误.系统调用.调试断点等在 ...
12.基于vue-router的案例
案例分析用到的路由技术要点: 路由的基础用法嵌套路由路由重定向路由传参编程式导航根据项目的整体布局划分好组件结构,通过路由导航控制组件的显示 1.抽离并渲染 App根组件 2.将左侧菜单 ...

compass和paoding分词器的基本使用

compass和paoding分词器的基本使用的更多相关文章

随机推荐

热门专题