Coreseek-带中文分词的Sphinx

Sphinx并不支持中文分词, 也就不支持中文搜索, Coreseek = Sphinx + MMSEG(中文分词算法)

1.下载

　　1).到官网下载

　　2).解压后有三个文件夹

　　　　csft-3.2.14: Sphinx

　　　　mmseg-3.2.14: 中文分词组件

　　　　testpack: 接口开发包

2.安装

　　1).先安装mmseg, 因为Coreseek会用到

cd mmseg-3.2.

./configure --prefix=/usr/local/mmseg

　　此时如果Makefile文件创建成功, 但是出现了一个config.status: error: cannot find input file: src/Makefile.in错误信息, 使用以下命令重新编译

aclocal

libtoolize --force

automake --add-missing

autoconf

autoheader

make clean

./configure --prefix=/usr/local/mmseg

　　执行安装

make && make install

　　2).安装csft(即Coreseek)

./configure --prefix=/usr/local/coreseek --with-mysql=/usr/local/mysql --with-mmseg=/usr/local/mmseg --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib

make && make install

3.中文分词算法分类

　　1).基于字符串匹配的分词方法

　　　　基于字典, 进行挨个的词条匹配

　　　　三个要素: 分词词典, 文本扫描顺序, 匹配原则

　　　　扫描顺序: 正向, 逆向, 双向

　　　　匹配原则: 最大, 最小, 逐词,最佳

　　2).基于理解的分词方法, 正在测试阶段

　　3).基于统计的分词方法, 可以根据相邻的字出现的次数和频率等自动识别生词, 自动消除歧义

4.配置Coreseek

cp /usr/local/coreseek/etc/sphinx.conf.dist /usr/local/coreseek/etc/csft.conf #与Sphinx不同的是配置文件名不同

#接下来按照Sphinx配置即可, 注意索引中的此两处配置

#charset_type        = zh_cn.utf-

#charset_dictpath    = /usr/local/mmseg/etc/

5.生成索引

cd /usr/local/coreseek/bin

./indexer --all

6.查找内容

cd /usr/local/coreseek/bin

./search 随永杰

Coreseek-带中文分词的Sphinx的更多相关文章

Sphinx + Coreseek 实现中文分词搜索
Sphinx + Coreseek 实现中文分词搜索 Sphinx Coreseek 实现中文分词搜索全文检索 1 全文检索 vs 数据库 2 中文检索 vs 汉化检索 3 自建全文搜索与使用Goo ...
solr6.6 配置自带中文分词
1.配置solrconfig.xml solr的自带中文分词包在solr-6.6.0\contrib\analysis-extras\lucene-libs下修改solrconfig.xml增加 & ...
php+中文分词scws+sphinx+mysql打造千万级数据全文搜索
转载自:http://blog.csdn.net/nuli888/article/details/51892776 Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎.意图 ...
ubuntu-10.04的测试环境安装测试 Coreseek开源中文检索引擎-Sphinx中文版
主要参考文档:http://www.coreseek.cn/products-install/install_on_bsd_linux/ 一. 32位版本: coreseek安装需要预装的软件: ap ...
php使用coreseek进行中文分词搜索
方法一使用coreseek源码自带testpack/api/test_coreseek.php代码,进行稍微修改就可以使用了,只不过需要引入”spinxapi.php“类方法二--制作php扩展 ...
Solr6.5配置中文分词器
Solr作为搜索应用服务器,我们在使用过程中,不可避免的要使用中文搜索.以下介绍solr自带的中文分词器和第三方分词器IKAnalyzer. 注:下面操作在Linux下执行,所添加的配置在windo ...
scws简单中文分词
demo如下: /** * 中文分词 * @param $keyword * @param $getTop * @param $limit * @return array */ function sp ...
solr 中文分词器IKAnalyzer和拼音分词器pinyin
solr分词过程: Solr Admin中,选择Analysis,在FieldType中,选择text_en 左边框输入 “冬天到了天气冷了小明不想上学去了”,点击右边的按钮,发现对每个字都进行分词. ...
Solr6.5配置中文分词IKAnalyzer和拼音分词pinyinAnalyzer (二)
之前在 Solr6.5在Centos6上的安装与配置 (一) 一文中介绍了solr6.5的安装.这篇文章主要介绍创建Solr的Core并配置中文IKAnalyzer分词和拼音检索. 一.创建Core: ...

随机推荐

【Splay】洛谷3372 【模板】线段树 1
Splay区间加,询问区间和. #include<cstdio> #include<iostream> #include<cstring> #include< ...
lightoj 1052 - String Growth & uva 12045 - Fun with Strings 矩阵
思路:很容易发现规律,数列和Fib数列一样的. 记开始的时候啊a的个数为Y,b的个数为X.建立矩阵. 代码如下: #include<iostream> #include<cstdio ...
Activity（活动）生命周期--系统回收活动数据存储
当一个活动进入停止状态的时候,是有可能被系统回收的.那如果处于停止状态的活动被系统回收了,而它上面却有我们所需要数据该如何保存呢?(类似于:打开qq进入下一个界面没有进去,返回的时候仍然不需要你输入账 ...
判断隐式Intent是否有响应
PackageManager manager = getContext().getPackageManager(); if (manager.queryIntentActivities(intent, ...
Matlab横坐标从特定值开始
set(gca,'XTick',1:1:length(x)); set(gca,'XTickLabel',{'15','20','25','30','35','40','45','50','55',' ...
mysql知识点汇总四
1.表的垂直分割 “垂直分割”是一种把数据库中的表按列变成几张表的方法,这样可以降低表的复杂度和字段的数目,从而达到优化的目的.(以前,在银行做过项目,见过一张表有100多个字段,很恐怖) 示例一:在 ...
Ceph源码解析：概念
Peering:一个PG内的所有副本通过PG日志来达成数据一致的过程.(某PG如果处于Peering将不能对外提供读写服务) Recovery:根据Peering的过程中产生的.依据PG日志推算出的不 ...
用BETTERCAP和RASPBERRY PI ZERO W制作迷你WiFi干扰器
我并不是一个特别勤快的人,几天前我终于开始将我几周以来的一些想法付诸于实践,即使用Raspberry Pi Zero W制作一个可随身携带的迷你WiFi干扰器.有了它,我就可以随时随地的收集附近无线接 ...
Linux 服务器环境启动
1.PHP 关闭php killall php-fpm php重启 /usr/local/php/sbin/php-fpm & 或者 /usr/local/php/sbin/php-fpm { ...
Linux环境下搭建MYSQL数据库指令详情
一.mysql数据库的安装确保安装gcc(开发工具) #groupadd mysql #useradd -g mysql mysql #cd /usr/local # tar -zxvf mysql ...

Coreseek-带中文分词的Sphinx

Coreseek-带中文分词的Sphinx的更多相关文章

随机推荐

热门专题