中文分词 sphni与scws
1、安装sphnix
cd /usr/local/src
wget http://sphinxsearch.com/files/sphinx-2.2.11-release.tar.gz
tar -zxvf sphinx-2.2.11-release.tar.gz
cd sphinx-2.2.11-release
yum install mysql56u-libs
./configure --prefix=/usr/local/sphinx --with-mysql
make
make install
2、安装sphinx客户端libsphinxclient
cd /usr/local/src/sphinx-2.2.11-release/api/libsphinxclient
./configure --prefix=/usr/local/libsphinxclient
make
make install
3、安装php扩展
cd /usr/local/src
#wget https://github.com/php/pecl-search_engine-sphinx/archive/php7.zip (适用于php7版本)
wget wget http://pecl.php.net/get/sphinx-1.3.3.tgz (适用于php7以下版本)
tar -zxvf sphinx-1.3.3.tgz
cd sphinx-1.3.3
phpize
./configure --with-sphinx=/usr/local/libsphinxclient --with-php-config=/usr/bin/php-config
make
make install
vim /etc/php.d/50-sphinx.ini
extension = sphinx.so
service php-fpm restart
#php -m|grep sphinx
sphinx
使用手册
http://docs.php.net/manual/zh/book.sphinx.php
4、索引启动服务
cp /usr/local/sphinx/etc/sphinx.conf.dist /usr/local/sphinx/etc/sphinx.conf
/usr/local/sphinx/bin/indexer --all
/usr/local/sphinx/bin/searchd
二、php 分词 scws
官网 http://www.ftphp.com/scws/
1、 安装
wget http://www.xunsearch.com/scws/down/scws-1.2.1.tar.bz2
tar -jxvf scws-1.2.1.tar.bz2
cd scws-1.2.1
./configure --prefix=/usr/local/scws
make && make install
2、 词库
wget http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2
scws-dict-chs-utf8.tar.bz2 解压放入 /opt/server/scws/etc
词库 dict.utf-8.xdb
规则 rules.utf-8.ini
3、 php 扩展
源码在phpext下
cd /usr/local/src/scws-1.2.1/phpext/
phpize
./configure --with-scws=/usr/local/scws --with-php-config=/usr/bin/php-config
make
make install
vim /etc/php.d/50-scws.ini
extension = scws.so
service php-fpm restart
php -m|grep scws
scws
4、 分词测试
http://www.ftphp.com/scws/docs.php
详见测试文件 test_all.php
测试文件
vim /data/html/fenci1.php
<?php
$so = scws_new();
$so->set_charset('utf8');
// 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件
$so->send_text("我是一个中国人,我会C++语言,我也有很多T恤衣服");
while ($tmp = $so->get_result())
{
echo "<PRE>";
print_r($tmp);
}
$so->close();
?>
访问结果:
Array
(
[0] => Array
(
[word] => 我
[off] => 0
[len] => 3
[idf] => 0
[attr] => r
)
[1] => Array
(
[word] => 是
[off] => 3
[len] => 3
[idf] => 0
[attr] => v
)
[2] => Array
(
[word] => 一个
[off] => 6
[len] => 6
[idf] => 4.289999961853
[attr] => m
)
[3] => Array
(
[word] => 中国人
[off] => 12
[len] => 9
[idf] => 4.9000000953674
[attr] => n
)
)
…………………………
三、 索引
中文分词 sphni与scws的更多相关文章
- SCWS中文分词,功能函数实例应用
结合前文的demo演示,现写一个实用的功能函数,使用方法:header('Content-Type:text/html;charset=UTF-8');$text = '我是一个中国人, ...
- PHP+mysql数据库开发搜索功能:中英文分词+全文检索(MySQL全文检索+中文分词(SCWS))
PHP+mysql数据库开发类似百度的搜索功能:中英文分词+全文检索 中文分词: a) robbe PHP中文分词扩展: http://www.boyunjian.com/v/softd/robb ...
- Thinkphp3.2使用scws中文分词 提取关键词
SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统).1.下载scws官方提供的类(这里使用的是pscws第四版的)http://www ...
- php+中文分词scws+sphinx+mysql打造千万级数据全文搜索
转载自:http://blog.csdn.net/nuli888/article/details/51892776 Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎.意图 ...
- scws简单中文分词
demo如下: /** * 中文分词 * @param $keyword * @param $getTop * @param $limit * @return array */ function sp ...
- SCWS中文分词PHP扩展详细安装说明
因最近写的一段代码,需要用到中文分词,在网上找了一下,发现了scws这个不错的插件,故根据文档安装使用,下面记录下安装的全过程 系统:centos 安装scws wget http://www.xun ...
- SCWS中文分词,向xdb词库添加新词
SCWS是个不错的中文分词解决方案,词库也是hightman个人制作,总不免有些不尽如人意的地方.有些词语可能不会及时被收入词库中. 幸好SCWS提供了词库XDB导出导入词库的工具(phptool_f ...
- SCWS中文分词,词典词性标注详解
SCWS中文分词词典条目多达26万条之巨,在整理的时候已经把很多明显不对的标注或词条清理了 ---- 附北大词性标注版本 ----Ag 形语素 形容词性语素.形容词代码为a,语素代码g前面置以A. a ...
- SCWS中文分词,demo演示
上文已经讲了关于SCSW中文分词的安装配置,本节进入demo演示: <?php header('Content-Type:text/html;charset=UTF-8'); echo '< ...
随机推荐
- Caused by: org.springframework.beans.factory.BeanCreationException: Could not autowire field
1 错误描述 org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'com.s ...
- ORA-00904:标识符无效
1.错误描述 ORA-00904:"TTT"."RN":标识符无效 00904 . 00000 - "%s:invalid identifier&qu ...
- windows下键盘常用快捷键整理
以下快捷键均在win7环境下测试有效: 声明:本博文由多篇博文经实测整理而出. win键相关的快捷键多用于桌面场景,如开起资源管理器.切换任务窗口.最大化最小化窗口等等. 场景一: 1. 任何情况下想 ...
- 【原】Java学习笔记031 - 常用类
package cn.temptation; public class Sample01 { public static void main(String[] args) { /* * 类 Math: ...
- 芝麻HTTP:Python爬虫实战之抓取淘宝MM照片
本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式 在这里我们用到的URL ...
- 各种HTML锚点跳转方式
1 js控制锚点跳转 <a name="anchor"></a> location.hash="anchor"; 不只有a其他元素也可以 ...
- 深度学习——卷积神经网络 的经典网络(LeNet-5、AlexNet、ZFNet、VGG-16、GoogLeNet、ResNet)
一.CNN卷积神经网络的经典网络综述 下面图片参照博客:http://blog.csdn.net/cyh_24/article/details/51440344 二.LeNet-5网络 输入尺寸:32 ...
- day9(Hash、字典)
一.Hash 简介: Hash,一般被翻译成"散列",也有直接音译"哈希"的,就是把任意长度的输入,通过哈希算法,变换成固定长度的输出,输出的结果就叫做哈希值, ...
- 【洛谷2015】【CJOJ1976】二叉苹果树
题面 Description 有一棵苹果树,如果树枝有分叉,一定是分2叉(就是说没有只有1个儿子的结点)这棵树共有N个结点(叶子点或者树枝分叉点),编号为1-N,树根编号一定是1.我们用一根树枝两端连 ...
- 实战绕过某医院的waf
最近遇到一个注入,我们直接来看吧.还是常规的单引号: 是一个很常规的注入.我们来尝试下获取一些信息: 然后发现是有防火墙的,安全狗.安全狗有很多针对php+mysql的绕过方法,比如这样:/*!uni ...