TNTSearch 轻量级全文索引+中文分词

选用 TNTSearch 的原因：轻，方便移植，不需要额外安装服务，能减少后期维护的工作量。搜索的效果也还不错，可以满足大多数项目场景，如果对性能和精准度要求较高，还是使用 Elasticsearch 吧。因TNTSearch使用的逗号空格分词，所以我们还需要一个中文分词的服务。
这里我选用的是 fukuball/jieba-php 选它的原因也是轻量，也不需要过多的依赖，部署方便。

TNTSearch 集成教程
https://laravel-china.org/articles/3702/full-text-indexing-engine-implemented-in-tntsearch-php
教程讲的很清楚，也没有什么坑，根据教程一步步来就可以了。这里就不在重复了。

下面主要说说 TNTSearch 怎么集成 fukuball/jieba-php 中文分词。

安装 fukuball/jieba-php

composer composer require fukuball/jieba-php:dev-master

注：fukuball/jieba-php 分词对内存有要求，如果内存过小，分词的时候可能会报错。

开始集成

修改配置 app/config/scout.php 增加 jieba 的配置项

'tntsearch' => [

    ...

    'tokenizer' => [

        ...

        'jieba' => [

            'dict' => 'small',

        ],

       ....

    ],

    ...

],

新建一个 Tokenizer
app/Handlers/TokenizerHandler.php

<?php

namespace App\Handlers;

use Fukuball\Jieba\Jieba;

use Fukuball\Jieba\Finalseg;

use TeamTNT\TNTSearch\Support\TokenizerInterface;

class TokenizerHandler implements TokenizerInterface

{

public function __construct(array $options = [])

{

    Jieba::init($options);

    Finalseg::init($options);

}

public function tokenize($text, $stopwords = [])

{

    return is_numeric($text) ? [] : $this->getTokens($text, $stopwords);

}

public function getTokens($text, $stopwords = [])

{

    $split = Jieba::cutForSearch($text);

    return $split;

}

}

新建服务提供者，用来取代 laravel-scout-tntsearch-driver 默认的服务提供者
app/Providers/ScoutServiceProvider.php

<?php

namespace App\Providers;

use TeamTNT\TNTSearch\TNTSearch;

use Laravel\Scout\EngineManager;

use TeamTNT\Scout\Console\ImportCommand;

use TeamTNT\Scout\Engines\TNTSearchEngine;

use TeamTNT\Scout\TNTSearchScoutServiceProvider;

use App\Handlers\TokenizerHandler;

class ScoutServiceProvider extends TNTSearchScoutServiceProvider

{

public function boot()

{

    $this->app[EngineManager::class]->extend('tntsearch', function ($app) {

        $tnt = new TNTSearch();

        $driver = config('database.default');

        $config = config('scout.tntsearch') + config("database.connections.{$driver}");

        $tnt->loadConfig($config);

        # 注入中文分词服务

        $tnt->setTokenizer(new TokenizerHandler(config('scout.tntsearch.tokenizer.jieba')));

        $tnt->setDatabaseHandle(app('db')->connection()->getPdo());

        $this->setFuzziness($tnt);

        $this->setAsYouType($tnt);

        return new TNTSearchEngine($tnt);

    });

    if ($this->app->runningInConsole()) {

        $this->commands([

            ImportCommand::class,

        ]);

    }

}

}

注册服务提供者，将 TNTSearchScoutServiceProvider 取消注册
app/config/app.php

...

'providers' => [

    ...

    SocialiteProviders\Manager\ServiceProvider::class,

    # TeamTNT\Scout\TNTSearchScoutServiceProvider::class,

    ...

]

...

至此集成完毕，可以去测试一下效果。
当然也可以根据 laravel-scout-tntsearch-driver 源码修改，然后打包成一个自己包，只是这样以后就失去了原包的升级服务。可以自行取舍，没有对错，适合就好。

如果有问题可以一起探讨一下。
我开源的 laraCMS 已集成了 TNTSearch ，如果有兴趣可以去github查看源码，也可以去在线体验

Github: https://github.com/wanglelecc/laracms
预览：https://www.56br.com/

TNTSearch 轻量级全文索引 + 中文分词的更多相关文章

轻量级的中文分词工具包 - IK Analyzer
IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本.最初,它是以开源项目Luence为应用 ...
Lucene的中文分词器IKAnalyzer
分词器对英文的支持是非常好的. 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好. 国人林良益写的IK Ana ...
Elasticsearch安装ik中文分词插件（四）
一.IK简介 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本.最初,它是以开源项目Lu ...
Java实现敏感词过滤 - IKAnalyzer中文分词工具
IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包. 官网: https://code.google.com/archive/p/ik-analyzer/ 本用例借助 I ...
IK 中文分词器
链接:https://github.com/wks/ik-analyzerIKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始,IKAna ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十九）ES6.2.2 安装Ik中文分词器
注: elasticsearch 版本6.2.2 1)集群模式,则每个节点都需要安装ik分词,安装插件完毕后需要重启服务,创建mapping前如果有机器未安装分词,则可能该索引可能为RED,需要删除后 ...
Lucene系列四：Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
推荐十款java开源中文分词组件
1:Elasticsearch的开源中文分词器 IK Analysis(Star:2471) IK中文分词器在Elasticsearch上的使用.原生IK中文分词是从文件系统中读取词典,es-ik本身 ...
搜索引擎ElasticSearch系列（五）： ElasticSearch2.4.4 IK中文分词器插件安装
一:IK分词器简介 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本.最初,它是以开源 ...

随机推荐

自动化运维_Ansible
1. 前言 Ansible是自动化运维的工具,基于Python开发,实现了批量系统配置.批量程序部署.批量运行命令等功能. Ansible是基于模块工作的,ansible提供一个框架,通过模块实现批量 ...
RabbitMQ消息交换模式简介
RabbitMQ是AMQP的一个典型实现,它消息发布者的消息发布到Exchange上,同时需要制定routingkey,可以通过指定交换机的不同模式实现不同的行为. RabbitMQ提供了四种Exch ...
lua中的pairs和ipairs差别
pairs Returns three values: the next function, the table t, and nil, so that the construction for k, ...
聚币网API使用教程 demo
原文 http://30daydo.com/article/181 目前还在完善,等功能完善了,就更新到csdn. 更新 2017-05-27 官方有API的文档,可是这个文档就像一个草稿一样,两个基 ...
intel32指令中文版
http://scc.qibebt.cas.cn/docs/optimization/VTune(TM)%20User's%20Guide/mergedProjects/analyzer_ec/mer ...
Revit API创建一个拷贝房间内对象布局命令
本课程演示创建一个拷贝房间内对象布局命令,完整演示步骤和代码.这个命令把选中房间内的对象复制到其它选中的一个或多个房间中,而且保持与源房间一致的相对位置.通过本讲座使听众知道创建一个二次开发程序很简单 ...
内存溢出导致jenkins自动部署到tomcat失败
原文地址:http://openwares.net/java/jenkens_deploy_to_tomcat_error_of_outofmemoryerror.html jenkins自动部署wa ...
在im4java中使用GraphicsMagick
1.定义操作和命令GMOperation op = new GMOperation();GraphicsMagickCmd cmd = new GraphicsMagickCmd("conv ...
升级WINDOWS10后任务栏的图标老是闪动是怎么回事
解决方法:1.进入设置→更新和安全→恢复2.找到高级启动,点击“立即重启3.重启后,进入第一个选择画面,点击“疑难解答”4.然后点击“高级选项”5.在其中选择“启动设置”6.这里给出了下次重启后的主要 ...
WordPress主题开发：开启feed功能
开启feed功能步骤一:在模版文件的<head></head>元素中添加wp_head()函数,且wp_head()函数要放在</head>标签之前,而且紧邻&l ...

TNTSearch 轻量级全文索引 + 中文分词

TNTSearch 轻量级全文索引+中文分词

TNTSearch 轻量级全文索引 + 中文分词的更多相关文章

随机推荐

热门专题