【netcore基础】.Net core通过 Lucene.Net 和 jieba.NET 处理分词搜索功能

业务要求是对商品标题可以进行模糊搜索

例如用户输入了【我想查询下雅思托福考试】，这里我们需要先将这句话分词成【查询】【雅思】【托福】【考试】，然后搜索包含相关词汇的商品。

思路如下

首先我们需要把数据库里的所有商品内容，自动同步到 Lucene 的分词索引目录下缓存，效果如下

这里就用到了之前写的自动作业 Hangfire 大家可以参考下面的博文

https://www.cnblogs.com/jhli/p/10027074.html

定时更新缓存，后面就可以分词搜索了，更新索引代码如下

        public void UpdateMerchIndex()

        {

            try

            {

                Console.WriteLine($"[{DateTime.Now}] UpdateMerchIndex job begin...");

                var indexDir = Path.Combine(System.IO.Directory.GetCurrentDirectory(), "temp", "lucene", "merchs");

                if (System.IO.Directory.Exists(indexDir) == false)

                {

                    System.IO.Directory.CreateDirectory(indexDir);

                }

                var VERSION = Lucene.Net.Util.LuceneVersion.LUCENE_48;

                var director = FSDirectory.Open(new DirectoryInfo(indexDir));

                var analyzer = new JieBaAnalyzer(TokenizerMode.Search);

                var indexWriterConfig = new IndexWriterConfig(VERSION, analyzer);

                using (var indexWriter = new IndexWriter(director, indexWriterConfig))

                {

                    if (File.Exists(Path.Combine(indexDir, "segments.gen")) == true)

                    {

                        indexWriter.DeleteAll();

                    }

                    var query = _merchService.Where(t => t.IsDel == false);

                    var index = ;

                    var size = ;

                    var count = query.Count();

                    if (count > )

                    {

                        while (true)

                        {

                            var rs = query.OrderBy(t => t.CreateTime)

                            .Skip((index - ) * size)

                            .Take(size).ToList();

                            if (rs.Count == )

                            {

                                break;

                            }

                            var addDocs = new List<Document>();

                            foreach (var item in rs)

                            {

                                var merchid = item.IdentityId.ToLowerString();

                                var doc = new Document();

                                var field1 = new StringField("merchid", merchid, Field.Store.YES);

                                var field2 = new TextField("name", item.Name?.ToLower(), Field.Store.YES);

                                doc.Add(field1);

                                doc.Add(field2);

                                addDocs.Add(doc);// 添加文本到索引中

                            }

                            if (addDocs.Count > )

                            {

                                indexWriter.AddDocuments(addDocs);

                            }

                            index = index + ;

                        }

                    }

                }

                Console.WriteLine($"[{DateTime.Now}] UpdateMerchIndex job end!");

            }

            catch (Exception ex)

            {

                Console.WriteLine($"UpdateMerchIndex ex={ex}");

            }

        }

剩下的就是去查询索引内容，匹配到id，然后去数据库查询响应id的项。

搜索代码

        protected List<Guid> SearchMerchs(string key)

        {

            if (string.IsNullOrEmpty(key))

            {

                return null;

            }

            key = key.Trim().ToLower();

            var rs = new List<Guid>();

            try

            {

                var indexDir = Path.Combine(System.IO.Directory.GetCurrentDirectory(), "temp", "lucene", "merchs");

                var VERSION = Lucene.Net.Util.LuceneVersion.LUCENE_48;

                if (System.IO.Directory.Exists(indexDir) == true)

                {

                    var reader = DirectoryReader.Open(FSDirectory.Open(new DirectoryInfo(indexDir)));

                    var search = new IndexSearcher(reader);

                    var directory = FSDirectory.Open(new DirectoryInfo(indexDir), NoLockFactory.GetNoLockFactory());

                    var reader2 = IndexReader.Open(directory);

                    var searcher = new IndexSearcher(reader2);

                    var parser = new QueryParser(VERSION, "name", new JieBaAnalyzer(TokenizerMode.Search));

                    var booleanQuery = new BooleanQuery();

                    var list = CutKeyWord(key);

                    foreach (var word in list)

                    {

                        var query1 = new TermQuery(new Term("name", word));

                        booleanQuery.Add(query1, Occur.SHOULD);

                    }

                    var collector = TopScoreDocCollector.Create(, true);

                    searcher.Search(booleanQuery, null, collector);

                    var docs = collector.GetTopDocs(, collector.TotalHits).ScoreDocs;

                    foreach (var d in docs)

                    {

                        var num = d.Doc;

                        var document = search.Doc(num);// 拿到指定的文档

                        var merchid = document.Get("merchid");

                        var name = document.Get("name");

                        if (Guid.TryParse(merchid, out Guid mid) == true)

                        {

                            rs.Add(mid);

                        }

                    }

                }

            }

            catch (Exception ex)

            {

                Console.WriteLine($"SearchMerchs ex={ex}");

            }

            return rs;

        }

对用户输入的话进行拆分分词代码 JiebaNet

        protected List<string> CutKeyWord(string key)

        {

            var rs = new List<string>();

            var segmenter = new JiebaSegmenter();

            var list = segmenter.Cut(key);

            if (list != null && list.Count() > )

            {

                foreach (var item in list)

                {

                    if (string.IsNullOrEmpty(item) || item.Length <= )

                    {

                        continue;

                    }

                    rs.Add(item);

                }

            }

            return rs;

        }

需要添加的 nuget 引用的包和对应版本

Hangfire 1.7.0-beta1

Lucene.Net 4.8.0-beta00005

Lucene.Net.Analysis.Common 4.8.0-beta00005

Lucene.Net.QueryParser 4.8.0-beta00005

需要单独引用的dll文件

JiebaNet.Segmenter.dll

下载地址

https://pan.baidu.com/s/1D7mQnow0FmoqedNYzugfKw

如果本地调试没有问题，发布到服务器上自动执行作业就遇到这个问题

https://stackoverflow.com/questions/47746582/hangfire-job-throws-system-typeloadexception

System.TypeLoadException

Could not load type ‘***’ from assembly ‘***, Version=1.0.0.0, Culture=neutral, PublicKeyToken=null’.

其实这个报错并不是原因，把异常打印出来就知道了

原因是没有将 Resources 文件夹下的字典文件 dict.txt 发布到服务器上

这个坑让我浪费了半天时间。。。

【netcore基础】.Net core通过 Lucene.Net 和 jieba.NET 处理分词搜索功能的更多相关文章

【netcore基础】CentOS 7.6.1810 搭建.net core 2.1 linux 运行环境 nginx反向代理 supervisor配置自启动
之前写过一篇Ubuntu的环境搭建博客,感觉一些配置大同小异,这里重点记录下 nginx 作为静态 angular 项目文件服务器的配置参考链接 [netcore基础]ubuntu 16.04 搭建 ...
Python3 与 C# 面向对象之～继承与多态 Python3 与 C# 面向对象之～封装 Python3 与 NetCore 基础语法对比（Function专栏） [C#]C#时间日期操作 [C#]C#中字符串的操作 [ASP.NET]NTKO插件使用常见问题我对C#的认知。
Python3 与 C# 面向对象之-继承与多态文章汇总:https://www.cnblogs.com/dotnetcrazy/p/9160514.html 目录: 2.继承 ¶ 2.1.单继 ...
.netCore+Vue 搭建的简捷开发框架（4）--NetCore 基础 -2
上节中,我们初步的介绍了一下NetCore的一些基础知识,为了控制篇幅(其实也是因为偷懒),我将NetCore 基础分为两部分来写. 0.WebAPI 项目的建立 1..NetCore 项目执行(加载 ...
动画基础--基于Core Animation（3）
参考:https://zsisme.gitbooks.io/ios-/content/ 前面的文章动画基础--基于Core Animation(1),动画基础--基于Core Animation(2) ...
动画基础--基于Core Animation（2）
参考:https://zsisme.gitbooks.io/ios-/content/ 前面的文章动画基础--基于Core Animation(1)提到了图层的基本概念以及可动画参数几何学等知识. 本 ...
动画基础--基于Core Animation（1）
1.简介上一篇文章[New learn]动画-基于UIView了解到了一些直接由UIView这个在UIKIT提供的类中提供的一些动画方法. 使用UIView的动画特性已经能够满足我们很多的需求,它是 ...
Net Core使用Lucene.Net和盘古分词器实现全文检索
Lucene.net Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎, ...
Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合，以及对分词器的思考
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
【lucene系列学习四】使用IKAnalyzer分词器实现敏感词和停用词过滤
Lucene自带的中文分词器SmartChineseAnalyzer不太好扩展,于是我用了IKAnalyzer来进行敏感词和停用词的过滤. 首先,下载IKAnalyzer,我下载了然后,由于IKAn ...

随机推荐

PAT基础6-3
6-3 简单求和 (10 分) 本题要求实现一个函数,求给定的N个整数的和. 函数接口定义: int Sum ( int List[], int N ); 其中给定整数存放在数组List[]中,正整数 ...
小甲鱼Python第九讲课后习题--010列表
0.列表都可以存放一些什么东西? 可以存放任何的数据类型 1. 向列表增加元素有哪些方法? append()--末尾添加一个元素 extend()--末尾添加多个元素,但要求已列表的格式添加[x,x, ...
uploadify Cookie 验证登入上传问题
上传文件时必须验证是否已登入. 当用FormsAuthentication做登入,使用FormsAuthentication.FormsCookieName进行验证是否已登入即可. <scrip ...
Compile groovy mixed with java in Maven
Assuming that groovy codes are in src/main/groovy and java codes are in src/main/java. We can use 2 ...
windows NT的意义和各个版本
javascript中navigator.userAgent里的window NT今天为了尝试查看网址的来源document.referrer,但是不知道每个浏览器的版本号,然后我就用navigato ...
如何在MyBatis中优雅的使用枚举
问题在编码过程中,经常会遇到用某个数值来表示某种状态.类型或者阶段的情况,比如有这样一个枚举: public enum ComputerState { OPEN(10), //开启 CLOSE( ...
python测试开发django-56.模板渲染markdown语法+代码高亮
前言上一篇已经实现在xadmin后台编辑markdown语法的文档,编辑完成之后发布博客,在前端html能把markdown语法显示出来. 主要思路是先从数据库把markdown的代码读出来,导入m ...
SQLite在.NET中自适应32位/64位系统
如果一个.NET应用要自适应32位/64位系统,只需要在项目的“目标平台”设置为“Any CPU”.但是如果应用中使用了SQLite,情况就不同了. SQLite的.NET开发包来自是System.D ...
20170711 通过阿里云与国家气象局合作的api读取历史辐照数据
一.概述今天收到阿里云推送的试用通知,就迫不及待的申请了一个试用key,开始试用. 初步使用之后发现基本可用,至于最后是否适合商用还要看他的收费情况. 接口的使用 ...
VS2008 编译出错 fatal error C1859: unexpected precompiled header error, simply rerunning the compiler might fix this problem
https://jingyan.baidu.com/article/d8072ac49ebd23ec95cefddd.html

【netcore基础】.Net core通过 Lucene.Net 和 jieba.NET 处理分词搜索功能

【netcore基础】.Net core通过 Lucene.Net 和 jieba.NET 处理分词搜索功能的更多相关文章

随机推荐

热门专题