全文索引:部分词能查到,部分词查不到的bug
全文索引的概念:将存储在数据库中的整本书或整篇文章中的任意内容信息查找出来的技术。它可以根据需要获取全文中有关章,节,段,句,词等信息,也可以进行各种统计和分析。
1、在edgelabel木马的name属性上建立search索引;
2、插入木马数据,name为“木马-远控-Trojan.Win32.FakeLPK.7cfa上线包”;
3、name":"木马-远控-Trojan.Win32.FakeLPK.7cfa上线包",搜索木马 远控 Trojan、上线包 这4个可以搜到;Win32 FakeLPK 7cfa 这3个搜不到
经过判断是配置文件中选择的默认分词器造成的:有的支持中午分词好,有的支持英文分词好。
word MaximumMatching:[木马, 远, 控, trojan, ., win32, fakelpk, 7cfa, 上线, 包]
word MaximumMatching:[木马, 远, 控, trojan, ., win32, fakelpk, 7cfa, 上线, 包]
jieba SEARCH:[木马, -, 远控, trojan, ., win32, fakelpk, 7cfa, 上线, 包]
jieba INDEX:[木马, -, 远控, trojan, ., win32, fakelpk, 7cfa, 上线, 包] -------这个目前是比较符合实际的
smartcn:[木马, 远, 控, trojan, win, 32, fakelpk, 7, cfa, 上, 线, 包]
mmseg4j Simple:[木马, 远, 控, trojan, win32, fakelpk, 7cfa, 上, 线, 包]
mmseg4j Complex:[木马, 远, 控, trojan, win32, fakelpk, 7cfa, 上, 线, 包]
jcseg Simple:[木马, -, 远, 控, trojan.win32.fakelpk.7cfa, trojan, win, 32, fakelpk, 7, cfa, 上线, 包]
jcseg Complex:[木马, -, 远, 控, trojan.win32.fakelpk.7cfa, trojan, win, 32, fakelpk, 7, cfa, 上线, 包]
hanlp standard:[木马, -, 远, 控, -Trojan, ., Win, 32, FakeLPK, 7, cfa, 上, 线, 包]
hanlp nlp:[木马, -, 远控, -Trojan, ., Win, 32, FakeLPK, 7, cfa, 上, 线, 包]
ansj BaseAnalysis:[木马, -, 远, 控, trojan, ., win, 32, fakelpk, 7, cfa, 上线, 包]
ansj IndexAnalysis:[木马, -, 远, 控, trojan, ., win, 32, fakelpk, 7, cfa, 上线, 包]
ik smart:[木马, 远, 控, trojan.win32.fakelpk.7cfa, 上线, 包] ------------默认的是这个
ik max_word:[木马, 远, 控, trojan.win32.fakelpk.7cfa, trojan, win, 32, fakelpk, 7, cfa, 上线, 包]
全文索引:部分词能查到,部分词查不到的bug的更多相关文章
- 【盘古分词】Lucene.Net 盘古分词 实现公众号智能自动回复
盘古分词是一个基于 .net framework 的中英文分词组件.主要功能 中文未登录词识别 盘古分词可以对一些不在字典中的未登录词自动识别 词频优先 盘古分词可以根据词频来解决分词的歧义问题 多元 ...
- Lucene.net(4.8.0)+PanGu分词器问题记录一:分词器Analyzer的构造和内部成员ReuseStategy
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
- Lucene 03 - 什么是分词器 + 使用IK中文分词器
目录 1 分词器概述 1.1 分词器简介 1.2 分词器的使用 1.3 中文分词器 1.3.1 中文分词器简介 1.3.2 Lucene提供的中文分词器 1.3.3 第三方中文分词器 2 IK分词器的 ...
- CSS如何实现”右部宽度固定,左部自适应“的布局
吃过晚饭后,开始刷前端笔试题,却遇到了一道CSS难题——使用CSS实现左部自适应.右部固定宽度为200px的布局.当时第一眼看到题目时,以为只是一道很简单的题目.不就是定义两个左浮动的div,右部的宽 ...
- Lucene系列四:Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
- 分词系统简介:PHPAnalysis分词程序
分词系统简介:PHPAnalysis分词程序使用居于unicode的词库,使用反向匹配模式分词,理论上兼容编码更广泛,并且对utf-8编码尤为方便. 由于PHPAnalysis是无组件的系统,因此速度 ...
- 浅谈分词算法基于字的分词方法(HMM)
前言 在浅谈分词算法(1)分词中的基本问题我们讨论过基于词典的分词和基于字的分词两大类,在浅谈分词算法(2)基于词典的分词方法文中我们利用n-gram实现了基于词典的分词方法.在(1)中,我们也讨论了 ...
- HanLP分词工具中的ViterbiSegment分词流程
本篇文章将重点讲解HanLP的ViterbiSegment分词器类,而不涉及感知机和条件随机场分词器,也不涉及基于字的分词器.因为这些分词器都不是我们在实践中常用的,而且ViterbiSegment也 ...
- Es学习第五课, 分词器介绍和中文分词器配置
上课我们介绍了倒排索引,在里面提到了分词的概念,分词器就是用来分词的. 分词器是ES中专门处理分词的组件,英文为Analyzer,定义为:从一串文本中切分出一个一个的词条,并对每个词条进行标准化.它由 ...
- es学习(三):分词器介绍以及中文分词器ik的安装与使用
什么是分词 把文本转换为一个个的单词,分词称之为analysis.es默认只对英文语句做分词,中文不支持,每个中文字都会被拆分为独立的个体. 示例 POST http://192.168.247.8: ...
随机推荐
- Array Stack Implement using C
- Linux_Comand - Check disk space
df -h du -sh Delete folder older than 30 days find /path -name "test-*" -type d -mtime +30 ...
- leetcode-easy-array-31 three sum
mycode 69.20% class Solution(object): def removeDuplicates(self, nums): """ :type nu ...
- iOS证书详解
一.成员介绍1. Certification(证书)证书是对电脑开发资格的认证,每个开发者帐号有一套,分为两种:1) Developer Certification(开发证书)安装在电脑上 ...
- nacos 发布配置
server 保留 2 份配置文件,一份在 mysql,一份在本地磁盘,同时在内存中缓存配置文件的 md5 值.当客户端获取配置时,server 直接返回本地磁盘文件,使用的是 sendFile ap ...
- 三:flask-配置文件的两种方式
项目中,配置的参数一般采用配置文件的形式,方便统一管理 第一种方式:模块的形式:使用app.config.from_object(config)的方式加载配置文件,此方式需要导入配置文件视为模块 第二 ...
- Hibernate API的使用(Query、Criteria、SQLQuery对象)
Query对象 我们使用Query对象不需要编写SQL语句,但是得写HQL语句. HQL:Hibernate Query Language:Hibernate提供的查询语言,和SQL语句很相似. HQ ...
- c++ 创建 uuid guid
如果没安装,先安装: [root@localhost]# yum install libuuid-devel #include "uuid/uuid.h" 引用 libuuid.s ...
- TCP中SYN洪水攻击
在查看TCP标识位SYN时,顺便关注了一下SYN Flood,从网上查阅一些资料加以整理,SYN洪水攻击利用TCP三次握手. 1.SYN洪水介绍 当一个系统(客户端C)尝试和一个提供了服务的系统(服务 ...
- Scratch少儿编程系列:(五)猜数字
一.程序说明: 程序生成1-100之间的随机数,如56,小明在输入框中输入猜的数字.如输入80,提示“猜大了”,如输入45,则提示“猜小了”. 不超过5次猜中,则成功,否则失败. 二.程序的流程图 为 ...