全文索引:部分词能查到,部分词查不到的bug
全文索引的概念:将存储在数据库中的整本书或整篇文章中的任意内容信息查找出来的技术。它可以根据需要获取全文中有关章,节,段,句,词等信息,也可以进行各种统计和分析。
1、在edgelabel木马的name属性上建立search索引;
2、插入木马数据,name为“木马-远控-Trojan.Win32.FakeLPK.7cfa上线包”;
3、name":"木马-远控-Trojan.Win32.FakeLPK.7cfa上线包",搜索木马 远控 Trojan、上线包 这4个可以搜到;Win32 FakeLPK 7cfa 这3个搜不到
经过判断是配置文件中选择的默认分词器造成的:有的支持中午分词好,有的支持英文分词好。
word MaximumMatching:[木马, 远, 控, trojan, ., win32, fakelpk, 7cfa, 上线, 包]
word MaximumMatching:[木马, 远, 控, trojan, ., win32, fakelpk, 7cfa, 上线, 包]
jieba SEARCH:[木马, -, 远控, trojan, ., win32, fakelpk, 7cfa, 上线, 包]
jieba INDEX:[木马, -, 远控, trojan, ., win32, fakelpk, 7cfa, 上线, 包] -------这个目前是比较符合实际的
smartcn:[木马, 远, 控, trojan, win, 32, fakelpk, 7, cfa, 上, 线, 包]
mmseg4j Simple:[木马, 远, 控, trojan, win32, fakelpk, 7cfa, 上, 线, 包]
mmseg4j Complex:[木马, 远, 控, trojan, win32, fakelpk, 7cfa, 上, 线, 包]
jcseg Simple:[木马, -, 远, 控, trojan.win32.fakelpk.7cfa, trojan, win, 32, fakelpk, 7, cfa, 上线, 包]
jcseg Complex:[木马, -, 远, 控, trojan.win32.fakelpk.7cfa, trojan, win, 32, fakelpk, 7, cfa, 上线, 包]
hanlp standard:[木马, -, 远, 控, -Trojan, ., Win, 32, FakeLPK, 7, cfa, 上, 线, 包]
hanlp nlp:[木马, -, 远控, -Trojan, ., Win, 32, FakeLPK, 7, cfa, 上, 线, 包]
ansj BaseAnalysis:[木马, -, 远, 控, trojan, ., win, 32, fakelpk, 7, cfa, 上线, 包]
ansj IndexAnalysis:[木马, -, 远, 控, trojan, ., win, 32, fakelpk, 7, cfa, 上线, 包]
ik smart:[木马, 远, 控, trojan.win32.fakelpk.7cfa, 上线, 包] ------------默认的是这个
ik max_word:[木马, 远, 控, trojan.win32.fakelpk.7cfa, trojan, win, 32, fakelpk, 7, cfa, 上线, 包]
全文索引:部分词能查到,部分词查不到的bug的更多相关文章
- 【盘古分词】Lucene.Net 盘古分词 实现公众号智能自动回复
盘古分词是一个基于 .net framework 的中英文分词组件.主要功能 中文未登录词识别 盘古分词可以对一些不在字典中的未登录词自动识别 词频优先 盘古分词可以根据词频来解决分词的歧义问题 多元 ...
- Lucene.net(4.8.0)+PanGu分词器问题记录一:分词器Analyzer的构造和内部成员ReuseStategy
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
- Lucene 03 - 什么是分词器 + 使用IK中文分词器
目录 1 分词器概述 1.1 分词器简介 1.2 分词器的使用 1.3 中文分词器 1.3.1 中文分词器简介 1.3.2 Lucene提供的中文分词器 1.3.3 第三方中文分词器 2 IK分词器的 ...
- CSS如何实现”右部宽度固定,左部自适应“的布局
吃过晚饭后,开始刷前端笔试题,却遇到了一道CSS难题——使用CSS实现左部自适应.右部固定宽度为200px的布局.当时第一眼看到题目时,以为只是一道很简单的题目.不就是定义两个左浮动的div,右部的宽 ...
- Lucene系列四:Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
- 分词系统简介:PHPAnalysis分词程序
分词系统简介:PHPAnalysis分词程序使用居于unicode的词库,使用反向匹配模式分词,理论上兼容编码更广泛,并且对utf-8编码尤为方便. 由于PHPAnalysis是无组件的系统,因此速度 ...
- 浅谈分词算法基于字的分词方法(HMM)
前言 在浅谈分词算法(1)分词中的基本问题我们讨论过基于词典的分词和基于字的分词两大类,在浅谈分词算法(2)基于词典的分词方法文中我们利用n-gram实现了基于词典的分词方法.在(1)中,我们也讨论了 ...
- HanLP分词工具中的ViterbiSegment分词流程
本篇文章将重点讲解HanLP的ViterbiSegment分词器类,而不涉及感知机和条件随机场分词器,也不涉及基于字的分词器.因为这些分词器都不是我们在实践中常用的,而且ViterbiSegment也 ...
- Es学习第五课, 分词器介绍和中文分词器配置
上课我们介绍了倒排索引,在里面提到了分词的概念,分词器就是用来分词的. 分词器是ES中专门处理分词的组件,英文为Analyzer,定义为:从一串文本中切分出一个一个的词条,并对每个词条进行标准化.它由 ...
- es学习(三):分词器介绍以及中文分词器ik的安装与使用
什么是分词 把文本转换为一个个的单词,分词称之为analysis.es默认只对英文语句做分词,中文不支持,每个中文字都会被拆分为独立的个体. 示例 POST http://192.168.247.8: ...
随机推荐
- Spring的Aop理解
主要作用:解决代码复用,避免重复性编写代码. 比较典型的场景:日志打印,权限验证,事务处理 参考网址为:http://moon-walker.iteye.com/blog/2381532 spring ...
- TP3.2写分页
用TP3.2写分页 手册上说的好难懂,我自己去网上找资料 ,现在整理一下,以后可能会用: 在Think下面有Page.class.php类: 我在这个下面放了一个function.php的(算是类吧又 ...
- c++ 加载资源文件
int _tmain(int argc, _TCHAR* argv[]) { HRSRC hRsrc = FindResource(NULL, MAKEINTRESOURCE(IDR_DATA1), ...
- itchat初步解读登录(转)
原文:https://blog.csdn.net/coder_pig/article/details/81357810 itchat的登录采取的是通过itchat.auto_login()这个函数来完 ...
- Jmeter---BeanShell 常用的 vars, get, props, put ,log用法
BeanShell介 BeanShell是用Java写成的,一个小型的.免费的.可以下载的.嵌入式的Java源代码解释器,具有对象脚本语言特性.本篇只记录一下基本的使用.有以下五个组件: Beansh ...
- DWIN串口屏的使用
学习需要,根据dwin的官方文档及网络资料整理而来. 一. 基础知识理解 1.1.变量地址和描述指针 VP(变量地址)和SP(描述指针)通常是指显示变量功能的两种定义,两者共用0000到6FFF地址 ...
- Git push “fatal: Authentication failed ”
Git push "fatal: Authentication failed " 问题原因 之前设置了两步验证 If you enabled two-factor authenti ...
- Linux 自学shell
1.多个命令用";"分号分割 还可以使用alias 给命令取别名 alias foo='cd /usr ; ls; cd -'2.使用管道线"|" 一个命令的标 ...
- 深入理解java:1.3.1 JVM内存区域的划分(运行时数据区)
学习Java GC机制,可以帮助我们在日常工作中 排查各种内存溢出或泄露问题,解决性能瓶颈,达到更高的并发量,写出更高效的程序. 我们将从4个方面学习Java GC机制, 1,内存是如何分配的: 2, ...
- 解读Nodejs多核处理模块cluste
http://blog.fens.me/nodejs-core-cluster/ Node.js开发框架Express4.x http://blog.fens.me/nodejs-express4 ...