如何在mmseg3添加词库
一、了解几个文件
ll /usr/local/mmseg/etc/
mmseg.ini 
uni.lib   编译后的词库,给sphinx 用的
unigram.txt   原词库给人看的, 在这里面人工添加自己的词库
二、添加词条,格式如下
vim /usr/local/mmseg/etc/unigram.txt
邯郸王队  1    //[词条]\t[词频率]
x:1    //占位项(x:1即可)
工信处  1
x:1
女干事  1
x:1
注意:这里一定要是\t分隔,把词库文件下载下来,然后查看所有字符就知道了,直接vi的话不能copy,要手工输入Tab键
三、重新编译
编译词库:

/usr/local/mmseg/bin/mmseg -u unigram.txt         生成这个 unigram.txt.uni 文件,把这个文件重命名为uni.lib,给sphinx 用的即可
mv unigram.txt.uni  uni.lib
chmod +x /usr/local/mmseg/etc/uni.lib
// 可以不重启,保险起见还是重启下吧
/usr/local/coreseek/bin/searchd --stop           关掉searchd
/usr/local/coreseek/bin/searchd                  启动searchd
/usr/local/coreseek/bin/indexer --all --rotate   生成索引
检查是否生效
/usr/local/coreseek/bin/search 工信处女干事邯郸王队
words:
1. '工信处': 0 documents, 0 hits
2. '女干事': 0 documents, 0 hits
3. '邯郸王队': 0 documents, 0 hits
说明词库生效了												
											如何在mmseg3添加词库的更多相关文章
- Rime中州韵导入极点五笔词库(附:自制词库)
		
前言 之前写了一篇文章,[输入法]Rime-中州韵 基本设置 附:官方定制指南,其中导入词库这一块引用其它博主的文章,最近发现那个工具链接已经过期了,参考了百度贴吧的说明,不要直接使用工具去导入会更好 ...
 - ElasticSearch7.3学习(十五)----中文分词器(IK Analyzer)及自定义词库
		
1. 中文分词器 1.1 默认分词器 先来看看ElasticSearch中默认的standard 分词器,对英文比较友好,但是对于中文来说就是按照字符拆分,不是那么友好. GET /_analyze ...
 - (转载)Rime输入法—鼠须管(Squirrel)词库添加及配置
		
为什么用Rime 13年底的时候,日本爆出百度的日本版本输入法的问题,要求政府人员停用,没当回事,反正我没用,当然了,有关搜狗和用户隐私有关的问题就一直没有中断过,也没太在意.但,前几天McAfee爆 ...
 - IKAnalyzer 添加扩展词库和自定义词
		
原文链接http://blog.csdn.net/whzhaochao/article/details/50130605 IKanalyzer分词器 IK分词器源码位置 http://git.osch ...
 - SCWS中文分词,向xdb词库添加新词
		
SCWS是个不错的中文分词解决方案,词库也是hightman个人制作,总不免有些不尽如人意的地方.有些词语可能不会及时被收入词库中. 幸好SCWS提供了词库XDB导出导入词库的工具(phptool_f ...
 - solr添加中文IK分词器,以及配置自定义词库
		
Solr是一个基于Lucene的Java搜索引擎服务器.Solr 提供了层面搜索.命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式).它易于安装和配置,而且附带了一个基于H ...
 - solr添加IK分词和自己定义词库
		
下载IK分词IK Analyzer 2012FF_hf1.zip 下载地址:http://yunpan.cn/cdvATy8899Lrw (提取码:c10d) 1.将IKAnalyzer2012FF_ ...
 - 如何在Linux下添加函数库
		
如何为Linux增加库一. 静态库在Linux下的静态库是以.a为后缀的文件.1. 建静态库h1.c 源文件#include<stdio.h>void hello1(){printf(“t ...
 - 将搜狗词库.scel格式转化为.txt格式
		
由于项目中要用到词库,而下载的搜狗词库是.scel格式,所以就用python脚本将搜狗词库.scel格式文件转化为.txt格式文件. #!/bin/python # -*- coding: utf-8 ...
 
随机推荐
- Spring Boot 项目初始化
			
Spring Boot 项目创建 File->New->New Project->Spring Initializr 勾选 Web Spring Boot 版本选择稳定版,本文选择 ...
 - 关于msf反弹后门的免杀Tips
			
msf是一个很强大的工具,我经常会在渗透用它来反弹shell,不过它生成的反弹后门会被不少杀软kill,这篇文章只是讲讲我在msf中一个简单的免杀小技巧 思路 我以前接触过一款python的远控,其实 ...
 - 不能安装64位office提示已安装32位的
			
安装64位office办公软件的时候提示已经安装32位的office办公软件所以无法继续安装,但实际上之前安装的32位的office办公软件已经卸载了.问题现象截图如下: 从问题描述中,我们其实已经能 ...
 - LOJ#2427. 「POI2010」珍珠项链 Beads
			
题目地址 题目链接 题解 不会算复杂度真是致命,暴力枚举k每次计算是n/2+n/3+n/4+...+1的,用调和级数算是\(O(nlogn)\)的... 如果写哈希表的话能够\(O(nlogn)\), ...
 - C# 控制台运行 应用运行
			
https://blog.csdn.net/Koala_Ivy/article/details/79577830 开发遇到的问题 记录一下 前段时间捣鼓dotnetty框架,服务端写了一个控制台程序来 ...
 - gulp结合webpack开启多页面模式,配置如下
			
首先老规矩哈.全局包安装先 cnpm install webpack -g cnpm install gulp -g cnpm install babel -g //转换Es6 上面的整合在一起安装可 ...
 - website for .Net Core
			
5 Ways to Build Routing in ASP.NET Core Bundling in .NET Core MVC Applications with BundlerMinifier. ...
 - UI、JS框架----Bootstrap、Metro
			
Bootstrap Datagrid EasyUI Metro bootstrap Datepicker Editable for Bootstrap:bootstrap-editable.js X- ...
 - FI  业务
			
f-02 post f-03 clear[account]-> f-04 post with clear fb70/f-22 f-32 clear[account]->f-28 post ...
 - laydate控制之前的日期不可选择
			
laydate.render({ elem: '#start_time', min:0, //,type: 'date' //默认,可不填 }); 只要加一个min参数,就可以控制了.0表示之前的日期 ...