详细代码:https://github.com/cxcn/dtool

前言

.scel 是搜狗拼音输入法所使用的细胞词库格式,可以在 https://pinyin.sogou.com/dict/ 下载。

.qcel 是 QQ 拼音输入法 6.0 以上版本所用的词库格式,可以在 http://cdict.qq.pinyin.cn/ 下载。

解析

# 范围 描述
0x00 - 0x11F 未知
a 0x120 - 0x123 不展开重码的词条数(编码数)
b 0x124 - 0x127 展开重码的词条数(词数)
0x128 - 0x12B 未知,和 a 有关
0x12C - 0x12F 未知,和 b 有关
0x130 - 0x337 词库名
0x338 - 0x53F 地点?
0x540 - 0xD3F 备注
0xD40 - 0x153F 示例词

拼音表

从 0x1540 开始。

前两个字节是拼音表的长度。这里 9D 01 就表示有 0x100 * 0x01 + 0x9D = 413 组。

后两个字节意义不明,一般是 0。

从 0x1544 开始就是拼音表正文部分。

# 占用字节数 描述
2 索引,从 00 009C 01
a 2 拼音字节的长度
a 拼音,utf-16le 编码,一个字母占 2 字节。

带英文词库的索引: 从拼音表的长度往后,依次是 abcd。比如表长 413,最大索引9D 01,则下一个索引9E 01表示字母 a,依次类推。

词库

偏移量 0x2628

# 占用字节数 描述
2 同一个音有多少词
a 2 拼音索引的字节长度
a 拼音索引数组
b 2 词占用字节数
b 词,utf-16le 编码
c 2 描述信息字节长度
c 描述

黑名单

一些新的 .scel 文件最后有一个黑名单词库。

前 12 个字节表示标识 DELTBL

接下来 2 个字节表示黑名单词库词条数。

# 占用字节数 描述
a 2 词长
a*2

代码实现:

func (SogouScel) Parse(filename string) Dict {
data, _ := os.ReadFile(filename)
r := bytes.NewReader(data)
ret := make(Dict, 0, r.Len()>>8)
var tmp []byte // 不展开的词条数
r.Seek(0x120, 0)
dictLen := ReadUint32(r) // 拼音表偏移量
r.Seek(0x1540, 0) // 前两个字节是拼音表长度,413
pyTableLen := ReadUint16(r)
pyTable := make([]string, pyTableLen)
// fmt.Println("拼音表长度", pyTableLen) // 丢掉两个字节
r.Seek(2, 1) // 读拼音表
for i := 0; i < pyTableLen; i++ {
// 索引,2字节
idx := ReadUint16(r)
// 拼音长度,2字节
pyLen := ReadUint16(r)
// 拼音 utf-16le
tmp = make([]byte, pyLen)
r.Read(tmp)
py, _ := util.Decode(tmp, "UTF-16LE")
//
pyTable[idx] = string(py)
} // 读码表
for j := 0; j < dictLen; j++ {
// 重码数(同一串音对应多个词)
repeat := ReadUint16(r) // 索引数组长
pinyinSize := ReadUint16(r) // 读取编码
var pinyin []string
for i := 0; i < pinyinSize/2; i++ {
theIdx := ReadUint16(r)
if theIdx >= pyTableLen {
pinyin = append(pinyin, string(byte(theIdx-pyTableLen+97)))
continue
}
pinyin = append(pinyin, pyTable[theIdx])
} // 读取一个或多个词
for i := 1; i <= repeat; i++ {
// 词长
wordSize := ReadUint16(r) // 读取词
tmp = make([]byte, wordSize)
r.Read(tmp)
word, _ := util.Decode(tmp, "UTF-16LE") // 末尾的补充信息,作用未知
extSize := ReadUint16(r)
ext := make([]byte, extSize)
r.Read(ext) ret = append(ret, Entry{word, pinyin, 1})
}
}
if r.Len() < 16 {
return ret
} // 黑名单
r.Seek(12, 1)
blackLen := ReadUint16(r)
var black_list bytes.Buffer
for i := 0; i < blackLen; i++ {
wordLen := ReadUint16(r)
tmp = make([]byte, wordLen*2)
r.Read(tmp)
word, _ := util.Decode(tmp, "UTF-16LE")
black_list.WriteString(word)
black_list.WriteByte('\n')
}
// os.WriteFile("black_list.txt", black_list.Bytes(), 0666)
return ret
}

参考资料:

输入法词库解析(二)搜狗拼音细胞词库.scel(.qcel)的更多相关文章

  1. 爬虫(二)—— 请求库(二)selenium请求库

    目录 selenium请求库 一.什么是selenium 二.环境搭建 三.使用selenium模块 1.使用chrome并设置为无GUI模式 2.使用chrome有GUI模式 3.显示等待与隐式等待 ...

  2. 系列篇|编译可在Android上运行的依赖库(一):glib库

    前言 这是系列文章,它们由<编译可在Android上运行的glib库>及其他4篇文章组成,这4篇文章在“编译依赖库”一节中列出.由于glib库依赖于其他第三方库,所以需要先将依赖的第三方库 ...

  3. 【输入法】向Android端Gboard字典中导入PC端搜狗细胞词库

    [输入法]向Android端Gboard字典中导入PC端搜狗细胞词库 环境 Android 5.1.1 Gboard 8.7.10.272217667-release -armeabi-v7a PC端 ...

  4. 输入法词库解析(六)QQ 拼音分类词库.qpyd

    详细代码:https://github.com/cxcn/dtool 前言 .qpyd 是 QQ 拼音输入法 6.0 以下版本所用的词库格式,可以在 http://cdict.qq.pinyin.cn ...

  5. 输入法词库解析(四)百度分类词库.bdict(.bcd)

    前言 .bdict 是百度的分类词库格式,可以在 https://shurufa.baidu.com/dict 下载. 手机百度的分类词库格式 .bcd 是一样的,可以在 https://mime.b ...

  6. 输入法词库解析(三)紫光拼音词库.uwl

    详细代码:https://github.com/cxcn/dtool 前言 .uwl 是紫光拼音输入法(现在叫华宇拼音输入法)使用的词库. 解析 紫光的词库有点复杂,拼音用的索引,但是拼音表没有写在词 ...

  7. 【中文同义词近义词】词向量 vs 同义词近义词库

    方案一:利用预训练好的词向量模型 优点: (1)能把词进行语义上的向量化(2)能得到词与词的相似度 缺点: (1)词向量的效果和语料库的大小和质量有较大的关系(2)用most_similar() 得到 ...

  8. python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库 -转载

    转载请注明出处  “结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库. jieba的分词,提取关 ...

  9. C#使用zxing,zbar,thoughtworkQRcode解析二维码,附源代码

    最近做项目需要解析二维码图片,找了一大圈,发现没有人去整理下开源的几个库案例,花了点时间 做了zxing,zbar和thoughtworkqrcode解析二维码案例,希望大家有帮助. zxing是谷歌 ...

随机推荐

  1. Lambda表达式有参数有返回值的练习(自定义接口)和Lambda省略格式&Lambda使用前提

    给定一个计算器Calculator接口,内含抽象方法calc可以将两个int数字相加得到和值 使用L ambdo的标准格式调用invokeCalc方法,完成120和130的相加计算 public in ...

  2. Bash脚本debug攻略

    初学Bash时, 我从未想过想过bash也能debug, 也从未想过去debug Bash脚本. 随着技术的增长, 写的脚本越来越复杂, 使用echo打印日志来调试脚本的方式越来越捉襟见肘了. 直到某 ...

  3. 简记清空C语言输入残留内容

    为了在命令行程序中实现和用户的交互,我们编写的程序的运行过程中往往涉及到对标准输入/输出流的多次读写. 在C语言中接受用户输入这一块,有着一个老生常谈的问题:"怎么样及时清空输入流中的数据? ...

  4. 2022年windows的Visual Studio 安装后初始配置

    目录 前言 1.开发环境设置,修改存储空间 打开编译器,选择工具-->导入和导出设置-->重置所有设置-->下一步 修改盘符-->下一步->选择环境->完成 2.主 ...

  5. 常用的函数式接口_Consumer接口和常用的函数式接口_Consumer接口的默认方法andThen

    Consumer接口 java,util.function.Consumer接口则正好与Supplier接口相反,它不是生产一个数据,而是消费一个数据,其数据类型由泛型决定 抽象方法:accept C ...

  6. python 参数类型理解

    简介 大家都知道,在java中,函数或者方法的参数在调用时必须对其进行传参操作,也就是所谓的必选参数,也可以称为位置参数,除此之外,python还拥有其他语言不具有的一些参数类型,以下将进行一一介绍. ...

  7. 2550--HashMap源码解析

    JDK版本 1.8 结构: HashMap实现了Map Cloneable Serializable接口: 基础了AbstractMap类,AbstractMap提供一些通用方法,如put remov ...

  8. JS中操作数组、字符串的速度比较

    对相同轻量级的数组和字符串进行检索:   const arr = [1, 2, 3, 4, 5, 6, 7, 8, 'q'] const string = '12345678q' const Q = ...

  9. Java 将Excel转为XML

    可扩展标记语言(XML)文件是一种标准的文本文件,它使用特定的标记来描述文档的结构以及其他特性.通常,我们可以通过格式转换的方式来得到XML格式的文件.本文,将通过Java代码介绍如何实现由Excel ...

  10. 用虚拟机封装win10系统的一些记录

    想用虚拟机封装一个WIN10企业LTSC,期间参考了IT天空小鱼儿的几大步骤一直到手动优化完,后面就自己用系统安装直接备份了一个.gho镜像.期间出过好多毛病,不过总算是成功实现了.注意点: 1.前面 ...