输入法词库解析(二)搜狗拼音细胞词库.scel(.qcel)
前言
.scel 是搜狗拼音输入法所使用的细胞词库格式,可以在 https://pinyin.sogou.com/dict/ 下载。
.qcel 是 QQ 拼音输入法 6.0 以上版本所用的词库格式,可以在 http://cdict.qq.pinyin.cn/ 下载。
解析
| # | 范围 | 描述 |
|---|---|---|
| 0x00 - 0x11F | 未知 | |
| a | 0x120 - 0x123 | 不展开重码的词条数(编码数) |
| b | 0x124 - 0x127 | 展开重码的词条数(词数) |
| 0x128 - 0x12B | 未知,和 a 有关 | |
| 0x12C - 0x12F | 未知,和 b 有关 | |
| 0x130 - 0x337 | 词库名 | |
| 0x338 - 0x53F | 地点? | |
| 0x540 - 0xD3F | 备注 | |
| 0xD40 - 0x153F | 示例词 |
拼音表
从 0x1540 开始。
前两个字节是拼音表的长度。这里 9D 01 就表示有 0x100 * 0x01 + 0x9D = 413 组。
后两个字节意义不明,一般是 0。
从 0x1544 开始就是拼音表正文部分。
| # | 占用字节数 | 描述 |
|---|---|---|
| 2 | 索引,从 00 00 到 9C 01 |
|
| a | 2 | 拼音字节的长度 |
| a | 拼音,utf-16le 编码,一个字母占 2 字节。 |
带英文词库的索引: 从拼音表的长度往后,依次是 abcd。比如表长 413,最大索引9D 01,则下一个索引9E 01表示字母 a,依次类推。
词库
偏移量 0x2628
| # | 占用字节数 | 描述 |
|---|---|---|
| 2 | 同一个音有多少词 | |
| a | 2 | 拼音索引的字节长度 |
| a | 拼音索引数组 | |
| b | 2 | 词占用字节数 |
| b | 词,utf-16le 编码 | |
| c | 2 | 描述信息字节长度 |
| c | 描述 |
黑名单
一些新的 .scel 文件最后有一个黑名单词库。
前 12 个字节表示标识 DELTBL。
接下来 2 个字节表示黑名单词库词条数。
| # | 占用字节数 | 描述 |
|---|---|---|
| a | 2 | 词长 |
| a*2 | 词 |
代码实现:
func (SogouScel) Parse(filename string) Dict {
data, _ := os.ReadFile(filename)
r := bytes.NewReader(data)
ret := make(Dict, 0, r.Len()>>8)
var tmp []byte
// 不展开的词条数
r.Seek(0x120, 0)
dictLen := ReadUint32(r)
// 拼音表偏移量
r.Seek(0x1540, 0)
// 前两个字节是拼音表长度,413
pyTableLen := ReadUint16(r)
pyTable := make([]string, pyTableLen)
// fmt.Println("拼音表长度", pyTableLen)
// 丢掉两个字节
r.Seek(2, 1)
// 读拼音表
for i := 0; i < pyTableLen; i++ {
// 索引,2字节
idx := ReadUint16(r)
// 拼音长度,2字节
pyLen := ReadUint16(r)
// 拼音 utf-16le
tmp = make([]byte, pyLen)
r.Read(tmp)
py, _ := util.Decode(tmp, "UTF-16LE")
//
pyTable[idx] = string(py)
}
// 读码表
for j := 0; j < dictLen; j++ {
// 重码数(同一串音对应多个词)
repeat := ReadUint16(r)
// 索引数组长
pinyinSize := ReadUint16(r)
// 读取编码
var pinyin []string
for i := 0; i < pinyinSize/2; i++ {
theIdx := ReadUint16(r)
if theIdx >= pyTableLen {
pinyin = append(pinyin, string(byte(theIdx-pyTableLen+97)))
continue
}
pinyin = append(pinyin, pyTable[theIdx])
}
// 读取一个或多个词
for i := 1; i <= repeat; i++ {
// 词长
wordSize := ReadUint16(r)
// 读取词
tmp = make([]byte, wordSize)
r.Read(tmp)
word, _ := util.Decode(tmp, "UTF-16LE")
// 末尾的补充信息,作用未知
extSize := ReadUint16(r)
ext := make([]byte, extSize)
r.Read(ext)
ret = append(ret, Entry{word, pinyin, 1})
}
}
if r.Len() < 16 {
return ret
}
// 黑名单
r.Seek(12, 1)
blackLen := ReadUint16(r)
var black_list bytes.Buffer
for i := 0; i < blackLen; i++ {
wordLen := ReadUint16(r)
tmp = make([]byte, wordLen*2)
r.Read(tmp)
word, _ := util.Decode(tmp, "UTF-16LE")
black_list.WriteString(word)
black_list.WriteByte('\n')
}
// os.WriteFile("black_list.txt", black_list.Bytes(), 0666)
return ret
}
参考资料:
输入法词库解析(二)搜狗拼音细胞词库.scel(.qcel)的更多相关文章
- 爬虫(二)—— 请求库(二)selenium请求库
目录 selenium请求库 一.什么是selenium 二.环境搭建 三.使用selenium模块 1.使用chrome并设置为无GUI模式 2.使用chrome有GUI模式 3.显示等待与隐式等待 ...
- 系列篇|编译可在Android上运行的依赖库(一):glib库
前言 这是系列文章,它们由<编译可在Android上运行的glib库>及其他4篇文章组成,这4篇文章在“编译依赖库”一节中列出.由于glib库依赖于其他第三方库,所以需要先将依赖的第三方库 ...
- 【输入法】向Android端Gboard字典中导入PC端搜狗细胞词库
[输入法]向Android端Gboard字典中导入PC端搜狗细胞词库 环境 Android 5.1.1 Gboard 8.7.10.272217667-release -armeabi-v7a PC端 ...
- 输入法词库解析(六)QQ 拼音分类词库.qpyd
详细代码:https://github.com/cxcn/dtool 前言 .qpyd 是 QQ 拼音输入法 6.0 以下版本所用的词库格式,可以在 http://cdict.qq.pinyin.cn ...
- 输入法词库解析(四)百度分类词库.bdict(.bcd)
前言 .bdict 是百度的分类词库格式,可以在 https://shurufa.baidu.com/dict 下载. 手机百度的分类词库格式 .bcd 是一样的,可以在 https://mime.b ...
- 输入法词库解析(三)紫光拼音词库.uwl
详细代码:https://github.com/cxcn/dtool 前言 .uwl 是紫光拼音输入法(现在叫华宇拼音输入法)使用的词库. 解析 紫光的词库有点复杂,拼音用的索引,但是拼音表没有写在词 ...
- 【中文同义词近义词】词向量 vs 同义词近义词库
方案一:利用预训练好的词向量模型 优点: (1)能把词进行语义上的向量化(2)能得到词与词的相似度 缺点: (1)词向量的效果和语料库的大小和质量有较大的关系(2)用most_similar() 得到 ...
- python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库 -转载
转载请注明出处 “结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库. jieba的分词,提取关 ...
- C#使用zxing,zbar,thoughtworkQRcode解析二维码,附源代码
最近做项目需要解析二维码图片,找了一大圈,发现没有人去整理下开源的几个库案例,花了点时间 做了zxing,zbar和thoughtworkqrcode解析二维码案例,希望大家有帮助. zxing是谷歌 ...
随机推荐
- Windows 启动过程
引言 启动过程是我们了解操作系统的第一个环节.了解 Windows 的启动过程,可以帮助我们解决一些启动的问题,也能帮助我们了解 Windows 的整体结构. 以下内容将分为[加载内核].[内核初始化 ...
- React key究竟有什么作用?深入源码不背概念,五个问题刷新你对于key的认知
壹 ❀ 引 我在[react]什么是fiber?fiber解决了什么问题?从源码角度深入了解fiber运行机制与diff执行一文中介绍了react对于fiber处理的协调与提交两个阶段,而在介绍协调时 ...
- 蒸腾量与蒸散量(ET)数据、潜在蒸散量、实际蒸散量数据、气温数据、降雨量数据
数据下载链接:数据下载链接 引言 多种卫星遥感数据反演地表蒸腾与蒸散率(ET)产品是地理遥感生态网推出的生态环境类数据产品之一,产品包括2000-2009年三个波段RGB数据,值域0-252之 ...
- centos7 nginx 域名能ping通,但无法打开网页
方法一:关闭防火墙 sudo systemctl stop firewalld.service 方法二:容许80端口访问 vim打开iptables, 命令如下: #vim /etc/sysconfi ...
- ShardingSphere 云上实践:开箱即用的 ShardingSphere-Proxy 集群
本次 Apache ShardingSphere 5.1.2 版本更新为大家带来了三大全新功能,其中之一即为使用 ShardingSphere-Proxy chart 在云环境中快速部署一套 Shar ...
- Jetty 源码解析 - 流程
前言 公司实习分配给的任务是精简和优化 Jetty 框架,这里做简单的思路记录(比较乱),源码是 Jetty 7.x.x . 大体流程 Connector 接口的实现类 SelectChannelCo ...
- qbxt五一数学Day3
目录 1. 组合数取模 1. \(n,m\le 200\),\(p\) 任意 2. \(n,m\le 10^6\),\(p\ge 10^9\) 素数 3. \(n,m\le 10^6\),\(p\le ...
- 2506-nginx的配置-域名分发与负载均衡(只有配置无原理)
nginx的安装 Windows7:官网下载,是一个压缩包,运行解压缩后的exe文件即启动了nginx,需注意的是,Windows(win7)的80端口默认被微软的IIS占用,需改成别的端口,例如80 ...
- Linux 系统时间同步服务器配置
# Linux 时间同步 # 查看系统时间: date # 查看硬件日期 # ntp 软件 # chrony 软件 chrony比ntp更精确 # 利用ntp手动瞬间同步时间: ntpdate 172 ...
- Apache DolphinScheduler 的持续集成方向实践
今天给大家带来的分享是基于 Apache DolphinScheduler 的持续集成方向实践,分享的内容主要为以下六点: " 研发效能 DolphinScheduler CI/CD 应用案 ...