输入法词库解析（四）百度分类词库.bdict(.bcd)

前言

.bdict 是百度的分类词库格式，可以在 https://shurufa.baidu.com/dict 下载。

手机百度的分类词库格式 .bcd 是一样的，可以在 https://mime.baidu.com/web/iw/index/ 下载。

解析

范围	描述
0x70 - 0x73	词条数
0x90 - 0xCF	词库名
0xD0 - 0x10F	词库作者
0x110 - 0x14F	示例词
0x150 - 0x34F	词库描述

有的词库在 0x250 开始的后 4 个字节是大端序的词条数。

码表偏移 0x350

词库不带拼音表，需要根据词库规纳出来，参考深蓝词库转换。

内部根据是否含有英文分为几种格式

格式一

纯中文

#	占用字节数	描述
a	2	拼音长，词长
	2	词频
	a*2	拼音，（声母索引<24+韵母索引<33）
	a*2	词，utf-16le 编码

带英文的，结构差不多，声母索引为 0xFF 表示英文字母

格式二：纯英文

编码使用 ascii

#	占用字节数	描述
a	2	词长
	2	词频
	a	词，ascii 编码

格式三：编码和词不等长

拼音不再使用索引，而是直接使用 utf-16le 编码

#	占用字节数	描述
a	2	编码数
	2	词频
	2	空
b	2	词长
	a*2	编码，utf-16le
	b*2	词，utf-16le

代码实现：

var bdictSm = []string{

    "c", "d", "b", "f", "g", "h", "ch", "j", "k", "l", "m", "n",

    "", "p", "q", "r", "s", "t", "sh", "zh", "w", "x", "y", "z",

}

var bdictYm = []string{

    "uang", "iang", "iong", "ang", "eng", "ian", "iao", "ing", "ong",

    "uai", "uan", "ai", "an", "ao", "ei", "en", "er", "ua", "ie", "in", "iu",

    "ou", "ia", "ue", "ui", "un", "uo", "a", "e", "i", "o", "u", "v",

}

func (BaiduBdict) Parse(filename string) Dict {

    data, _ := os.ReadFile(filename)

    r := bytes.NewReader(data)

    ret := make(Dict, 0, r.Len()>>8)

    var tmp []byte

    r.Seek(0x350, 0)

    for r.Len() > 4 {

        // 拼音长

        pyLen := ReadUint16(r)

        // 词频

        freq := ReadUint16(r)

        // 判断下两个字节

        tmp = make([]byte, 2)

        r.Read(tmp)

        // 编码和词不等长，全按 utf-16le

        if tmp[0] == 0 && tmp[1] == 0 {

            wordLen := ReadUint16(r)

            // 读编码

            tmp = make([]byte, pyLen*2)

            r.Read(tmp)

            code, _ := util.Decode(tmp, "UTF-16LE")

            // 读词

            tmp = make([]byte, wordLen*2)

            r.Read(tmp)

            word, _ := util.Decode(tmp, "UTF-16LE")

            ret = append(ret, Entry{

                Word:   word,

                Pinyin: []string{code},

                Freq:   freq,

            })

            continue

        }

        // 全英文的词，编码和词是一样的

        if int(tmp[0]) >= len(bdictSm) && tmp[0] != 0xff {

            r.Seek(-2, 1)

            eng := make([]byte, pyLen)

            r.Read(eng)

            ret = append(ret, Entry{

                Word:   string(eng),

                Pinyin: []string{string(eng)},

                Freq:   freq,

            })

            continue

        }

        // 一般格式

        r.Seek(-2, 1)

        pinyin := make([]string, 0, pyLen)

        for i := 0; i < pyLen; i++ {

            smIdx, _ := r.ReadByte()

            ymIdx, _ := r.ReadByte()

            // 带英文的词组

            if smIdx == 0xff {

                pinyin = append(pinyin, string(ymIdx))

                continue

            }

            pinyin = append(pinyin, bdictSm[smIdx]+bdictYm[ymIdx])

        }

        // 读词

        tmp = make([]byte, pyLen*2)

        r.Read(tmp)

        word, _ := util.Decode(tmp, "UTF-16LE")

        ret = append(ret, Entry{

            Word:   word,

            Pinyin: pinyin,

            Freq:   freq,

        })

    }

    return ret

}

参考资料：

深蓝词库转换

输入法词库解析（四）百度分类词库.bdict(.bcd)的更多相关文章

系列篇|编译可在Android上运行的依赖库（一）：glib库
前言这是系列文章,它们由<编译可在Android上运行的glib库>及其他4篇文章组成,这4篇文章在“编译依赖库”一节中列出.由于glib库依赖于其他第三方库,所以需要先将依赖的第三方库 ...
输入法词库解析（六）QQ 拼音分类词库.qpyd
详细代码:https://github.com/cxcn/dtool 前言 .qpyd 是 QQ 拼音输入法 6.0 以下版本所用的词库格式,可以在 http://cdict.qq.pinyin.cn ...
输入法词库解析（三）紫光拼音词库.uwl
详细代码:https://github.com/cxcn/dtool 前言 .uwl 是紫光拼音输入法(现在叫华宇拼音输入法)使用的词库. 解析紫光的词库有点复杂,拼音用的索引,但是拼音表没有写在词 ...
输入法词库解析（二）搜狗拼音细胞词库.scel(.qcel)
详细代码:https://github.com/cxcn/dtool 前言 .scel 是搜狗拼音输入法所使用的细胞词库格式,可以在 https://pinyin.sogou.com/dict/ 下载 ...
【中文同义词近义词】词向量 vs 同义词近义词库
方案一:利用预训练好的词向量模型优点: (1)能把词进行语义上的向量化(2)能得到词与词的相似度缺点: (1)词向量的效果和语料库的大小和质量有较大的关系(2)用most_similar() 得到 ...
python jieba分词(结巴分词)、提取词，加载词，修改词频，定义词库 -转载
转载请注明出处 “结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库. jieba的分词,提取关 ...
网络系列之 jsonp 百度联想词
jsonp 可以跨域,ajax 不可以,ajax 会受到浏览器的同源策略影响,何为同源策略? 同源策略就是,如果 A 网站想拿 B网站里的资源, 那么有三个条件, 你得满足才能拿. 第一个:域名相 ...
百度敏感词过滤（tp）
百度智能云网址https://cloud.baidu.com/ 1:打开网址->管理控制台->产品服务->SDK下载>内容审核->phpSDK 2:下载至php目录ser ...
GPS部标平台的架构设计(四)-百度地图设计
部标GPS软件平台之百度地图设计地图是客户端中不可缺少的一个模块,很多人在设计和画图时候,喜欢加上地图引擎这样高大上的字眼,显得自己的平台有内涵,说白了就是用第三方的SDK来开发,早期的GPS监控 ...

随机推荐

nextInt和nextLine以及next方法的区别
1.nextInt() 只读取整型的数据,输入读取完之后,光标仍在当前行. 2.nextLine() 扫描到一行内容,当遇见换行符时,结束扫描.一旦输入读取完毕,该方法会将光标移到下一行开始的位置. ...
-bash: /usr/local/maven/apache-maven-3.8.1/bin/mvn: 权限不够
chmod a+x /usr/local/maven/apache-maven-3.8.1/bin/mvn
NC25025 [USACO 2007 Nov G]Sunscreen
NC25025 [USACO 2007 Nov G]Sunscreen 题目题目描述 To avoid unsightly burns while tanning, each of the \(C\ ...
SpringBoot启动代码和自动装配源码分析
随着互联网的快速发展,各种组件层出不穷,需要框架集成的组件越来越多.每一种组件与Spring容器整合需要实现相关代码.SpringMVC框架配置由于太过于繁琐和依赖XML文件:为了方便快速集成第三 ...
【docker专栏7】容器自启动与守护进程停止后容器保活
本文为大家介绍容器自启动以及docker 守护进程挂掉或者docker升级的情况下,如何保证容器服务的正常运行.主要包含三个部分一.守护进程开机自启在我们安装docker的时候,介绍过启动dock ...
递归概念&分类&注意事项和使用递归计算1-n之间的和
递归概述递归:指在当前方法内调用自己的这种现象. 递归的分类: 递归分为两种,直接递归和间接递归直接递归称为方法自身调用自己简介递归可以A方法调用B方法,B方法调用C方法,C方法调用A方法注 ...
python 面向对象理解
简介与java语言一样,python也属于面向对象编程,除此之外,还有面向过程编程.函数式编程. 面向过程编程:依据业务逻辑自上而下一步一步编写, 可能会存在冗余现象函数式编程:需要编程语言可以将 ...
SQLServer的两个日期相减（间隔）datediff函数
select datediff(year, 开始日期,结束日期); --两日期间隔年 select datediff(quarter, 开始日期,结束日期); --两日期间隔季 select da ...
从零开始Blazor Server(8)--增加菜单以及调整位置
这篇干啥这篇文章主要是把前面的一些东西稍微调整一下,使其更适合后面的内容. 主要是两个事,一个是把原来的PermissionEntity直接变成MenuEntity,直接让最后一级是菜单,这样后面就 ...
SpringBoot（一、快速入门）
1.SpringBoot简介 Spring Boot 是由 Pivotal 团队提供的全新框架,其设计目的是用来简化新 Spring 应用的初始搭建以及开发过程.该框架使用了特定的方式来进行配置, ...

输入法词库解析（四）百度分类词库.bdict(.bcd)

前言

解析

格式一

格式二：纯英文

格式三：编码和词不等长

输入法词库解析（四）百度分类词库.bdict(.bcd)的更多相关文章

随机推荐

热门专题