最近利用晚上的时间,对很久没有新版本发布的深蓝词库转换进行了版本升级。本次升级主要包含的功能包括:

一.支持Win10自带的微软五笔输入法用户自定义短语的导入导出。

1.在转换输入法词库列表中选择“Win10微软五笔(自定义短语)”,程序会在同一个目录生成.dat文件。

2.在微软五笔的选项中,找到用户自定义短语,点击“添加或编辑自定义短语”。

3.点击“导入”按钮,选中我们刚才生成的.dat文件即可完成自定义短语的导入:

用同样的操作,如果是点击“导出”按钮,可以导出现有的自定义短语,并在深蓝词库转换中转换成其他词库。以上五笔编码是基于五笔98的字根来的,没有提供老版五笔86的字根编码。

二.基于dotnet core 2.2,支持在Linux和macOS下命令行模式的词库转换。

如果您使用的是Linux或者macOS,没有Windows也没有关系,现在深蓝词库转换能够很好的支持在这两种操作系统下的命令行操作。Linux和macOS下要运行深蓝词库转换需要先安装dotnet core runtime.具体安装步骤可参考微软官方网站:https://dotnet.microsoft.com/download

选择.NET Core 2.2的Runtime即可,如果想本地编译深蓝词库转换的源码的话才需要下载.NET Core SDK.

下载安装完毕后,我们运行以下命令,可以看到帮助信息:

dotnet ImeWlConverterCmd.dll -?

三.命令行模式增强——支持过滤器和词频的生成。

本次发布的命令行模式,除了支持Linux和macOS外,还对其命令也进行了增强。主要是支持了词频的生成和过滤器的设置。这两个都是在Windows下就有的功能,只是之前命令行一直不支持,现在加上了。

1. 对于导入词库不包含词频,而导出时需要指定词频,可以通过-r:命令指定词频的生成方式,

支持的有:

  • -r:baidu  根据该词语在百度搜索的结果数量决定词频
  • -r:google  根据该词语在Google搜索的结果数量决定词频(需翻墙)
  • -r:数字  指定一个固定数字的词频

2.使用-ft:可以设置词条的过滤条件,如果不设置则不过滤任何词条。

-ft:后面可以设置的过滤条件包括:

  • len:1-100 保留字数为1到100的词条
  • rank:2-9999 保留词频在2到9999的词条
  • rm:eng 移除包含英文字母的词条
  • rm:num 移除包含数字的词条
  • rm:space 移除包含空格的词条
  • rm:pun 移除包含标点符号的词条

以上过滤条件可以组合,同时起作用,用竖线分开即可:
-ft:"len:1-100|rank:2-9999|rm:eng|rm:num|rm:space|rm:pun"

下面举一个具体的例子。我们下载了一个细胞词库,细胞词库是没有词频的,所以我们想通过百度搜索确定词频。然后我们只想保留2-3个字的词条,太长的我们就不要了,另外也要过滤掉包含数字、英文、空格、标点等比较特殊的词条,所以我们转换的命令为:

dotnet ImeWlConverterCmd.dll -i:scel ./BlockChain.scel -o:qqpy ./qqpy.txt -r:baidu -ft:"len:2-3|rm:eng|rm:num|rm:space|rm:pun"

转换完成后,我们打开qqpy.txt,可以看到转换的结果满足了我们的要求,词频变化了,词条也只保留了2-3个字的。

最后,最新版下载地址是:https://github.com/studyzy/imewlconverter/releases/tag/v2.5

博客园下载链接:

https://files.cnblogs.com/files/studyzy/Release_V2.5_Windows.zip

https://files.cnblogs.com/files/studyzy/Release_V2.5_Linux_macOS.tar.gz

深蓝词库转换2.5发布——支持微软五笔,支持Linux和macOS和更多命令行功能的更多相关文章

  1. 深蓝词库转换2.2发布,支持手心输入法和Win10微软拼音

    距离上一次大版本的发布已经很久很久了,中间是不是会收到一些用户的来信,提出新的需求,于是只是做小版本的更新,终于积累了一些更新后,打算做个大版本的发布了. 深蓝词库转换是一个输入法的词库互转和生成软件 ...

  2. 深蓝词库转换2.4版发布,支持最新的搜狗用户词库备份bin格式

    很高兴的告诉大家,感谢GitHub上的h4x3rotab提供python版的搜狗用户词库备份bin格式的解析算法,感谢tmxkn1提供了C#版的实现,深蓝词库转换终于迎来了一个重大更新,能够支持搜狗用 ...

  3. 深蓝词库转换2.6版发布——支持Emoji、颜文字和小鹤双拼

    端午期间,别人在度假,我在家码代码,把深蓝词库转换做了一下版本升级.本次更新主要是2大特性: 1.支持Emoji和颜文字 在源词库中可以选择Emoji. Emoji文件的格式为: Emoji+< ...

  4. 用C语言将搜狗输入法词库转换成QQ拼音输入法词库

    搜狗输入法词库格式: 'ni'kan'xia 你看下 'ni'kan'xia'gai'hou 你看下改后 'ni'kan'xing'ma 你看行吗 'ni'kan'zen'me'yang 你看怎么样 ...

  5. .NET Core采用的全新配置系统[5]: 聊聊默认支持的各种配置源[内存变量,环境变量和命令行参数]

    较之传统通过App.config和Web.config这两个XML文件承载的配置系统,.NET Core采用的这个全新的配置模型的最大一个优势就是针对多种不同配置源的支持.我们可以将内存变量.命令行参 ...

  6. 把搜狗输入法词库导入Google拼音输入法

    为PC端Google拼音输入法增加词库 为什么折腾词库 都在说百度.讯飞等输入法上传用户词库,为了安全建议大家使用google输入法之类,话说回来,要想使用智能联想功能是不是就得把你输入习惯放在他的里 ...

  7. 【输入法】向Android端Gboard字典中导入PC端搜狗细胞词库

    [输入法]向Android端Gboard字典中导入PC端搜狗细胞词库 环境 Android 5.1.1 Gboard 8.7.10.272217667-release -armeabi-v7a PC端 ...

  8. (转载)Rime输入法—鼠须管(Squirrel)词库添加及配置

    为什么用Rime 13年底的时候,日本爆出百度的日本版本输入法的问题,要求政府人员停用,没当回事,反正我没用,当然了,有关搜狗和用户隐私有关的问题就一直没有中断过,也没太在意.但,前几天McAfee爆 ...

  9. (转载)Windows下小狼毫输入法(Rime)的安装与配置(含导入搜狗词库)

    div id="cnblogs_post_body" class="blogpost-body"> 最近彻底烦透了搜狗拼音输入法的各种流氓行为,自动升级不 ...

随机推荐

  1. webpack打包出现WARNING in configuration The 'mode' option has not been set, webpack will fallback to 'production' for this value. 错误

    打包运行的时候出现以下错误 WARNING in configurationThe 'mode' option has not been set, webpack will fallback to ' ...

  2. 利用 DFA 算法实现文字过滤

    一.DEA 算法简介 在实现文字过滤的算法中,DFA是唯一比较好的实现算法. DFA 全称为:Deterministic Finite Automaton,即确定有穷自动机.其特征为:有一个有限状态集 ...

  3. C++ lambda expression

    Emerged since c++11, lambda expression/function is an unnamed function object capable of capturing v ...

  4. Electron中使用sql.js操作SQLite数据库

    推荐sql.js——一款纯js的sqlite工具. 一.关于sql.js sql.js(https://github.com/kripken/sql.js)通过使用Emscripten编译SQLite ...

  5. ImportError: No module named flask 导包失败,Python3重新安装Flask模块

    在部署环境过程中,通过pip install -r requirements.txt安装包,结果启动项目时总是报错,显示没有flask模块,通过pip install flask还是不行,于是下载fl ...

  6. 安装包RPM包或源码包

    RPM工具 # mount /dev/cdrom /mnt     挂载光盘 # rpm     软件包管理器 -i     安装(需要安装包完整名称) -v    可视化 -h    显示安装进度 ...

  7. 加快C++代码的编译速度方法【转载】

    C++代码一直以其运行时的高性能高调面对世人, 但是说起编译速度,却只有低调的份了.比如我现在工作的源代码,哪怕使用Incredibuild调动近百台机子,一个完整的build也需要四个小时,恐怖!! ...

  8. centos6.5安装supervisor

    centos6.5安装supervisor,有很多种方法,但是有很多坑,为了以后不重复踩坑,这里记录一下. 一.如果用yum install supervisor, 默认安装的是2.1.9版本,2.x ...

  9. html和css的基本功

    1.块级元素和行内元素和行内块元素的区别 块级元素:独占一行的,可以设置宽高和内外边距的(<div>/<h1>~<h6>/<p>/<ul>/ ...

  10. 阿里云服务器搭建web项目小结

    前言 最近恰好有时间,自己搞了个云服务器试着搭建了个网站,遇到了一些问题,通过踩坑也涨了一些经验,遂记录一二,与后来者分享. 正文 1.博主用的阿里云服务器,为什么用它呢?一个是恰逢双十一,有优惠:另 ...