最近利用晚上的时间,对很久没有新版本发布的深蓝词库转换进行了版本升级。本次升级主要包含的功能包括:

一.支持Win10自带的微软五笔输入法用户自定义短语的导入导出。

1.在转换输入法词库列表中选择“Win10微软五笔(自定义短语)”,程序会在同一个目录生成.dat文件。

2.在微软五笔的选项中,找到用户自定义短语,点击“添加或编辑自定义短语”。

3.点击“导入”按钮,选中我们刚才生成的.dat文件即可完成自定义短语的导入:

用同样的操作,如果是点击“导出”按钮,可以导出现有的自定义短语,并在深蓝词库转换中转换成其他词库。以上五笔编码是基于五笔98的字根来的,没有提供老版五笔86的字根编码。

二.基于dotnet core 2.2,支持在Linux和macOS下命令行模式的词库转换。

如果您使用的是Linux或者macOS,没有Windows也没有关系,现在深蓝词库转换能够很好的支持在这两种操作系统下的命令行操作。Linux和macOS下要运行深蓝词库转换需要先安装dotnet core runtime.具体安装步骤可参考微软官方网站:https://dotnet.microsoft.com/download

选择.NET Core 2.2的Runtime即可,如果想本地编译深蓝词库转换的源码的话才需要下载.NET Core SDK.

下载安装完毕后,我们运行以下命令,可以看到帮助信息:

dotnet ImeWlConverterCmd.dll -?

三.命令行模式增强——支持过滤器和词频的生成。

本次发布的命令行模式,除了支持Linux和macOS外,还对其命令也进行了增强。主要是支持了词频的生成和过滤器的设置。这两个都是在Windows下就有的功能,只是之前命令行一直不支持,现在加上了。

1. 对于导入词库不包含词频,而导出时需要指定词频,可以通过-r:命令指定词频的生成方式,

支持的有:

  • -r:baidu  根据该词语在百度搜索的结果数量决定词频
  • -r:google  根据该词语在Google搜索的结果数量决定词频(需翻墙)
  • -r:数字  指定一个固定数字的词频

2.使用-ft:可以设置词条的过滤条件,如果不设置则不过滤任何词条。

-ft:后面可以设置的过滤条件包括:

  • len:1-100 保留字数为1到100的词条
  • rank:2-9999 保留词频在2到9999的词条
  • rm:eng 移除包含英文字母的词条
  • rm:num 移除包含数字的词条
  • rm:space 移除包含空格的词条
  • rm:pun 移除包含标点符号的词条

以上过滤条件可以组合,同时起作用,用竖线分开即可:
-ft:"len:1-100|rank:2-9999|rm:eng|rm:num|rm:space|rm:pun"

下面举一个具体的例子。我们下载了一个细胞词库,细胞词库是没有词频的,所以我们想通过百度搜索确定词频。然后我们只想保留2-3个字的词条,太长的我们就不要了,另外也要过滤掉包含数字、英文、空格、标点等比较特殊的词条,所以我们转换的命令为:

dotnet ImeWlConverterCmd.dll -i:scel ./BlockChain.scel -o:qqpy ./qqpy.txt -r:baidu -ft:"len:2-3|rm:eng|rm:num|rm:space|rm:pun"

转换完成后,我们打开qqpy.txt,可以看到转换的结果满足了我们的要求,词频变化了,词条也只保留了2-3个字的。

最后,最新版下载地址是:https://github.com/studyzy/imewlconverter/releases/tag/v2.5

博客园下载链接:

https://files.cnblogs.com/files/studyzy/Release_V2.5_Windows.zip

https://files.cnblogs.com/files/studyzy/Release_V2.5_Linux_macOS.tar.gz

深蓝词库转换2.5发布——支持微软五笔,支持Linux和macOS和更多命令行功能的更多相关文章

  1. 深蓝词库转换2.2发布,支持手心输入法和Win10微软拼音

    距离上一次大版本的发布已经很久很久了,中间是不是会收到一些用户的来信,提出新的需求,于是只是做小版本的更新,终于积累了一些更新后,打算做个大版本的发布了. 深蓝词库转换是一个输入法的词库互转和生成软件 ...

  2. 深蓝词库转换2.4版发布,支持最新的搜狗用户词库备份bin格式

    很高兴的告诉大家,感谢GitHub上的h4x3rotab提供python版的搜狗用户词库备份bin格式的解析算法,感谢tmxkn1提供了C#版的实现,深蓝词库转换终于迎来了一个重大更新,能够支持搜狗用 ...

  3. 深蓝词库转换2.6版发布——支持Emoji、颜文字和小鹤双拼

    端午期间,别人在度假,我在家码代码,把深蓝词库转换做了一下版本升级.本次更新主要是2大特性: 1.支持Emoji和颜文字 在源词库中可以选择Emoji. Emoji文件的格式为: Emoji+< ...

  4. 用C语言将搜狗输入法词库转换成QQ拼音输入法词库

    搜狗输入法词库格式: 'ni'kan'xia 你看下 'ni'kan'xia'gai'hou 你看下改后 'ni'kan'xing'ma 你看行吗 'ni'kan'zen'me'yang 你看怎么样 ...

  5. .NET Core采用的全新配置系统[5]: 聊聊默认支持的各种配置源[内存变量,环境变量和命令行参数]

    较之传统通过App.config和Web.config这两个XML文件承载的配置系统,.NET Core采用的这个全新的配置模型的最大一个优势就是针对多种不同配置源的支持.我们可以将内存变量.命令行参 ...

  6. 把搜狗输入法词库导入Google拼音输入法

    为PC端Google拼音输入法增加词库 为什么折腾词库 都在说百度.讯飞等输入法上传用户词库,为了安全建议大家使用google输入法之类,话说回来,要想使用智能联想功能是不是就得把你输入习惯放在他的里 ...

  7. 【输入法】向Android端Gboard字典中导入PC端搜狗细胞词库

    [输入法]向Android端Gboard字典中导入PC端搜狗细胞词库 环境 Android 5.1.1 Gboard 8.7.10.272217667-release -armeabi-v7a PC端 ...

  8. (转载)Rime输入法—鼠须管(Squirrel)词库添加及配置

    为什么用Rime 13年底的时候,日本爆出百度的日本版本输入法的问题,要求政府人员停用,没当回事,反正我没用,当然了,有关搜狗和用户隐私有关的问题就一直没有中断过,也没太在意.但,前几天McAfee爆 ...

  9. (转载)Windows下小狼毫输入法(Rime)的安装与配置(含导入搜狗词库)

    div id="cnblogs_post_body" class="blogpost-body"> 最近彻底烦透了搜狗拼音输入法的各种流氓行为,自动升级不 ...

随机推荐

  1. OSU!

    OSU! 首先,由题可知,本题是个期望题,根据期望的套路,定义f[x]为x前的答案,所以最终答案就是f[n] f[x]表示前x期望答案,即每一段的长度立方和的期望(一定要清楚) 但是三次方不好算,由于 ...

  2. CCF-CSP题解 201512-3 画图

    画图时思路应该清晰一点.我是将坐标\((x,y)\)映射到\(canvas[y][x]\)上. 连线注意\(+\)号的情况,填充写好\(dfs\)就好了. #include <bits/stdc ...

  3. 《Java基础知识》Java final关键字:阻止继承和多态

    在 Java 中,声明类.变量和方法时,可使用关键字 final 来修饰.final 所修饰的数据具有“终态”的特征,表示“最终的”意思.具体规定如下: final 修饰的类不能被继承. final ...

  4. 物联网基础组件IoTClient开发系列

    系列目录 IoTClient开发1 - 你也可以写个聊天程序 IoTClient开发2 - 你也可以写个服务器 IoTClient开发3 - ModBusTcp协议客户端实现 IoTClient开发4 ...

  5. 2、MVC+IOC容器+ORM结合

    1.常规写法,难道我们每次都new一个服务,如下面的UserService和CompanyService然后调用服务的Find方法去操作,为什么我们不让UserService和CompanyServi ...

  6. mkdir()提示No such file or directory错误的解决方法

    转自:http://www.02405.com/program/php/1692.html 在php中使用mkdir()方法创建文件夹时报错:No such file or directory,出错代 ...

  7. 中移动物联手机端APP软件

    https://open.iot.10086.cn/doc/book/device-develop/multpro/sdk-doc-tool/APP.html

  8. Java异常及异常处理

    如果某个方法不能按照正常的途径完成任务,就可以通过另一种路径退出方法.在这种情况下会抛出一个封装了错误信息的对象.此时,这个方法会立刻退出同时不返回任何值.另外,调用这个方法的其他代码也无法继续执行, ...

  9. Navicat远程连接MySQL8,必知防坑策略

    项目上线是每一个开发工程师面临收获前面抓紧时间开发的成果,但有时我们上线项目首先需要做一些相关的业务测试.通过Xshell远程连接后使用命令行的方式连接操作Mysql这个没什么太大的你问题.但每次通过 ...

  10. Java中"或"运算与"与"运算快慢的三三两两

    先上结论 模运算比与运算慢20%到30% 这是通过实验的方式得到的结论.因为没有大大可以进行明确指导,所以我以最终运行的结果为准.欢迎指正. 测试代码 @Test public void test10 ...