为PC端Google拼音输入法增加词库

为什么折腾词库

都在说百度、讯飞等输入法上传用户词库,为了安全建议大家使用google输入法之类,话说回来,要想使用智能联想功能是不是就得把你输入习惯放在他的里面跑一圈才能知道你的输入习惯吧?

用什么输入法都是个人习惯,不过自打有了智能ABC拼音输入法的时候已经有本机记录输入词频的功能,个人还是喜欢Google拼音输入法,电脑端、手机端(我不是miboy)都安装。

因为各种原因,目前google拼音输入法的词库同步功能无法使用,重装系统之后除了把自己备份的词库手动导入之外,显得词库太瘦,由studyzy在github上发布的imewlconverter深蓝词库转换工具:

一款输入法词库转换软件,支持以下超过20种的输入法工具和词库

有了这个神器,就有想把搜狗词库下载下来。

开始手工活

通过搜狗细胞词库页面


通过查看网页源代码查找

/dict/cate/index/

可以看到,有下面几大类:

  • 人文科学
  • 农林渔畜
  • 医学
  • 城市信息大全
  • 娱乐
  • 工程与应用科学
  • 生活
  • 电子游戏
  • 社会科学
  • 自然科学
  • 艺术
  • 运动休闲

可以进一步看到每一类的单独页面是:

找到子类

里面的数字相当于是他的ID,点击进入每个大类,会打开对应的每一个细类,在细类页面找到每一类的总页数,例如,总页数是10页,每一页的具体页面是:

词库下载地址

在子类的每一个页面查找:

<div class="detail_title"><a href=

找到分页面里的词库名称:

http://pinyin.sogou.com//dict/detail/index/15206 动物词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15208 地理地质词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15124 生物词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15205 化学化工词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15202 数学词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15203 物理词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15207 植物词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15204 天文词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15120 气象词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/20660 测绘词汇大全【官方推荐】

对应的下载地址继续查找:

<div class="dict_dl_btn"><a href="

对应的下载地址是:

http://download.pinyin.sogou.com/dict/download_cell.php?id=15206&name=%E5%8A%A8%E7%89%A9%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15208&name=%E5%9C%B0%E7%90%86%E5%9C%B0%E8%B4%A8%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15124&name=%E7%94%9F%E7%89%A9%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15205&name=%E5%8C%96%E5%AD%A6%E5%8C%96%E5%B7%A5%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15202&name=%E6%95%B0%E5%AD%A6%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15203&name=%E7%89%A9%E7%90%86%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15207&name=%E6%A4%8D%E7%89%A9%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15204&name=%E5%A4%A9%E6%96%87%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15120&name=%E6%B0%94%E8%B1%A1%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=20660&name=%E6%B5%8B%E7%BB%98%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91

给每个下载地址加入“.scel”后缀,放到迅雷里进行下载。

用到的工具

pycharm

找到子类分页面之后,通过python的request包把页面源代码下载到本地。(python连初学都算不上)

ultraedit

通过ultraedit的在文件中查找功能找到子类名称、词库名称和下载地址。

迅雷

在下载链接中加入scel后缀之后加入迅雷进行下载。
PS:词库有重复的。

按键精灵

迅雷下载时会提示有重复任务,问是否需要继续,用按键精灵录制了一个鼠标点击动作。

后记

一共找到6912个词库,自己下载了2000个。

书到读时方恨少,python应该可以一次搞定这个事情,这里算是用打补丁的方式做了。

把搜狗输入法词库导入Google拼音输入法的更多相关文章

  1. 用C语言将搜狗输入法词库转换成QQ拼音输入法词库

    搜狗输入法词库格式: 'ni'kan'xia 你看下 'ni'kan'xia'gai'hou 你看下改后 'ni'kan'xing'ma 你看行吗 'ni'kan'zen'me'yang 你看怎么样 ...

  2. Linux下安装google拼音输入法

    首先安装fcitx,前几天看了很多在ubuntu上能够使用的输入法,有人推荐是搜狗输入法,毕竟是国产嘛,但是会有意外发生,比如说安装之后会产生输入的字符乱码,是一堆看不懂的东西,我就是因为遇到了,然后 ...

  3. [转]ubuntu14.04安装好用的google拼音输入法

    原文网址:http://jingyan.baidu.com/article/219f4bf7d4a183de442d38f2.html 装了ubuntu14.04后感觉自带的拼音输入法不好用的有没有, ...

  4. ubuntu下google 拼音输入法的安装

    google拼音输入法安装 (1).获代替码:(没有git的先安装git:sudoapt-get install git-core) $>gitclone git://github.com/tc ...

  5. ubuntu14.04安装好用的google拼音输入法

    装了ubuntu14.04后感觉自带的拼音输入法不好用的有没有,有些字拼不出来有没有...,其实我们安装google拼音输入发就会好很多... 方法/步骤     安装google拼音输入法 $sud ...

  6. LinuxMint Mate 安装Google拼音输入法(Fcitx)

    安装Google拼音输入法(Fcitx)$ sudo apt-get install fcitx fcitx-config-gtk fcitx-frontend-all fcitx-ui-classi ...

  7. 树莓派3B/3B+ 清华镜像系统和安装中文输入法Fcitx及Google拼音输入法

    你还在为树莓派无法安装中文输入法而到处找教程吗? 你还在为树莓派每次下载都要远隔重洋获取资源,龟速下载而烦恼吗? 为了解决这个问题,在这篇树莓派教程中,我将手把手叫你怎样安装 清华镜像系统和中文输入法 ...

  8. ubuntu下的google拼音输入法(终结版)

    声明:此文章是从我的51cto博客上搬至于此. Ubuntu下SCIM应该是最好的中文输入法了,它与搜狗差不多,下面介绍它的安装方法: 1)终端输入: sudo apt-get remove scim ...

  9. 树莓派安装中文输入法Fcitx及Google拼音输入法

    本来是想给树莓派安装搜狗输入法的, 搜狗输入法Linux版:https://pinyin.sogou.com/linux/?r=pinyin 但是一直安装不成功,后面发现原来是系统架构不同导致的,搜狗 ...

随机推荐

  1. 每日技术总结:setx,

    1.setx命令设置环境变量 设置用户环境变量: setx NAME "XXX" 设置系统环境变量: setx NAME "XXX" /m

  2. Day3:集合

    一.集合的定义及特性 1.集合的特性 1.1   去重,把一个列表变成集合,就自动去重了 1.2   关系测试,测试两组数据之间的交集.差集等关系 #!/usr/bin/env python # -* ...

  3. 如何在本地运行查看github上的开源项目

    看中了一款很多星星的github的项目,想把这个项目拉到自己的电脑上运行查看项目效果,该怎么做?示例:我们今天要看的 github项目地址:https://github.com/lzxb/vue-cn ...

  4. Android内存优化杂谈

    Android内存优化是我们性能优化工作中比较重要的一环,这里其实主要包括两方面的工作: 优化RAM,即降低运行时内存.这里的目的是防止程序发生OOM异常,以及降低程序由于内存过大被LMK机制杀死的概 ...

  5. LA 3942 - Remember the Word 字典树+DP

    看题传送门:https://icpcarchive.ecs.baylor.edu/index.php?option=com_onlinejudge&Itemid=8&page=show ...

  6. MySql Order By 多个字段 排序规则

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/xlxxcc/article/details/52250963 说在前面 突发奇想,想了解一下mysq ...

  7. client、server端编程

    首先是从main函数开发: int main(itn argc,char* argv[]) { pthread_t thread; int count; int status;         cli ...

  8. angular的学习参考材料

    原文地址:https://www.jianshu.com/p/b9db7bb3d4ec 目的 其实写这篇文章的主要目的是为了提供给那些刚刚入门angular或者有意学习angular的读者准备的. 我 ...

  9. 删除GitHub上项目中的某个文件

    原文地址 https://www.jianshu.com/p/242412b43ca5 1.首先在本地中更新有该项目的最新包 即确保本地项目和git上的项目内容保持同步(git pull拉取项目代码) ...

  10. Lucene学习总结之二:Lucene的总体架构 2014-06-25 14:12 622人阅读 评论(0) 收藏

    Lucene总的来说是: 一个高效的,可扩展的,全文检索库. 全部用Java实现,无须配置. 仅支持纯文本文件的索引(Indexing)和搜索(Search). 不负责由其他格式的文件抽取纯文本文件, ...