为PC端Google拼音输入法增加词库

为什么折腾词库

都在说百度、讯飞等输入法上传用户词库,为了安全建议大家使用google输入法之类,话说回来,要想使用智能联想功能是不是就得把你输入习惯放在他的里面跑一圈才能知道你的输入习惯吧?

用什么输入法都是个人习惯,不过自打有了智能ABC拼音输入法的时候已经有本机记录输入词频的功能,个人还是喜欢Google拼音输入法,电脑端、手机端(我不是miboy)都安装。

因为各种原因,目前google拼音输入法的词库同步功能无法使用,重装系统之后除了把自己备份的词库手动导入之外,显得词库太瘦,由studyzy在github上发布的imewlconverter深蓝词库转换工具:

一款输入法词库转换软件,支持以下超过20种的输入法工具和词库

有了这个神器,就有想把搜狗词库下载下来。

开始手工活

通过搜狗细胞词库页面


通过查看网页源代码查找

/dict/cate/index/

可以看到,有下面几大类:

  • 人文科学
  • 农林渔畜
  • 医学
  • 城市信息大全
  • 娱乐
  • 工程与应用科学
  • 生活
  • 电子游戏
  • 社会科学
  • 自然科学
  • 艺术
  • 运动休闲

可以进一步看到每一类的单独页面是:

找到子类

里面的数字相当于是他的ID,点击进入每个大类,会打开对应的每一个细类,在细类页面找到每一类的总页数,例如,总页数是10页,每一页的具体页面是:

词库下载地址

在子类的每一个页面查找:

<div class="detail_title"><a href=

找到分页面里的词库名称:

http://pinyin.sogou.com//dict/detail/index/15206 动物词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15208 地理地质词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15124 生物词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15205 化学化工词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15202 数学词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15203 物理词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15207 植物词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15204 天文词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/15120 气象词汇大全【官方推荐】
http://pinyin.sogou.com//dict/detail/index/20660 测绘词汇大全【官方推荐】

对应的下载地址继续查找:

<div class="dict_dl_btn"><a href="

对应的下载地址是:

http://download.pinyin.sogou.com/dict/download_cell.php?id=15206&name=%E5%8A%A8%E7%89%A9%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15208&name=%E5%9C%B0%E7%90%86%E5%9C%B0%E8%B4%A8%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15124&name=%E7%94%9F%E7%89%A9%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15205&name=%E5%8C%96%E5%AD%A6%E5%8C%96%E5%B7%A5%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15202&name=%E6%95%B0%E5%AD%A6%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15203&name=%E7%89%A9%E7%90%86%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15207&name=%E6%A4%8D%E7%89%A9%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15204&name=%E5%A4%A9%E6%96%87%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=15120&name=%E6%B0%94%E8%B1%A1%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91
http://download.pinyin.sogou.com/dict/download_cell.php?id=20660&name=%E6%B5%8B%E7%BB%98%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91

给每个下载地址加入“.scel”后缀,放到迅雷里进行下载。

用到的工具

pycharm

找到子类分页面之后,通过python的request包把页面源代码下载到本地。(python连初学都算不上)

ultraedit

通过ultraedit的在文件中查找功能找到子类名称、词库名称和下载地址。

迅雷

在下载链接中加入scel后缀之后加入迅雷进行下载。
PS:词库有重复的。

按键精灵

迅雷下载时会提示有重复任务,问是否需要继续,用按键精灵录制了一个鼠标点击动作。

后记

一共找到6912个词库,自己下载了2000个。

书到读时方恨少,python应该可以一次搞定这个事情,这里算是用打补丁的方式做了。

把搜狗输入法词库导入Google拼音输入法的更多相关文章

  1. 用C语言将搜狗输入法词库转换成QQ拼音输入法词库

    搜狗输入法词库格式: 'ni'kan'xia 你看下 'ni'kan'xia'gai'hou 你看下改后 'ni'kan'xing'ma 你看行吗 'ni'kan'zen'me'yang 你看怎么样 ...

  2. Linux下安装google拼音输入法

    首先安装fcitx,前几天看了很多在ubuntu上能够使用的输入法,有人推荐是搜狗输入法,毕竟是国产嘛,但是会有意外发生,比如说安装之后会产生输入的字符乱码,是一堆看不懂的东西,我就是因为遇到了,然后 ...

  3. [转]ubuntu14.04安装好用的google拼音输入法

    原文网址:http://jingyan.baidu.com/article/219f4bf7d4a183de442d38f2.html 装了ubuntu14.04后感觉自带的拼音输入法不好用的有没有, ...

  4. ubuntu下google 拼音输入法的安装

    google拼音输入法安装 (1).获代替码:(没有git的先安装git:sudoapt-get install git-core) $>gitclone git://github.com/tc ...

  5. ubuntu14.04安装好用的google拼音输入法

    装了ubuntu14.04后感觉自带的拼音输入法不好用的有没有,有些字拼不出来有没有...,其实我们安装google拼音输入发就会好很多... 方法/步骤     安装google拼音输入法 $sud ...

  6. LinuxMint Mate 安装Google拼音输入法(Fcitx)

    安装Google拼音输入法(Fcitx)$ sudo apt-get install fcitx fcitx-config-gtk fcitx-frontend-all fcitx-ui-classi ...

  7. 树莓派3B/3B+ 清华镜像系统和安装中文输入法Fcitx及Google拼音输入法

    你还在为树莓派无法安装中文输入法而到处找教程吗? 你还在为树莓派每次下载都要远隔重洋获取资源,龟速下载而烦恼吗? 为了解决这个问题,在这篇树莓派教程中,我将手把手叫你怎样安装 清华镜像系统和中文输入法 ...

  8. ubuntu下的google拼音输入法(终结版)

    声明:此文章是从我的51cto博客上搬至于此. Ubuntu下SCIM应该是最好的中文输入法了,它与搜狗差不多,下面介绍它的安装方法: 1)终端输入: sudo apt-get remove scim ...

  9. 树莓派安装中文输入法Fcitx及Google拼音输入法

    本来是想给树莓派安装搜狗输入法的, 搜狗输入法Linux版:https://pinyin.sogou.com/linux/?r=pinyin 但是一直安装不成功,后面发现原来是系统架构不同导致的,搜狗 ...

随机推荐

  1. SQL Server 中计算农历

    1.建一表,放初始化资料   因为农历的日期,是由天文学家推算出来的,到现在只有到2049年的,以后的有了还可以加入!   CREATE TABLE SolarData ( yearId int no ...

  2. 【codeforces 434 div 1 A】Did you mean...

    [链接]h在这里写链接 [题意] 让你维护一段序列. 这段序列,不会出现连续3个以上的辅音. (或者一块全是辅音则也可以) (用空格可以断开连续次数); 要求空格最小. [题解] 模拟着,别让它出现连 ...

  3. Maven学习总结(17)——深入理解maven灵活的构建

    一个优秀的构建系统必须足够灵活,应该能够让项目在不同的环境下都能成功构建.maven为了支持构建的灵活性,内置了三大特性,即:属性.profile和资源过滤. 1.maven属性 maven属性分6类 ...

  4. svg的世界、视窗、视野

    刚学svg时 看视频有人说了视窗和视野两个概念.学移动端时,又听说过视口这个概念.感觉还是有点绕的.以此博客来整理记录我查的资料. 1.世界 就是说svg的世界其实可以无限大,你想让它多大就多大,你可 ...

  5. ftp 下载时防止从缓存中获取文件

    //http://baike.baidu.com/link?url=QucJiA_Fg_-rJI9D4G4Z4687HG4CfhtmBUd5TlXrcWCeIEXCZxIh0TD7ng1wROAzAu ...

  6. Spring配置文件头及xsd文件版本

    最初Spring配置文件的头部声明如下: Xml代码   <?xml version="1.0" encoding="UTF-8"?> <!D ...

  7. 重新配置vim

    重新配置,并非折腾,发个链接吧留着以后用。 都是前辈 vimer程序员的世界 Vim(gvim)配色方案推荐 gvim(vim)使用微软雅黑中文字体 Vim(gvim)编程字体推荐 所需即所获:像 I ...

  8. js如何生成[n,m]的随机数

    js如何生成[n,m]的随机数 一.总结 一句话总结:生成随机数就是用的Math的random方法. 1.Math.random()得到的数据的左右开闭情况是怎样的? 左闭又开 所以Math.floo ...

  9. STL algorithm算法make_heap和sort_heap(32)

    make_heap原型: std::make_heap default (1) template <class RandomAccessIterator> void make_heap ( ...

  10. 有关下拉列表、复选框、单选按钮、iframe等jquery处理方法

    1.jquery验证复选框互斥选项,代码如下: //验证复选框中的互斥选项 function checkData(name, val1, val2){ //获取所有checkbox值 var chec ...