详细代码:https://github.com/cxcn/dtool 前言 .scel 是搜狗拼音输入法所使用的细胞词库格式,可以在 https://pinyin.sogou.com/dict/ 下载. .qcel 是 QQ 拼音输入法 6.0 以上版本所用的词库格式,可以在 http://cdict.qq.pinyin.cn/ 下载. 解析 # 范围 描述 0x00 - 0x11F 未知 a 0x120 - 0x123 不展开重码的词条数(编码数) b 0x124 - 0x127 展开重码的词…
目录 selenium请求库 一.什么是selenium 二.环境搭建 三.使用selenium模块 1.使用chrome并设置为无GUI模式 2.使用chrome有GUI模式 3.显示等待与隐式等待 4.查找元素--find_element_by_* 5.xpath查找元素-- brower.find_element_by_id('tag_id') 6.清空输入框-- input_tag.clear() 7.frame切换-- brower.switch_to.frame('小页面的id')…
前言 这是系列文章,它们由<编译可在Android上运行的glib库>及其他4篇文章组成,这4篇文章在“编译依赖库”一节中列出.由于glib库依赖于其他第三方库,所以需要先将依赖的第三方库交叉编译到Android平台上才能成功的编译glib库,系列文章中除<编译可在Android上运行的glib库>外的其他交叉编译文章均是介绍如何对glib依赖库进行交叉编译.以上,所以叫系列文章,因为这些文章完整的介绍了如何编译可在Android上运行的glib库. 文章价值 这些文章的核心价值是…
[输入法]向Android端Gboard字典中导入PC端搜狗细胞词库 环境 Android 5.1.1 Gboard 8.7.10.272217667-release -armeabi-v7a PC端工具需要 词库转换器(深蓝词库转换2.6) 编辑器(需要有正则表达式的替换功能以及改编字符编码的功能,个人用的Notepad++7.8) 步骤 1. 在搜狗词库官网下载自己需要的细胞词库. 文件格式为.scel,双击可以导入到搜狗输入法的词库.现在不用双击导入,记住文件路径即可. 2. 用词库转换器…
详细代码:https://github.com/cxcn/dtool 前言 .qpyd 是 QQ 拼音输入法 6.0 以下版本所用的词库格式,可以在 http://cdict.qq.pinyin.cn/v1/ 下载. 该格式解析的主要难点是其使用了 zlib 压缩,解压后的数据很好解析. 解析 原始文件 0x38 后跟的 4 字节表示压缩数据开始的字节. 0x44 后跟的 4 字节表示词条数. 0x60 - 0x16F 是词库的一些描述信息. 其余未知. 解压数据 使用了 zlib 格式. 我们…
前言 .bdict 是百度的分类词库格式,可以在 https://shurufa.baidu.com/dict 下载. 手机百度的分类词库格式 .bcd 是一样的,可以在 https://mime.baidu.com/web/iw/index/ 下载. 解析 范围 描述 0x70 - 0x73 词条数 0x90 - 0xCF 词库名 0xD0 - 0x10F 词库作者 0x110 - 0x14F 示例词 0x150 - 0x34F 词库描述 有的词库在 0x250 开始的后 4 个字节是大端序的…
详细代码:https://github.com/cxcn/dtool 前言 .uwl 是紫光拼音输入法(现在叫华宇拼音输入法)使用的词库. 解析 紫光的词库有点复杂,拼音用的索引,但是拼音表没有写在词库里. 好在深蓝词库转换工具已经解析好了,这部分就跳过了. 词长和拼音长关系密切,要注意. 主要词库部分每 1024 字节为一段(分段意义何在?) 前两个字节未知,第 3 个字节表示字符编码格式 0x08 是 GBK,0x09 是 UTF-16LE. 范围 描述 0x04 - 0x23 词库名 0x…
方案一:利用预训练好的词向量模型 优点: (1)能把词进行语义上的向量化(2)能得到词与词的相似度 缺点: (1)词向量的效果和语料库的大小和质量有较大的关系(2)用most_similar() 得到往往不是“同义词”,而是“共现词” from gensim.models.keyedvectors import KeyedVectors wv = KeyedVectors.load_word2vec_format('model/w2v_chisim_300d.bin', binary=True)…
转载请注明出处  “结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库. jieba的分词,提取关键词,自定义词语. 结巴分词的原理 原文链接:http://blog.csdn.net/HHTNAN/article/details/78722754 1.jieba.cut分词三种模式 jieba.cut 方法接受三个输入参数: 需要分词的字符串:cut_all 参数用来控制是否采用全模式:HMM…
最近做项目需要解析二维码图片,找了一大圈,发现没有人去整理下开源的几个库案例,花了点时间 做了zxing,zbar和thoughtworkqrcode解析二维码案例,希望大家有帮助. zxing是谷歌开源的二维码库,zbar,thoughtworkQRcode也是开源的,三者之间比较各有优劣 下面通过一个案例demo源码,来认识学习下这三者的实际解码效果, 第一次上传demo源码,献丑了 zbar解析关键代码: Image primaryImage = Image.FromFile(fileNa…