paip.输入法英文词库的处理 python 代码 o4



目标是eng>>>中文>>atian

当输入非atian词的时候儿,能打印出  atian pinyin >>>english提示..  ,在根据英文输入..





=====下载源词库

要下载一个格式好的词库文件还是很困难的..几乎没..只好自己写兰...



下载一个-GRE 8k词库..excel,删除不要的datasheet,导入mysql

格式如下:

abandon    v./n.放弃;放纵     



============需要做如下的数据清理:

分割出词性,分割出多个的中文词..如下

abandon    放弃         v./n.

abandon    放纵         v./n.





作者: 老哇的爪子Attilax 艾龙,  EMAIL:1466519819@qq.com

来源:http://blog.csdn.net/attilax



====对应的代码python

conn2 = mysql.connector.connect(user=user, password=pwd, host=host, database=db)



cursorInsert = conn2.cursor()

import dicUtil

from dicUtil import *

#this must match field amout and order in sql

for (en, cn, id) in cursor:

    if(hasTsisin(cn)):

        tsisin=left_ByDot(cn)

        cnstr=right_ByDot(cn)

    else:

        tsisin="nonx."

        cnstr=cn

    cnstr=cnstr.replace(";", ",")

    cnstr=cnstr.replace(",", ",")  

    

    cnstr_a=cnstr.split(",")

#    for index8 in range(len(list)):

#        print index8

#      print list[index8]

    print (" "+tsisin+"---"+cnstr)

    for index,v in enumerate(cnstr_a):

      #  print ()index

      #  print (v) strip

        sql=" insert into grejx_def (en,cn,nAdjV)values('@en','@cn','@adj')"

        sql=sql.replace("@en", trim(en)).replace("@cn", v.strip()).replace("@adj", tsisin.strip())

        print(sql)

        reslt=cursorInsert.execute(sql)

        

        print("---insert resl:")

        print(reslt)

        conn2.commit()

       

def hasTsisin(str):

    try:

        lastIndex=str.rindex(".")

        #print(lastIndex)

        return True

    except :

        print("--no has dot"+ str)

        return False       



参考

excel背单词-TOEFL-GRE - 下载频道 - CSDN.NET

paip.输入法英文词库的处理 python 代码 o4的更多相关文章

  1. paip.输入法编程---词库多意义条目分割 python实现.

    paip.输入法编程---词库多意义条目分割 python实现. ==========子标题 python mysql 数据库操作 多字符分隔,字符串分割 字符列表循环  作者 老哇的爪子 Attil ...

  2. paip.数据挖掘--导出词库 清理太长的iptcode

    paip.数据挖掘--导出词库 清理太长的iptcode 原来eng2atian的时候儿,有些cnchar无对眼的atian,走临时使用nonex代替... 而个,要不个那清理给挂了.. #keywo ...

  3. 利用graphviz软件和pycallgraph库自动生成Python代码函数调用关系图

    参考博文:https://blog.csdn.net/qq_36408085/article/details/82952846 https://blog.csdn.net/fondax/article ...

  4. 输入法词库解析(二)搜狗拼音细胞词库.scel(.qcel)

    详细代码:https://github.com/cxcn/dtool 前言 .scel 是搜狗拼音输入法所使用的细胞词库格式,可以在 https://pinyin.sogou.com/dict/ 下载 ...

  5. 把搜狗输入法词库导入Google拼音输入法

    为PC端Google拼音输入法增加词库 为什么折腾词库 都在说百度.讯飞等输入法上传用户词库,为了安全建议大家使用google输入法之类,话说回来,要想使用智能联想功能是不是就得把你输入习惯放在他的里 ...

  6. python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库 -转载

    转载请注明出处  “结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库. jieba的分词,提取关 ...

  7. 深蓝词库转换2.2发布,支持手心输入法和Win10微软拼音

    距离上一次大版本的发布已经很久很久了,中间是不是会收到一些用户的来信,提出新的需求,于是只是做小版本的更新,终于积累了一些更新后,打算做个大版本的发布了. 深蓝词库转换是一个输入法的词库互转和生成软件 ...

  8. paip.输入法编程--英文ati化By音标原理与中文atiEn处理流程 python 代码为例

    paip.输入法编程--英文ati化By音标原理与中文atiEn处理流程 python 代码为例 #---目标 1. en vs enPHati 2.en vs enPhAtiSmp 3.cn vs ...

  9. paip 自定义输入法多多输入法词库的备份导出以及导入

    paip 自定义输入法词库的备份导出以及导入 作者Attilax 艾龙,  EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn.net/ ...

随机推荐

  1. Linux系统常见的压缩与打包

    1.gzip, zcat [root@linux ~]# gzip [-cdt#] 檔名参数: -c  :将压缩的数据输出到屏幕上,可透过数据流重导向来处理: -d  :解压缩的参数: -t  :可以 ...

  2. python之urllib

    简单的web应用包括使用被称为url(统一资源定位器,uniform resource locator)的web地址 这个地址用来在web上定位一个文档,或调用一个CGI程序来为你的客户端产生一个文档 ...

  3. 前端开发必备! 20 个强大的 Sublime Text 插件

    http://www.oschina.net/translate/20-powerful-sublimetext-plugins http://www.w3cplus.com/tools/emmet- ...

  4. 新创建的项目利用git添加远程仓库

    git initgit remote add origin https:// //git账号中的网址 (git remote //可以查询添加的远程仓库) git add . //添加刚刚导入的整个工 ...

  5. ios 用户相册

    ## 获得自定义的所有相簿 // 获得所有的自定义相簿 PHFetchResult<PHAssetCollection *> *assetCollections = [PHAssetCol ...

  6. C#中不同的线程对控件的更改

    .net 不允许跨线程个性其它线程创建的控件. 要想实现这个功能就需要用 InvokeRequired 检查是不是由该线程创建的控件,如果是直接操作,如果不是则 用Invoke 添加一个委托再加上参数 ...

  7. 咏南WEB开发框架(FOR XE10.1 BERLIN)

    咏南WEB开发框架(FOR XE10.1 BERLIN) 1)支持最新的XE10.1 BERLIN开发WEB程序 2)如同开发VCL WIN32程序一样的速度 3)WEB框架通过咏南中间件和数据库打交 ...

  8. Ubuntu系统监控cpu memery 磁盘Io次数 IO速率 网卡 运行时间等信息的采集

    实验室最近在做的项目要做ubuntu系统监控,要获得系统的一些信息并返回给web服务器. web服务器与ubuntu主机的通信我写的程序用的是socket,至于为什么不用java程序ssh到对应的主机 ...

  9. Android(Xamarin)之旅(一)

    Xamarin废话我就不多说了. 就是一款编写Android和IOS应用的IDE,从Visual Studio2010就开始有个这个插件.只要发展什么的,我觉得在这里说还不如自己去百度呢. 入正题: ...

  10. 解决ubuntu bash: cd: ~:Permission denied

    cd /usr/local/hadoop 报错:bash: cd: /usr/local/hadoop:Permission denied 输入指令: /usr/local/hadoop 原因是没有权 ...