paip.输入法编程---词库多意义条目分割 python实现.
paip.输入法编程---词库多意义条目分割 python实现.
==========子标题
python mysql 数据库操作
多字符分隔,字符串分割
字符列表循环
作者 老哇的爪子 Attilax 艾龙, EMAIL:1466519819@qq.com
来源: http://blog.csdn.net/attilax
===================主要的流程
词库原来格式
carp n.鲤鱼;v.吹毛求疵 813
需要意义分割..
主要的流程如下:
for sqlQuery
{
#多分隔符转换为一个..
clearFmt(row)
clearBrakets
split(",") //
for insert into grejx_def (en,cn)values('@en','@cn')"
}
----------------------实际代码如下
from db import *
#多分隔符转换为一个..
def clearFmt(Ss):
Spos="prep.,pron.,n.,v.,conj.,s.,sc.,o.,oc.,vi.,vt.,aux.v.,a.,ad.,art.,num.,int.,u.,c.,pl.,adj."
print(Spos)
pos_a=Spos.split(",")
for index,v in enumerate(pos_a):
Ss=Ss.replace(v, ",")
Ss=Ss.replace(";", ",")
Ss=Ss.replace(",", ",")
Ss=Ss.replace(" ", "")
Ss=Ss.replace(",,", ",")
Ss=Ss.replace(",,", ",")
Ss=trim(Ss, ",")
print(Ss)
return Ss
""""
Ssx="v.支持,赞成;容忍;n.表情"
clearFmt(Ssx)
"""
def splitInsert(id, cnstr, en):
cnstr=clearFmt(cnstr)
cnstr_a=cnstr.split(",")
for index,v in enumerate(cnstr_a):
sql=" insert into grejx_def (en,cn)values('@en','@cn')"
sql=sql.replace("@en", trim(en)).replace("@cn", v.strip())
print(sql)
reslt= execute(sql)
print("---insert resl:")
print(reslt)
from pkg import *
from pkg.strUtil import *
Sql="SELECT * FROM `grejx_def` where 1=1 and ( nAdjV like '%;%' or nAdjV like '%,%' or nAdjV like '%...%' or nAdjV like '%,%' or nAdjV like '%;%' or LENGTH(nAdjV)>5 ) limit 10000"
print(Sql)
fdata=rs(Sql, conn)
for row in fdata:
print(row)
splitInsert(row['id'], row['nAdjV'], row['en'])
""""
for (en, cn, id) in cursor:
print(cn)
"""
paip.输入法编程---词库多意义条目分割 python实现.的更多相关文章
- paip.输入法英文词库的处理 python 代码 o4
paip.输入法英文词库的处理 python 代码 o4 目标是eng>>>中文>>atian 当输入非atian词的时候儿,能打印出 atian pinyin > ...
- paip.输入法编程----删除双字词简拼
paip.输入法编程----删除双字词简拼 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn.net/at ...
- paip.输入法编程--英文ati化By音标原理与中文atiEn处理流程 python 代码为例
paip.输入法编程--英文ati化By音标原理与中文atiEn处理流程 python 代码为例 #---目标 1. en vs enPHati 2.en vs enPhAtiSmp 3.cn vs ...
- paip.输入法编程---输入法ATIaN历史记录 c823
paip.输入法编程---输入法ATIaN历史记录 c823 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csd ...
- paip.输入法编程---智能动态上屏码儿长调整--.txt
paip.输入法编程---智能动态上屏码儿长调整--.txt 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csd ...
- paip.数据挖掘--导出词库 清理太长的iptcode
paip.数据挖掘--导出词库 清理太长的iptcode 原来eng2atian的时候儿,有些cnchar无对眼的atian,走临时使用nonex代替... 而个,要不个那清理给挂了.. #keywo ...
- paip.输入法编程---词频顺序order by py
paip.输入法编程---词频顺序order by py 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn ...
- paip.输入法编程---带ord gudin去重复-
paip.输入法编程---带ord gudin去重复- 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn.n ...
- paip.输入法编程---增加码表类型
paip.输入法编程---增加码表类型 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn.net/attil ...
随机推荐
- Fedora20安装fcitx输入法
Fedora20安装fcitx输入法 Fedora20默认安装的是ibus输入法,总有一些原因让我们选择fcitx输入法: ibus出词顺序有bug 在输入人名的时候,有些名字输入两三次后还是不会出现 ...
- if条件里比较浮点数
晚上看会儿书,基础的东西,很多都不熟练,不得不佩服那些人真的很厉害,为啥会想到那些,我这傻脑袋是想不到,暂时...... 比较3.3333与3 #!/bin/bash var1=`echo " ...
- Vmware /CentOS访问Windows中的文件
1.将该文件设为共享文件夹 2.确定你的windows IP地址,用户名及密码 3.CentOS终端输入以下内容: [root@*** mnt]# mkdir winD [root@*** m ...
- SDK,monkey 浅谈
最近在工作之余碰到一些手机测试的新手,现在测试手机的基本都是android的系统. 然后在遇到压力测试的时候就开始遇到问题了. 压力测试用什么工具?怎么使用?工具怎么来? 今天遇到两个人都问我SDK是 ...
- Servlet实现定时刷新到另外一个页面response.setHeader("refresh", "3;url=/...")
想要实现,访问Responsedemo11的时候,3秒钟后,跳转到ResponseDemo10 用 response.setHeader("refresh", "3; ...
- python 写文件,utf-8问题
写文件报数据. 同样的编码. 含中文字段的输出文件 编码为utf-8 无中文的却是asc import codecstxt = u”qwer”file=codecs.open(“test”,”w”,” ...
- Odoo10尝鲜: 退货
Odoo sale / purchase 在 v9 改进之后, 开立发票的入口 不再像之前的版本,有多个来源,例如 订单 交货单 记工单 分析分录 现在只有一个入口,只需要在 订单上开票,这样 ...
- python工具的安装
下载: python安装包:python-2.7.3.msi pywin32-218.win32-py2.7.exe setuptools安装包:setuptools-0.6c11.win32-py2 ...
- (Python)集合、集合的函数
本节我们将学习python的另一种数据类型:集合(set) 1.集合(set) 集合在Python中是一种没有重复元素,且无序的数据类型,且不能通过索引来引用集合中的元素 >>> b ...
- Mac 系统下类似于 apt-get 的软件包管理器 -- Homebrew
对于一个习惯了在 Ubuntu 的终端上通过 apt-get 来安装工具软件的我来说,也希望在Mac上找到类似的工具,能很方便的一条命令就能安装所需的软件,而不用手工的去查找下载编译,或者是折腾安装所 ...