paip.输入法编程---词库多意义条目分割 python实现.
paip.输入法编程---词库多意义条目分割 python实现.
==========子标题
python mysql 数据库操作
多字符分隔,字符串分割
字符列表循环
作者 老哇的爪子 Attilax 艾龙, EMAIL:1466519819@qq.com
来源: http://blog.csdn.net/attilax
===================主要的流程
词库原来格式
carp n.鲤鱼;v.吹毛求疵 813
需要意义分割..
主要的流程如下:
for sqlQuery
{
#多分隔符转换为一个..
clearFmt(row)
clearBrakets
split(",") //
for insert into grejx_def (en,cn)values('@en','@cn')"
}
----------------------实际代码如下
from db import *
#多分隔符转换为一个..
def clearFmt(Ss):
Spos="prep.,pron.,n.,v.,conj.,s.,sc.,o.,oc.,vi.,vt.,aux.v.,a.,ad.,art.,num.,int.,u.,c.,pl.,adj."
print(Spos)
pos_a=Spos.split(",")
for index,v in enumerate(pos_a):
Ss=Ss.replace(v, ",")
Ss=Ss.replace(";", ",")
Ss=Ss.replace(",", ",")
Ss=Ss.replace(" ", "")
Ss=Ss.replace(",,", ",")
Ss=Ss.replace(",,", ",")
Ss=trim(Ss, ",")
print(Ss)
return Ss
""""
Ssx="v.支持,赞成;容忍;n.表情"
clearFmt(Ssx)
"""
def splitInsert(id, cnstr, en):
cnstr=clearFmt(cnstr)
cnstr_a=cnstr.split(",")
for index,v in enumerate(cnstr_a):
sql=" insert into grejx_def (en,cn)values('@en','@cn')"
sql=sql.replace("@en", trim(en)).replace("@cn", v.strip())
print(sql)
reslt= execute(sql)
print("---insert resl:")
print(reslt)
from pkg import *
from pkg.strUtil import *
Sql="SELECT * FROM `grejx_def` where 1=1 and ( nAdjV like '%;%' or nAdjV like '%,%' or nAdjV like '%...%' or nAdjV like '%,%' or nAdjV like '%;%' or LENGTH(nAdjV)>5 ) limit 10000"
print(Sql)
fdata=rs(Sql, conn)
for row in fdata:
print(row)
splitInsert(row['id'], row['nAdjV'], row['en'])
""""
for (en, cn, id) in cursor:
print(cn)
"""
paip.输入法编程---词库多意义条目分割 python实现.的更多相关文章
- paip.输入法英文词库的处理 python 代码 o4
paip.输入法英文词库的处理 python 代码 o4 目标是eng>>>中文>>atian 当输入非atian词的时候儿,能打印出 atian pinyin > ...
- paip.输入法编程----删除双字词简拼
paip.输入法编程----删除双字词简拼 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn.net/at ...
- paip.输入法编程--英文ati化By音标原理与中文atiEn处理流程 python 代码为例
paip.输入法编程--英文ati化By音标原理与中文atiEn处理流程 python 代码为例 #---目标 1. en vs enPHati 2.en vs enPhAtiSmp 3.cn vs ...
- paip.输入法编程---输入法ATIaN历史记录 c823
paip.输入法编程---输入法ATIaN历史记录 c823 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csd ...
- paip.输入法编程---智能动态上屏码儿长调整--.txt
paip.输入法编程---智能动态上屏码儿长调整--.txt 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csd ...
- paip.数据挖掘--导出词库 清理太长的iptcode
paip.数据挖掘--导出词库 清理太长的iptcode 原来eng2atian的时候儿,有些cnchar无对眼的atian,走临时使用nonex代替... 而个,要不个那清理给挂了.. #keywo ...
- paip.输入法编程---词频顺序order by py
paip.输入法编程---词频顺序order by py 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn ...
- paip.输入法编程---带ord gudin去重复-
paip.输入法编程---带ord gudin去重复- 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn.n ...
- paip.输入法编程---增加码表类型
paip.输入法编程---增加码表类型 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn.net/attil ...
随机推荐
- 如何用Jquery实现 ,比如点击图片之后 ,该图片变成向下的箭头,再点击向下箭头的图片 又变成原始图片呢
<!DOCTYPE html><html><head><meta charset="utf-8" /><title>切换 ...
- 单片机TM4C123学习(十):ADC采样模块
1.头文件 #include "tiva_adc.h" // ADC 2.引脚 3.初始化 // ADC初始化 // 光敏电阻(PE0)为通道3,存在序列0中,硬件平均为8个点 a ...
- python在不同层级目录import模块的方法
使用python进行程序编写时,经常会使用第三方模块包.这种包我们可以通过python setup install 进行安装后,通过import XXX或from XXX import yyy 进行导 ...
- 基本数据类型范围大小&&字节大小
char -128 ~ +127 short -32767 ~ + 32768 unsigned short 0 ~ 65536 int -2147483648 ~ +2147483647 unsig ...
- equals(==),toString
equals/==: 只有指向同一个对象是,才返回true. 特殊: String s1 = new String("hello"); String s2 = new String ...
- Oracle primary,unique,foreign 区别,Hibernate 关联映射
Oracle primary,unique,foreign 区别 转:http://www.cnblogs.com/henw/archive/2012/08/15/2639510.html NOT N ...
- toString的理解
Super的作用: 1. super可以直接调用父类的属性和方法. 2. super可以在子类的构造器中调用父类的构造器. 我们知道:实例化一个对象时,会调用构造器. 我们发现,仅仅实例化的是Stud ...
- 非官方windows下Cpython二进制扩展包下载地址
Unofficial Windows Binaries for Python Extension Packages url:http://www.lfd.uci.edu/~gohlke/pythonl ...
- Lucene.Net+盘古分词器(详细介绍)(转)
出处:http://www.cnblogs.com/magicchaiy/archive/2013/06/07/LuceneNet%E7%9B%98%E5%8F%A4%E5%88%86%E8%AF%8 ...
- Linux tar打包命令
Linux tar打包命令: 范例一:将整个 /etc 目录下的文件全部打包成为 /tmp/etc.tar [root@linux ~]# tar -cvf /tmp/etc.tar /etc < ...