paip.输入法编程---词库多意义条目分割 python实现.
paip.输入法编程---词库多意义条目分割 python实现.
==========子标题
python mysql 数据库操作
多字符分隔,字符串分割
字符列表循环
作者 老哇的爪子 Attilax 艾龙, EMAIL:1466519819@qq.com
来源: http://blog.csdn.net/attilax
===================主要的流程
词库原来格式
carp n.鲤鱼;v.吹毛求疵 813
需要意义分割..
主要的流程如下:
for sqlQuery
{
#多分隔符转换为一个..
clearFmt(row)
clearBrakets
split(",") //
for insert into grejx_def (en,cn)values('@en','@cn')"
}
----------------------实际代码如下
from db import *
#多分隔符转换为一个..
def clearFmt(Ss):
Spos="prep.,pron.,n.,v.,conj.,s.,sc.,o.,oc.,vi.,vt.,aux.v.,a.,ad.,art.,num.,int.,u.,c.,pl.,adj."
print(Spos)
pos_a=Spos.split(",")
for index,v in enumerate(pos_a):
Ss=Ss.replace(v, ",")
Ss=Ss.replace(";", ",")
Ss=Ss.replace(",", ",")
Ss=Ss.replace(" ", "")
Ss=Ss.replace(",,", ",")
Ss=Ss.replace(",,", ",")
Ss=trim(Ss, ",")
print(Ss)
return Ss
""""
Ssx="v.支持,赞成;容忍;n.表情"
clearFmt(Ssx)
"""
def splitInsert(id, cnstr, en):
cnstr=clearFmt(cnstr)
cnstr_a=cnstr.split(",")
for index,v in enumerate(cnstr_a):
sql=" insert into grejx_def (en,cn)values('@en','@cn')"
sql=sql.replace("@en", trim(en)).replace("@cn", v.strip())
print(sql)
reslt= execute(sql)
print("---insert resl:")
print(reslt)
from pkg import *
from pkg.strUtil import *
Sql="SELECT * FROM `grejx_def` where 1=1 and ( nAdjV like '%;%' or nAdjV like '%,%' or nAdjV like '%...%' or nAdjV like '%,%' or nAdjV like '%;%' or LENGTH(nAdjV)>5 ) limit 10000"
print(Sql)
fdata=rs(Sql, conn)
for row in fdata:
print(row)
splitInsert(row['id'], row['nAdjV'], row['en'])
""""
for (en, cn, id) in cursor:
print(cn)
"""
paip.输入法编程---词库多意义条目分割 python实现.的更多相关文章
- paip.输入法英文词库的处理 python 代码 o4
paip.输入法英文词库的处理 python 代码 o4 目标是eng>>>中文>>atian 当输入非atian词的时候儿,能打印出 atian pinyin > ...
- paip.输入法编程----删除双字词简拼
paip.输入法编程----删除双字词简拼 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn.net/at ...
- paip.输入法编程--英文ati化By音标原理与中文atiEn处理流程 python 代码为例
paip.输入法编程--英文ati化By音标原理与中文atiEn处理流程 python 代码为例 #---目标 1. en vs enPHati 2.en vs enPhAtiSmp 3.cn vs ...
- paip.输入法编程---输入法ATIaN历史记录 c823
paip.输入法编程---输入法ATIaN历史记录 c823 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csd ...
- paip.输入法编程---智能动态上屏码儿长调整--.txt
paip.输入法编程---智能动态上屏码儿长调整--.txt 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csd ...
- paip.数据挖掘--导出词库 清理太长的iptcode
paip.数据挖掘--导出词库 清理太长的iptcode 原来eng2atian的时候儿,有些cnchar无对眼的atian,走临时使用nonex代替... 而个,要不个那清理给挂了.. #keywo ...
- paip.输入法编程---词频顺序order by py
paip.输入法编程---词频顺序order by py 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn ...
- paip.输入法编程---带ord gudin去重复-
paip.输入法编程---带ord gudin去重复- 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn.n ...
- paip.输入法编程---增加码表类型
paip.输入法编程---增加码表类型 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn.net/attil ...
随机推荐
- Codeforces Round #243
CF 243 DIV1 & DIV2 DIV2的A和B都太水,直接暴力搞就可以的. DIV2A /* ******************************************** ...
- 使用signal、setjmp、longjmp进行Linux/Android C异常处理
#include <stdio.h> #include <stdlib.h> #include <signal.h> #include <setjmp.h&g ...
- jquery学习--属性操作
学习jquery很长一段时间了,知道对属性操作的方式为: $("#xx1").attr("xx2"); //获取属性值 $("#xx1"). ...
- db2 进程
DB2 通用数据库进程全接触 Dwaine Snow, DB2 UDB 和 Informix IDS 产品经理, IBM 多伦多实验室 Dwaine Snow 是 DB2 UDB 分区数据库以及查询巡 ...
- rsyslog+mysql+loganalyzer搭建日志服务器<个人笔记>
大概思路如下: 使用Linux自带的rsyslog服务来做底层,然后再使用mysql与rsyslog的模板来存储文件,并且以web来进行显示出来.<模板的存储以日期的树形结构来存储,并且以服务器 ...
- 一个有趣的基于C++的模拟发牌程序
在内存中模拟出一副牌,然后模拟洗牌,发牌等动作. 流程是这样的:构建一副牌保存到一个数组中—洗牌—创建玩家—向玩家发牌–输出每个玩家的牌. #include <stdio.h> #incl ...
- Nodejs编码转化问题
目前Node.js仅支持hex.utf8.ascii.binary.base64.ucs2几种编码的转换.对于GBK,GB2312等编码,Nodejs自带的toString()方法不支持,因此中文转化 ...
- SQL删除重复数据
--首先将不是重复的数据提取出来,保存到一个临时表中 select distinct * into #temp from JX_Score --然后删除原来的表 delete from JX_Scor ...
- BST、B树、B+树、B*树
一. BST BST即二叉搜索树Binary Search Tree(又叫二叉排序树Binary Sort Tree).它有以下特点: 所有非叶子结点至多拥有两个儿子(Left和Right): 所有结 ...
- 自己写ORM框架 SqlHelper_DG C#(java的写在链接里)
ORM框架想必大家都比较熟知了,即对象关系映射(英语:Object Relation Mapping,简称ORM,或O/RM,或O/R mapping),是一种程序技术,用于实现面向对象编程语言里不同 ...