方案一:利用预训练好的词向量模型 优点: (1)能把词进行语义上的向量化(2)能得到词与词的相似度 缺点: (1)词向量的效果和语料库的大小和质量有较大的关系(2)用most_similar() 得到往往不是“同义词”,而是“共现词” from gensim.models.keyedvectors import KeyedVectors wv = KeyedVectors.load_word2vec_format('model/w2v_chisim_300d.bin', binary=True)…
paip.数据挖掘--导出词库 清理太长的iptcode 原来eng2atian的时候儿,有些cnchar无对眼的atian,走临时使用nonex代替... 而个,要不个那清理给挂了.. #keyword python 文件读写rwrite  unicode #清理规则:长度大的9,  而且含有nonex 作者 老哇的爪子 Attilax 艾龙,  EMAIL:1466519819@qq.com 来源: http://blog.csdn.net/attilax #主要的算法如下 x=r"c:\导…
文章转载自:http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 方案一: 基于配置的词典扩充 项目结构图如下: IK分词器还支持通过配置IKAnalyzer.cfg.xml文件来扩充您的专有词典.谷歌拼音词库下载: http://ishare.iask.sina.com.cn/f/14446921.html?from=like在web项目的src目录下创建IKAnalyzer.cfg.xml文件,内容如下 <?xml v…
redis超时问题分析 06/04. 2014 Redis在分布式应用中占据着越来越重要的地位,短短的几万行代码,实现了一个高性能的数据存储服务.最近dump中心的cm8集群出现过 几次redis超时的情况,但是查看redis机器的相关内存都没有发现内存不够,或者内存发生交换的情况,查看redis源码之后,发现在某些情况下 redis会出现超时的状况,相关细节如下. 1. 网络.Redis的处理与网络息息相关,如果网络出现闪断则容易发生redis超时的状况.如果出现这种状况首先应查看redis机…
很高兴的告诉大家,感谢GitHub上的h4x3rotab提供python版的搜狗用户词库备份bin格式的解析算法,感谢tmxkn1提供了C#版的实现,深蓝词库转换终于迎来了一个重大更新,能够支持搜狗用户词库的bin格式备份的导出了.再也不用受到搜狗输入法的钳制,可以自由切换到其他输入法了.搜狗bin词库只解析到了用户词条和词频,没有拼音,所以如果要导出其他拼音输入法,中间转换工具会根据词条的内容重新生成拼音. 另外在2.4版中,增加了用户词频强制设置的功能,比如将搜狗用户词库bin格式备份转换为…
最近公司有个项目,在请求量大的情况下,有大量的错误日志是关于redis超时的问题: Timeout performing SET XXX, inst: 27, mgr: ProcessReadQueue, err: never, queue: 3, qu: 0, qs: 3, qc: 0, wr: 0, wq: 0, in: 15, ar: 1, clientName: XXX, serverEndpoint: 192.168.x.x:6379, keyHashSlot: 944, IOCP:…
说明 ·目前的实现方式是以远程词库的内容重新构建CustomDictionary.trie,demo主要是为了实现同步远程词库,对性能暂不作考虑,对性能要求要以CustomDictionary.dat为基础实现 按hanlp作者述 trie后期可能会取消 目前CustomDictionary使用DAT储存词典文件中的词语,用BinTrie储存动态加入的词语,前者性能高,后者性能低 之所以保留动态增删功能,一方面是历史遗留特性,另一方面是调试用:来可能会去掉动态增删特性. ·ik的方案,远程词库并…
距离上一次大版本的发布已经很久很久了,中间是不是会收到一些用户的来信,提出新的需求,于是只是做小版本的更新,终于积累了一些更新后,打算做个大版本的发布了. 深蓝词库转换是一个输入法的词库互转和生成软件,支持市面上主流的各种输入法软件的词库(加密的除外)和各种输入法(拼音.五笔.二笔,甚至台湾的注音.仓颉等),除了汉语还支持英文词库的导入导出以及根据词典生成英文输入法词库. 说回这次新版本的发布,除了修复之前版本中的Bug外,主要是实现了以下新功能: 1.支持手心输入法 手心输入法是最近几年横空出…
一,分词系统地址:https://github.com/NLPchina/ansj_seg 二,为什么选择ansj? 1.项目需求: 我们平台要做手机售后的舆情分析,即对购买手机的用户的评论进行分析.分析出手机每个模块(比如:相机,充电等.这些大模块还需要细分,比如充电又可以分:充电慢,没有快充等)的好差评,并且计算差评率,供开发后续改进.之前一直是人工分析,随着评论的增加,这一块也是一个很大的工作量.因此我们想到了做评论的自动分析.这就要用到自然语言处理的技术了. 2.ansj的优点 分词效率…
tomcat常用架构:1)nginx+tomcat:即前端放一台nginx,然后通过nginx反向代理到tomcat端口(可参考:分享一例测试环境下nginx+tomcat的视频业务部署记录)2)tomcat直接部署站点,不通过nginx反向代理. 下面针对tomcat的有关配置使用进行说明:1)默认站点根目录                                                                                             …