说明 ·目前的实现方式是以远程词库的内容重新构建CustomDictionary.trie,demo主要是为了实现同步远程词库,对性能暂不作考虑,对性能要求要以CustomDictionary.dat为基础实现 按hanlp作者述 trie后期可能会取消 目前CustomDictionary使用DAT储存词典文件中的词语,用BinTrie储存动态加入的词语,前者性能高,后者性能低 之所以保留动态增删功能,一方面是历史遗留特性,另一方面是调试用:来可能会去掉动态增删特性. ·ik的方案,远程词库并…
作者:韩信子@ShowMeAI 深度学习实战系列:https://www.showmeai.tech/tutorials/42 自然语言处理实战系列:https://www.showmeai.tech/tutorials/45 计算机视觉实战系列:https://www.showmeai.tech/tutorials/46 本文地址:https://www.showmeai.tech/article-detail/392 声明:版权所有,转载请联系平台与作者并注明出处 收藏ShowMeAI查看更…
Midjourney AI绘图最关键的地方在于Prompt提示词写的好,一个好的提示词可以让AI模型创造出更优质的绘图,以下是8个免费的Midjourney Prompt提示词辅助平台. ​ 编辑切换为居中 添加图片注释,不超过 140 字(可选) ​ 编辑切换为居中 添加图片注释,不超过 140 字(可选) ​ 编辑切换为居中 添加图片注释,不超过 140 字(可选) ​ 编辑切换为居中 添加图片注释,不超过 140 字(可选) ​ 编辑切换为居中 添加图片注释,不超过 140 字(可选) ​…
为什么用Rime 13年底的时候,日本爆出百度的日本版本输入法的问题,要求政府人员停用,没当回事,反正我没用,当然了,有关搜狗和用户隐私有关的问题就一直没有中断过,也没太在意.但,前几天McAfee爆出的某输入法用户敏感数据未加密传输的问题,就让人担心了. 好吧,既然这样,还是卸了第三方的输入法吧,虽然Yosemite自带的输入法已经进步很大了,但是总是用的不顺手,也想念自己多年在搜狗输入法上积累的词库.既然这样,那就只能考虑自己动手丰衣足食的问题了. 有关“Rime鼠须管”输入法,在各类MAC…
摘要:对于中文的搜索来说,词库系统是一个很比较重要的模块,本篇以IK分词器为例子,介绍如何让分词器从缓存或文件系统中自动按照一定频次进行加载扩展词库 Lucene.Solr或ElasticStack如何从外部动态加载词库进入到内存作为分词使用,且这一系列动作不需要重启相应的搜索服务?当前市面上各种博客.论坛都是各种转载或者只是最简单的使用IK,根本无法达到线上使用的条件,而IK分词器默认是一次启动将主词库.停用词以及扩展词库全部加载完毕,后续如果再想要增加额外的扩展词就必须得修改对应的扩展词表并…
为PC端Google拼音输入法增加词库 为什么折腾词库 都在说百度.讯飞等输入法上传用户词库,为了安全建议大家使用google输入法之类,话说回来,要想使用智能联想功能是不是就得把你输入习惯放在他的里面跑一圈才能知道你的输入习惯吧? 用什么输入法都是个人习惯,不过自打有了智能ABC拼音输入法的时候已经有本机记录输入词频的功能,个人还是喜欢Google拼音输入法,电脑端.手机端(我不是miboy)都安装. 因为各种原因,目前google拼音输入法的词库同步功能无法使用,重装系统之后除了把自己备份的…
Android官方新推的DI库 Hilt Hilt是Google Android官方新推荐的依赖注入工具. 已加入到官方文档: Dependency injection with Hilt. 目前是alpha release阶段. Hilt是在Dagger之上, Hilt单词的意思是: 刀把, 柄. 代码库还是这个google/dagger. Hilt的出现, 让我想起了曾经昙花一现的dagger.android, 不知道hilt能不能经得住时间的考验. 本文介绍Hilt的基本使用. 熟悉dag…
刚开始接触Linux的小伙伴可能比较懵逼,我要使用ibus输入法还是fcitx(小企鹅)输入法,其实这两种都不能说是输入法,Linux中输入法的使用是依赖于输入法框架的,其中搜狗输入法和百度输入法都是依赖于fcitx框架的,当然两种框架用什么依据个人爱好,对于小白选手还是推荐fcitx吧,因为搜狗用着真香啊.自带的输入法皮肤样式真的是一言难尽,词库也不符合中文的输入习惯,既然适应不了,我们就改造他. 接下来主要描述如何整合搜狗的皮肤和词库. 前提是你使用的Linux发行版已经安装了fcitx输入…
1. 中文分词器 1.1 默认分词器 先来看看ElasticSearch中默认的standard 分词器,对英文比较友好,但是对于中文来说就是按照字符拆分,不是那么友好. GET /_analyze { "analyzer": "standard", "text": "中华人民共和国" } 我们想要的效果是什么:"中华人民共和国"作为一整个词语. 得到的结果是: { "tokens" :…
由于项目中要用到词库,而下载的搜狗词库是.scel格式,所以就用python脚本将搜狗词库.scel格式文件转化为.txt格式文件. #!/bin/python # -*- coding: utf-8 -*- import struct import sys import binascii import pdb try: reload(sys) sys.setdefaultencoding('utf-8') except: pass # 搜狗的scel词库就是保存的文本的unicode编码,每两…