一  cacl2新版本上线,在一级行业的基础上深度挖掘,新增了对应的二级分类. 可以查看一级行业[农林牧渔],下面对应的所有二级行业的词库.这里拿[林业]来观察效果. 具体分词的效果. 二    GitHub地址开源地址,项目源码已经上传. https://github.com/limccn/cacl2…
一,  没有对比,就没有伤害,我们分词的优势在哪里?走一波测试. 跑一下CaCl2,看看效果. 二   想要分什么词汇,自己自定义即可. 目前每个月都会出一个新的版本,主要是和金融相关的词汇. 这是6月份的链接,提供了简单的样本下载. https://github.com/limccn/cacl2/releases/tag/v0.2.21.06 三   GitHub 原文地址奉上, 你想要的这里都有. https://github.com/limccn/cacl2…
ElasticSearch安装 官网:https://www.elastic.co 1.ElasticSearch安装 1.1.下载安装公共密钥 rpm --import https://artifacts.elastic.co/GPG-KEY-elasticsearch 1.2.在 /etc/yum.repos.d/ 目录下建立 elasticsearch.repo 文件 vim /etc/yum.repos.d/elasticsearch.repo 在文件中写入: [elasticsearc…
目录 1 分词器概述 1.1 分词器简介 1.2 分词器的使用 1.3 中文分词器 1.3.1 中文分词器简介 1.3.2 Lucene提供的中文分词器 1.3.3 第三方中文分词器 2 IK分词器的使用 2.1 配置pom.xml文件, 加入IK分词器的依赖 2.2 修改索引流程的分词器 2.3 修改检索流程的分词器 2.4 重新创建索引 3 扩展中文词库 3.1 加入IK分词器的配置文件 3.2 增加扩展词演示(扩展: 人民邮电出版社) 3.3 增加停用词演示(增加: 的.和) 1 分词器概…
在安装ElasticSearch 需要先安装java 的 jdk 可以通过  命令来确认是否已经安装了 java -version 如果没有安装可以使用 yum 直接安装通过. 先通过命令查看yum源中的 jdk版本 yum list |grep java |grep jdk 然后通过yum安装 yum install -y java--openjdk ElasticSearch安装 官网:https://www.elastic.co 1.ElasticSearch安装 1.1.下载tar包安装…
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器. 一.版本信息 solr版本:4.7.0 需要ik-analyzer版本:IK Analyzer 2012FF_hf1 ik-analyzer下载地址:http://code.google.com/p/ik-analyzer/downloads/list 二.配置步骤 下载压缩解压后得到如下目录结构的文件夹: 我们把IKAnalyzer201…
一.配置 IKAnalyzer 中文分词器配置,简单,超简单. IKAnalyzer 中文分词器下载,注意版本问题,貌似出现向下不兼容的问题,solr的客户端界面Logging会提示错误. 给出我配置成功的版本IK Analyzer 2012FF_hf1(包含源码和中文使用手册),我的solr是4.7的,当然相应的Lucene也是4.7的,链接地址: http://code.google.com/p/ik-analyzer/downloads/detail?name=IK%20Analyzer%…
酒店评论情感分析系统——用ictclas4j进行中文分词,并去除停用词 ictclas4j是中科院计算所开发的中文分词工具ICTCLAS的Java版本,因其分词准确率较高,而备受青睐. 注:ictclas4j缺点: a.在eclipse里的java文件一定要保存为gbk编码才可以正常运行,utf-8是不能运行的 b.ictclas4j目前不支持用户自定义字典 1. 下载ictclas4j 后面的附件中,我有放上ictclas4j的源码包ictclas4j.zip 2. 在Eclipse中新建项目…
最近在研究solr,这里只记录一下eclipse中构建solr项目,添加core,整合mysql,添加中文分词器的过程. 版本信息:solr版本6.2.0+tomcat8+jdk1.8 推荐阅读:solr中文官方文档 参考:solr6.2从环境部署到与mysql整合到中文分词器到solrJ的使用 在eclipse中构建solr项目: 1.下载solr-6.2.0.zip,官网下载地址:http://lucene.apache.org/solr/downloads.html. 2.在eclipse…
1. NLP 走近自然语言处理 概念 Natural Language Processing/Understanding,自然语言处理/理解 日常对话.办公写作.上网浏览 希望机器能像人一样去理解,以人类自然语言为载体的文本所包含的信息,并完成一些特定任务 内容中文分词.词性标注.命名实体识别.关系抽取.关键词提取.信息抽取.依存分析.词嵌入…… 应用篇章理解.文本摘要.情感分析.知识图谱.文本翻译.问答系统.聊天机器人…… 2. NLP 使用jieba分词处理文本,中文分词,关键词提取,词性标…