solr集成mmseg4j分词】的更多相关文章

solr集成mmseg4j分词 mmseg4j https://code.google.com/p/mmseg4j/ https://github.com/chenlb/mmseg4j-solr 作者blog http://blog.chenlb.com/category/mmseg4j mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和…
基本说明 Solr是一个开源项目,基于Lucene的搜索服务器,一般用于高级的搜索功能: solr还支持各种插件(如中文分词器等),便于做多样化功能的集成: 提供页面操作,查看日志和配置信息,功能全面. solr 7 + tomcat 8实现solr 7的安装 Solr自带集成jetty,但是一般都不直接使用,而是将solr另外和tomcat或jetty服务器集成到一起,形成搜索引擎. Solr 7解压后的目录: solr 7安装步骤: 将solr的server/solr-webapp/weba…
使用标准分词器,如图: 使用word分词器 下载word-1.3.jar,注意solr的版本和word分词的版本 将文件word-1.3.jar拷贝至文件夹C:\workspace\Tomcat7.0\webapps\solr\WEB-INF\lib\下 修改如下文件C:\workspace\solr_home\solr\mysolr\conf\schema.xml     在schema节点下添加如下节点: <fieldType name="word_cn" class=&qu…
nutch集成solr和中文分词 一.构建nutch环境 1. 设置代理 由于nutch使用ant构建,ant调用ivy,会从maven仓库中下载依赖包,因此若公司需要代理才能上网,需要设置代理,如果公司不需要代理即可上网,此步骤直接省略. 总结设置代理遇到的几个坑: 强制使用系统代理,即 ant -autoproxy , 结果失败! 修改 build.xml , 增加 setproxy ,设置代理,结果失败! 设置 ANT_OPTS ,添加选项 -Dhttp.proxyHost=http://…
mmseg4j是一个很好的中文分词器,solr与mmseg4j的整合也非常简单.如下: 第一步:下载mmseg4j的jar包,网上搜索一下有很多下载地址,如下是csdn上的一个连接:http://download.csdn.net/detail/nrs12345/6986585 第二步:将下载的mmseg4j-analysis-1.9.1.jar.mmseg4j-core-1.9.1.jar.mmseg4j-solr-2.2.0.jar这三个jar包复制到tomcat下的webapps/solr…
Solr与mmseg4j部署   一. solr安装 1. 下载solr http://www.apache.org/dyn/closer.cgi/lucene/solr/ 2. apache-solr-1.4.1.zip解压,复制dist/apache-solr-1.4.1.war到TOMCAT_HOME/webapps下,改名为solr.war,启动tomcat; 3. 在控制台看到启动完毕关闭tomcat,有报错不用管; 4. 进入TOMCAT根目录,创建文件夹solr_home, 将ap…
  分类:程序语言|标签:C|日期: 2015-05-01 02:00:24 MMSeg4j是一款中文分词器,详细介绍如下: 1.mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用. 2.MMSeg 算法有两种分词方法:Simple和Complex,都是基于…
为了更好的排版, 所以将IK分词器的安装重启了一篇博文,  大家可以接上solr的安装一同查看.[Linux]Linux下安装和配置solr/tomcat/IK分词器 详细实例一: http://www.cnblogs.com/wang-meng/p/5814798.html 8, 打开浏览器查看solr可视化界面 到了这里solr就配置好了, 可是我们的IK 分词器还没有配置呢, 如果不配IK分词器的话 它是怎样分词的呢? 我们就来先看一下:  每个字都分成了一个词, 这当然不是我们想要的结果…
Linux下的Nutch和solr集成 3.1.Nutch安装 l 解压 tar -zxvf apache-nutch-1.4-bin.tar.gz l 终端下cd到目录  apache-nutch-1.4-bin/runtime/local,下面会有 bin  conf   lib  logs   plugins  test 几个文件夹 l 输入命令   bin/nutch ,如果出现下面的提示,说明nutch可用.可能会出现权限不够的提示,chmod 755 bin/nutch ,付给nut…
Elasticsearch 6.3.1 地址: wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.3.1.tar.gz 2.安装配置 1.拷贝 拷贝到服务器上,解压:tar -xvzf elasticsearch-6.3.1.tar.gz .解压后路径:/home/elasticsearch-6.3.1 3.创建用户 创建用户,创建esdata目录,并赋予权限 [root@bogon home]#…