Nutch & Solr & IKAnalyzer Deployment Debug
Nutch配置错误
(1) IO错误
记得出错的时候把出错的目录删除,否则下次还是出错。
(2) Command crawl is deprecated, please use bin/crawl instead
1.8和2.3版本不可以使用这个命令,所以才会有之前的错误。
使用以下代替:
Usage: bin/crawl <seedDir> <crawlID> <solrURL> <numberOfRounds>
Example: bin/crawl urls/seed.txt TestCrawl http://localhost:8983/solr/ 2
Solr配置错误
(1) 出现500问题
在/usr/lib/tomcat/apache-tomcat-6.0.43/webapps/solr/WEB-INF下的web.xml中
<env-entry>
<env-entry-name>solr/home</env-entry-name>
<env-entry-value>这里的值应该指向之前从solr拷到tomcat下的文件夹solr</env-entry-value>
<env-entry-type>java.lang.String</env-entry-type>
</env-entry>
(2) 出现404问题
将 /usr/lib/hadoop/solr/solr-4.10.2/example/lib/ext下的所有jar文件复制到/usr/lib/tomcat/apache-tomcat-6.0.43/lib下
修改/usr/lib/tomcat/apache-tomcat-6.0.43/solr/collection1/conf里的solrconfig.xml文件中的dataDir一行内容为:
<dataDir>${solr.data.dir:原本是空的,现需要加上拷到tomcat里solr包下的data地址:/usr/lib/tomcat/apache-tomcat-6.0.43/solr/collection1/data}</dataDir>
IKAnalyzer配置错误
(1) 已经将包拷贝到lib下面,依然出现无法加载包的问题
在 Solr4.0 发布以后,官方取消了 BaseTokenizerFactory 接口,而直接使用 Lucene Analyzer 标准接口。因此 IK 分词器 2012 FF 版本也取消了org.wltea.analyzer.solr.IKTokenizerFactory 类。
所以检查schema.xml中FieldType的配置,删除或修改掉出现class="org.wltea.analyzer.solr.IKTokenizerFactory"的部分,改为使用
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
(2) Field域的name属性必须唯一,不能有重复
(3) 测试地址为localhost:8080/solr/#/collection1/analysis
Nutch & Solr & IKAnalyzer Deployment Debug的更多相关文章
- [solr] - IKAnalyzer 扩展分词库
在solr中加入自己的扩展分词库方法: 参考文章: http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 1.在solr的we ...
- [solr] - IKAnalyzer 分词加入
1.下载IK Analyzer中文分词器:http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip 2.解压出zip ...
- Nutch + solr 这个配合不错哦
因为朋友需要,所以把这个开源组合放在一起试用了下,正在弄,先Mark下. 用的是Nutch1.9,这个比较新,资料比较少,基本上就是用原来的英文WIKI. 首先要注意的是,不要试着在windows下做 ...
- docker-compose 安装solr+ikanalyzer
docker-compose.yml version: '3.1' services: solr: image: solr restart: always container_name: solr p ...
- nutch solr
创建solr数据目录 创建目录solrData,拷贝solr-4.10.2/example/solr到solrData下 修改配置文件中数据目录路径 修改 solrData/solr/coll ...
- nutch solr 配置
http://blog.csdn.net/panjunbiao/article/details/12171147 后半部分实践通过
- 基于Nutch Solr等基于搭建一体化的数据抓取平台
参考链接:https://www.ibm.com/developerworks/cn/opensource/os-cn-BigInsightsNutchSolr/
- Build IKAnalyzer With Solr 5.1.0
中文分詞裡IKAnalyzer和結巴是大家比較常用的分詞器, 不過IKAnalyzer已經很久沒有更新了, IKAnalyzer中文分词器V2012使用手册也跟IK Analyer 2012-FF H ...
- solr ,hadoop ,lucene,nutch 的关系和区别
apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术. nutch和solr原来都是lucene下的子项目.但后来 ...
随机推荐
- svg和css3创建环形渐变进度条
在负责的项目中,有一个环形渐变读取进度的效果的需求,于是在网上查阅相关资料整理一下.代码如下: <!DOCTYPE html> <html lang="en"&g ...
- 【猫狗数据集】pytorch训练猫狗数据集之创建数据集
猫狗数据集的分为训练集25000张,在训练集中猫和狗的图像是混在一起的,pytorch读取数据集有两种方式,第一种方式是将不同类别的图片放于其对应的类文件夹中,另一种是实现读取数据集类,该类继承tor ...
- 桌面运维之Windows快捷键,每一个工程师都是“快捷键”的工程师!
1.win快捷键 首先教大家win7新增的3D效果: Win + Tab 快速切换已打开的程序(和Alt+tab一样的效果) Win + Home 将所有使用中窗口以外的窗口最小化 Win + Spa ...
- spring boot actuator服务监控与管理
1.引入actuator所需要的jar包 <dependency> <groupId>org.springframework.boot</groupId> < ...
- 面试被问分布式事务(2PC、3PC、TCC),这样解释没毛病!
整理了一些Java方面的架构.面试资料(微服务.集群.分布式.中间件等),有需要的小伙伴可以关注公众号[程序员内点事],无套路自行领取 更多优选 一口气说出 9种 分布式ID生成方式,面试官有点懵了 ...
- Druid未授权(弱口令)的一些利用方式
Druid简介 1.Druid是阿里巴巴数据库事业部出品,为监控而生的数据库连接池. 2.Druid提供的监控功能,监控SQL的执行时间.监控Web URI的请求.Session监控. Druid可能 ...
- plsql乱码问题
1,问题:在plsql 中执行sql语句,查询结果带有中文,出现乱码,即" ??? ":如下: 2,解决: 1)输入sql语句 select * from V$NLS_PARAME ...
- python3.7安装pygame
经过各种找,下面这个安装地址中的版本是最全的 下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#pygame 本机python版本
- 利用border-radius画椭圆
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
- python code practice(二):KMP算法、二分搜索的实现、哈希表
1.替换空格 题目描述:请实现一个函数,将一个字符串中的每个空格替换成“%20”.例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy. 分析: 将长度为 ...