Nutch & Solr & IKAnalyzer Deployment Debug

Nutch配置错误

(1) IO错误

　　记得出错的时候把出错的目录删除，否则下次还是出错。

(2) Command crawl is deprecated, please use bin/crawl instead

　　　1.8和2.3版本不可以使用这个命令，所以才会有之前的错误。
　　　使用以下代替：

 Usage: bin/crawl <seedDir> <crawlID> <solrURL> <numberOfRounds>

 Example: bin/crawl urls/seed.txt TestCrawl http://localhost:8983/solr/ 2

Solr配置错误

(1) 出现500问题

　　在/usr/lib/tomcat/apache-tomcat-6.0.43/webapps/solr/WEB-INF下的web.xml中

 <env-entry>

 <env-entry-name>solr/home</env-entry-name>

 <env-entry-value>这里的值应该指向之前从solr拷到tomcat下的文件夹solr</env-entry-value>

 <env-entry-type>java.lang.String</env-entry-type>

 </env-entry>

(2) 出现404问题

　　将 /usr/lib/hadoop/solr/solr-4.10.2/example/lib/ext下的所有jar文件复制到/usr/lib/tomcat/apache-tomcat-6.0.43/lib下
　　修改/usr/lib/tomcat/apache-tomcat-6.0.43/solr/collection1/conf里的solrconfig.xml文件中的dataDir一行内容为：

 <dataDir>${solr.data.dir:原本是空的，现需要加上拷到tomcat里solr包下的data地址：/usr/lib/tomcat/apache-tomcat-6.0.43/solr/collection1/data}</dataDir>

IKAnalyzer配置错误

(1) 已经将包拷贝到lib下面，依然出现无法加载包的问题

　　在 Solr4.0 发布以后，官方取消了 BaseTokenizerFactory 接口，而直接使用 Lucene Analyzer 标准接口。因此 IK 分词器 2012 FF 版本也取消了org.wltea.analyzer.solr.IKTokenizerFactory 类。
　　所以检查schema.xml中FieldType的配置，删除或修改掉出现class="org.wltea.analyzer.solr.IKTokenizerFactory"的部分，改为使用

 <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>

(2) Field域的name属性必须唯一，不能有重复

(3) 测试地址为localhost:8080/solr/#/collection1/analysis

Nutch & Solr & IKAnalyzer Deployment Debug的更多相关文章

[solr] - IKAnalyzer 扩展分词库
在solr中加入自己的扩展分词库方法: 参考文章: http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 1.在solr的we ...
[solr] - IKAnalyzer 分词加入
1.下载IK Analyzer中文分词器:http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip 2.解压出zip ...
Nutch + solr 这个配合不错哦
因为朋友需要,所以把这个开源组合放在一起试用了下,正在弄,先Mark下. 用的是Nutch1.9,这个比较新,资料比较少,基本上就是用原来的英文WIKI. 首先要注意的是,不要试着在windows下做 ...
docker-compose 安装solr+ikanalyzer
docker-compose.yml version: '3.1' services: solr: image: solr restart: always container_name: solr p ...
nutch solr
创建solr数据目录创建目录solrData,拷贝solr-4.10.2/example/solr到solrData下修改配置文件中数据目录路径修改 solrData/solr/coll ...
nutch solr 配置
http://blog.csdn.net/panjunbiao/article/details/12171147 后半部分实践通过
基于Nutch Solr等基于搭建一体化的数据抓取平台
参考链接:https://www.ibm.com/developerworks/cn/opensource/os-cn-BigInsightsNutchSolr/
Build IKAnalyzer With Solr 5.1.0
中文分詞裡IKAnalyzer和結巴是大家比較常用的分詞器, 不過IKAnalyzer已經很久沒有更新了, IKAnalyzer中文分词器V2012使用手册也跟IK Analyer 2012-FF H ...
solr ,hadoop ,lucene,nutch 的关系和区别
apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术. nutch和solr原来都是lucene下的子项目.但后来 ...

随机推荐

svg和css3创建环形渐变进度条
在负责的项目中,有一个环形渐变读取进度的效果的需求,于是在网上查阅相关资料整理一下.代码如下: <!DOCTYPE html> <html lang="en"&g ...
【猫狗数据集】pytorch训练猫狗数据集之创建数据集
猫狗数据集的分为训练集25000张,在训练集中猫和狗的图像是混在一起的,pytorch读取数据集有两种方式,第一种方式是将不同类别的图片放于其对应的类文件夹中,另一种是实现读取数据集类,该类继承tor ...
桌面运维之Windows快捷键，每一个工程师都是“快捷键”的工程师！
1.win快捷键首先教大家win7新增的3D效果: Win + Tab 快速切换已打开的程序(和Alt+tab一样的效果) Win + Home 将所有使用中窗口以外的窗口最小化 Win + Spa ...
spring boot actuator服务监控与管理
1.引入actuator所需要的jar包 <dependency> <groupId>org.springframework.boot</groupId> < ...
面试被问分布式事务（2PC、3PC、TCC），这样解释没毛病！
整理了一些Java方面的架构.面试资料(微服务.集群.分布式.中间件等),有需要的小伙伴可以关注公众号[程序员内点事],无套路自行领取更多优选一口气说出 9种分布式ID生成方式,面试官有点懵了 ...
Druid未授权（弱口令）的一些利用方式
Druid简介 1.Druid是阿里巴巴数据库事业部出品,为监控而生的数据库连接池. 2.Druid提供的监控功能,监控SQL的执行时间.监控Web URI的请求.Session监控. Druid可能 ...
plsql乱码问题
1,问题:在plsql 中执行sql语句,查询结果带有中文,出现乱码,即" ??? ":如下: 2,解决: 1)输入sql语句 select * from V$NLS_PARAME ...
python3.7安装pygame
经过各种找,下面这个安装地址中的版本是最全的下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#pygame 本机python版本
利用border-radius画椭圆
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
python code practice（二）：KMP算法、二分搜索的实现、哈希表
1.替换空格题目描述:请实现一个函数,将一个字符串中的每个空格替换成“%20”.例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy. 分析: 将长度为 ...

Nutch & Solr & IKAnalyzer Deployment Debug

Nutch & Solr & IKAnalyzer Deployment Debug的更多相关文章

随机推荐

热门专题