Nutch配置错误

(1) IO错误

     记得出错的时候把出错的目录删除,否则下次还是出错。

(2) Command crawl is deprecated, please use bin/crawl instead

   1.8和2.3版本不可以使用这个命令,所以才会有之前的错误。
   使用以下代替:

 Usage: bin/crawl <seedDir> <crawlID> <solrURL> <numberOfRounds>
Example: bin/crawl urls/seed.txt TestCrawl http://localhost:8983/solr/ 2

Solr配置错误

(1) 出现500问题

  在/usr/lib/tomcat/apache-tomcat-6.0.43/webapps/solr/WEB-INF下的web.xml中

 <env-entry>
<env-entry-name>solr/home</env-entry-name>
<env-entry-value>这里的值应该指向之前从solr拷到tomcat下的文件夹solr</env-entry-value>
<env-entry-type>java.lang.String</env-entry-type>
</env-entry>

(2) 出现404问题

  将 /usr/lib/hadoop/solr/solr-4.10.2/example/lib/ext下的所有jar文件复制到/usr/lib/tomcat/apache-tomcat-6.0.43/lib下
  修改/usr/lib/tomcat/apache-tomcat-6.0.43/solr/collection1/conf里的solrconfig.xml文件中的dataDir一行内容为:

 <dataDir>${solr.data.dir:原本是空的,现需要加上拷到tomcat里solr包下的data地址:/usr/lib/tomcat/apache-tomcat-6.0.43/solr/collection1/data}</dataDir>

IKAnalyzer配置错误

(1) 已经将包拷贝到lib下面,依然出现无法加载包的问题

  在 Solr4.0 发布以后,官方取消了 BaseTokenizerFactory 接口,而直接使用 Lucene Analyzer 标准接口。因此 IK 分词器 2012 FF 版本也取消了org.wltea.analyzer.solr.IKTokenizerFactory 类。
  所以检查schema.xml中FieldType的配置,删除或修改掉出现class="org.wltea.analyzer.solr.IKTokenizerFactory"的部分,改为使用

 <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>

 (2) Field域的name属性必须唯一,不能有重复

 (3) 测试地址为localhost:8080/solr/#/collection1/analysis

Nutch & Solr & IKAnalyzer Deployment Debug的更多相关文章

  1. [solr] - IKAnalyzer 扩展分词库

    在solr中加入自己的扩展分词库方法: 参考文章: http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 1.在solr的we ...

  2. [solr] - IKAnalyzer 分词加入

    1.下载IK Analyzer中文分词器:http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip 2.解压出zip ...

  3. Nutch + solr 这个配合不错哦

    因为朋友需要,所以把这个开源组合放在一起试用了下,正在弄,先Mark下. 用的是Nutch1.9,这个比较新,资料比较少,基本上就是用原来的英文WIKI. 首先要注意的是,不要试着在windows下做 ...

  4. docker-compose 安装solr+ikanalyzer

    docker-compose.yml version: '3.1' services: solr: image: solr restart: always container_name: solr p ...

  5. nutch solr

    创建solr数据目录 创建目录solrData,拷贝solr-4.10.2/example/solr到solrData下     修改配置文件中数据目录路径 修改 solrData/solr/coll ...

  6. nutch solr 配置

    http://blog.csdn.net/panjunbiao/article/details/12171147 后半部分实践通过

  7. 基于Nutch Solr等基于搭建一体化的数据抓取平台

    参考链接:https://www.ibm.com/developerworks/cn/opensource/os-cn-BigInsightsNutchSolr/

  8. Build IKAnalyzer With Solr 5.1.0

    中文分詞裡IKAnalyzer和結巴是大家比較常用的分詞器, 不過IKAnalyzer已經很久沒有更新了, IKAnalyzer中文分词器V2012使用手册也跟IK Analyer 2012-FF H ...

  9. solr ,hadoop ,lucene,nutch 的关系和区别

    apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术. nutch和solr原来都是lucene下的子项目.但后来 ...

随机推荐

  1. 组件化思路:以selection为例子,使用prop-types实现组件化控制,重用

    需求 书接上文,UI 积累之select section 这里又来两个需求了. 当我点击选择了option后,我应该看到的是我选择的option的内容 多例重用,即同样是个selection,我只是需 ...

  2. React项目实战:react-redux-router基本原理

    React相关 React 是一个采用声明式,高效而且灵活的用来构建用户界面的框架. JSX 本质上来讲,JSX 只是为React.createElement(component, props, .. ...

  3. IDEA 配置自定义Apache与PHP环境

    1. PHP环境 1.1 插件的安装 1.2 关于php环境的配置 2.关于apache的配置 至此,已经配置成功啦,愉快的学习吧!

  4. 使用 Redis 如何实现查询附近的人?「视频版」——面试突击 003 期

    面试问题 Redis 如何实现查询附近的人? 涉及知识点 Redis 中如何操作位置信息? GEO 底层是如何实现的? 如何在程序实现查询附近的人? 在实际使用中需要注意哪些问题? 视频答案 视频地址 ...

  5. 『配置』服务器搭建 Office Online Server2016 实现文档预览 番外 错误篇

    安装一个或多个角色.角色服务或功能失败.找不到源文件.请再次尝试在新的“添加角色和功能”向导会话中安装角色.角色服务或功能,然后在向导的“确认”页中单击“指定备用源路径”以指定安装所需的源文件的有效位 ...

  6. 【原创】(四)Linux进程调度-组调度及带宽控制

    背景 Read the fucking source code! --By 鲁迅 A picture is worth a thousand words. --By 高尔基 说明: Kernel版本: ...

  7. django 从零开始 4 404页面和500页面设置

    在视图函数中定义两个 函数 分别对应404 个500页面 (自定义html内容吧,这里只是展示) 在template页面指向自己定义的404.html和500.html页面 在项目的urls中设置 h ...

  8. 关于.NET中的控制反转及AutoFac的简单说明

    目录 1.控制反转 1.1 什么是依赖? 1.2 什么是控制反转? 1.3 什么是依赖注入? 1.4 简单总结 2.控制反转容器 2.1 IOC容器说明 2.2 使用AutoFac的简介示例 3 使用 ...

  9. C++中的内存分配

    C++提供下面两种方法分配和释放未构造的原始内存 (1)allocator 类,它提供可感知类型的内存分配 (2)标准库中的 operator new 和 operator delete,它们分配和释 ...

  10. Chrome开发者工具之测试应用

    一.Chrome开发者工具简介 浏览器的开发者工具(DevTools)可以帮助开发人员对网页进行布局,比如HTML+CSS,帮助前端工程师更好的调试脚本(JavaScript.jQuery)之类的,还 ...