Nutch配置错误

(1) IO错误

     记得出错的时候把出错的目录删除,否则下次还是出错。

(2) Command crawl is deprecated, please use bin/crawl instead

   1.8和2.3版本不可以使用这个命令,所以才会有之前的错误。
   使用以下代替:

 Usage: bin/crawl <seedDir> <crawlID> <solrURL> <numberOfRounds>
Example: bin/crawl urls/seed.txt TestCrawl http://localhost:8983/solr/ 2

Solr配置错误

(1) 出现500问题

  在/usr/lib/tomcat/apache-tomcat-6.0.43/webapps/solr/WEB-INF下的web.xml中

 <env-entry>
<env-entry-name>solr/home</env-entry-name>
<env-entry-value>这里的值应该指向之前从solr拷到tomcat下的文件夹solr</env-entry-value>
<env-entry-type>java.lang.String</env-entry-type>
</env-entry>

(2) 出现404问题

  将 /usr/lib/hadoop/solr/solr-4.10.2/example/lib/ext下的所有jar文件复制到/usr/lib/tomcat/apache-tomcat-6.0.43/lib下
  修改/usr/lib/tomcat/apache-tomcat-6.0.43/solr/collection1/conf里的solrconfig.xml文件中的dataDir一行内容为:

 <dataDir>${solr.data.dir:原本是空的,现需要加上拷到tomcat里solr包下的data地址:/usr/lib/tomcat/apache-tomcat-6.0.43/solr/collection1/data}</dataDir>

IKAnalyzer配置错误

(1) 已经将包拷贝到lib下面,依然出现无法加载包的问题

  在 Solr4.0 发布以后,官方取消了 BaseTokenizerFactory 接口,而直接使用 Lucene Analyzer 标准接口。因此 IK 分词器 2012 FF 版本也取消了org.wltea.analyzer.solr.IKTokenizerFactory 类。
  所以检查schema.xml中FieldType的配置,删除或修改掉出现class="org.wltea.analyzer.solr.IKTokenizerFactory"的部分,改为使用

 <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>

 (2) Field域的name属性必须唯一,不能有重复

 (3) 测试地址为localhost:8080/solr/#/collection1/analysis

Nutch & Solr & IKAnalyzer Deployment Debug的更多相关文章

  1. [solr] - IKAnalyzer 扩展分词库

    在solr中加入自己的扩展分词库方法: 参考文章: http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 1.在solr的we ...

  2. [solr] - IKAnalyzer 分词加入

    1.下载IK Analyzer中文分词器:http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip 2.解压出zip ...

  3. Nutch + solr 这个配合不错哦

    因为朋友需要,所以把这个开源组合放在一起试用了下,正在弄,先Mark下. 用的是Nutch1.9,这个比较新,资料比较少,基本上就是用原来的英文WIKI. 首先要注意的是,不要试着在windows下做 ...

  4. docker-compose 安装solr+ikanalyzer

    docker-compose.yml version: '3.1' services: solr: image: solr restart: always container_name: solr p ...

  5. nutch solr

    创建solr数据目录 创建目录solrData,拷贝solr-4.10.2/example/solr到solrData下     修改配置文件中数据目录路径 修改 solrData/solr/coll ...

  6. nutch solr 配置

    http://blog.csdn.net/panjunbiao/article/details/12171147 后半部分实践通过

  7. 基于Nutch Solr等基于搭建一体化的数据抓取平台

    参考链接:https://www.ibm.com/developerworks/cn/opensource/os-cn-BigInsightsNutchSolr/

  8. Build IKAnalyzer With Solr 5.1.0

    中文分詞裡IKAnalyzer和結巴是大家比較常用的分詞器, 不過IKAnalyzer已經很久沒有更新了, IKAnalyzer中文分词器V2012使用手册也跟IK Analyer 2012-FF H ...

  9. solr ,hadoop ,lucene,nutch 的关系和区别

    apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术. nutch和solr原来都是lucene下的子项目.但后来 ...

随机推荐

  1. preload & prefetch

    原文地址在 我的笔记里,觉得还行就给个 star 吧:) 关于 preload 和 prefetch 早有耳闻,知道它们可以优化页面加载速度,然具体情况却了解不多.搜索了相关的资料后对其有了些认识,在 ...

  2. mysql 常用获取时间sql语句

    --当年第一天: SELECT DATE_SUB(CURDATE(),INTERVAL dayofyear(now())-1 DAY); --当年最后一天: SELECT concat(YEAR(no ...

  3. HDFS文件系统基操--Java实现

    Java实现对HDFS文件系统的基本操作 1.准备好jar包 2.创建一个类 1. 测试连接 @Test //测试是否连接成功 public void test() { //添加配置 ==> c ...

  4. docker的安装使用

    目录 Docker 入门到精通 CentOS安装Docker 设置管理Docker的仓库 安装Docker Engine-Community Docker基础命令 开启关闭 镜像操作 容器操作 Doc ...

  5. Rust入坑指南:齐头并进(上)

    我们知道,如今CPU的计算能力已经非常强大,其速度比内存要高出许多个数量级.为了充分利用CPU资源,多数编程语言都提供了并发编程的能力,Rust也不例外. 聊到并发,就离不开多进程和多线程这两个概念. ...

  6. VWware Workstation 安装CentOS系统

    VWware Workstation 安装CentOS系统 下载CentOS系统镜像: 官方地址:https://www.centos.org/download/mirrors/ 在此可选择华为云服务 ...

  7. Pocket+Evernote 打造个人知识库体系

    俗话说巧妇难为无米之炊,还是那个不太恰当的例子. 写作就好比人类的消化系统,想要持续的输出...那么就要持续的输入... 今天就来说一说如何进行持续有效的输入. 信息处理过程 先放一张图,这是我的整个 ...

  8. Asp.Net Core 中IdentityServer4 实战之 Claim详解

    一.前言 由于疫情原因,让我开始了以博客的方式来学习和分享技术(持续分享的过程也是自己学习成长的过程),同时也让更多的初学者学习到相关知识,如果我的文章中有分析不到位的地方,还请大家多多指教:以后我会 ...

  9. Leetcode_877. 石子游戏(区间dp)

    偶数堆石子,只能从首尾取,取多的赢. 每次操作会产生两个子状态,区间dp,记得先枚举长度. code class Solution { public: int dp[505][505]; bool s ...

  10. Java 借助poi操作PDF工具类

    ​ 一直以来说写一个关于Java操作PDF的工具类,也没有时间去写,今天抽空写一个简单的工具类,拥有PDF中 换行,字体大小,字体设置,字体颜色,首行缩进,居中,居左,居右,增加新一页等功能,如果需要 ...