Nutch & Solr & IKAnalyzer Deployment Debug】的更多相关文章

Nutch配置错误 (1) IO错误   记得出错的时候把出错的目录删除,否则下次还是出错. (2) Command crawl is deprecated, please use bin/crawl instead 1.8和2.3版本不可以使用这个命令,所以才会有之前的错误. 使用以下代替: Usage: bin/crawl <seedDir> <crawlID> <solrURL> <numberOfRounds> Example: bin/crawl…
在solr中加入自己的扩展分词库方法: 参考文章: http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 1.在solr的web中:\WEB-INF目录下新增一个文件夹:classes 2.新增一个文件:IKAnalyzer.cfg.xml <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM &…
1.下载IK Analyzer中文分词器:http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip 2.解压出zip文件,将IKAnalyzer2012FF_u1.jar复制到tomcat中的solr\WEB-INF\lib目录中 3.在tomcat的solr\WEB-INF目录中,新建一个classes文件夹,将解压出的zip文件中的IKAnalyzer.cfg.xml和stopword.dic复制到class…
因为朋友需要,所以把这个开源组合放在一起试用了下,正在弄,先Mark下. 用的是Nutch1.9,这个比较新,资料比较少,基本上就是用原来的英文WIKI. 首先要注意的是,不要试着在windows下做,除非你是环境十分有必要,或者是一点也不会linux,因为在windows下,确实需要改大量的代码,并且会有不可预料的问题出现. 然后在这两个地方要注意 一是记得改Nutch过滤策略. Nutch上的conf/regax-urlfilter.xml中一定要把没用的#掉,然后加上这个正则 +^http…
docker-compose.yml version: '3.1' services: solr: image: solr restart: always container_name: solr ports: - : 进入容器添加core [root@linux zookeeper]# docker exec -it solr bash solr@eaed99eb2ede:/opt/solr/server/solr$ mkdir ik_core solr@eaed99eb2ede:/opt/s…
创建solr数据目录 创建目录solrData,拷贝solr-4.10.2/example/solr到solrData下     修改配置文件中数据目录路径 修改 solrData/solr/collection1/conf/solrconfig.xml <dataDir>${solr.data.dir:}</dataDir> 更改为<dataDir>${solr.data.dir:solrData/solr/collection1/data}</dataDir&…
http://blog.csdn.net/panjunbiao/article/details/12171147 后半部分实践通过…
参考链接:https://www.ibm.com/developerworks/cn/opensource/os-cn-BigInsightsNutchSolr/…
中文分詞裡IKAnalyzer和結巴是大家比較常用的分詞器, 不過IKAnalyzer已經很久沒有更新了, IKAnalyzer中文分词器V2012使用手册也跟IK Analyer 2012-FF Hotfix 1對不起來.我自己觀察的結果是 IKAnalyzer中文分词器V2012使用手册是IK Analyer 2012 upgrade 6的使用手册, 不是IK Analyer 2012-FF Hotfix 1的使用手册 IK Analyer 2012 upgrade 6支援Lucene 3.…
apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术. nutch和solr原来都是lucene下的子项目.但后来nutch独立成为独立项目.nutch是2004年由俄勒冈州立大学开源实验室模仿google搜索引擎创立的开源搜索引擎,后归于apache旗下.nutch主要完成抓取,提取内容等工作. solr则是基于lucene的搜索界面.提供XML/HTTP 和 JSON/Python/Ruby API,提供搜…
Solr 是一种可供企业使用的.基于 Lucene 的搜索服务器,它支持层面搜索.命中醒目显示和多种输出格式.在这篇分两部分的文章中,Lucene Java™ 的提交人 Grant Ingersoll 将介绍 Solr 并向您展示如何轻松地将其表现优异的全文本搜索功能加入到 Web 应用程序中. 一旦用户需要某种信息,就可以立即搜索到这些信息,这种要求再也不是可有可无的了.随着 Google 和类似的复杂搜索引擎的出现,用户希望得到高质量的搜索结果,帮助他们快速.轻易地找到所需的信息.经理对您的…
安装环境 jdk1.7 solr-4.10.3.tgz KAnalyzer2012FF_u1.jar tomcat7 VM虚拟机redhat6.5-x64:192.168.1.201 Xshell4 部署方案 单机部署201 安装步骤 步骤一:下载解压IK Analyzer 2012FF_hf1.zip 上传文件 IKAnalyzer2012FF_u1.jar IKAnalyzer.cfg.xml mydict.dic 步骤二:创建目录 mkdir /usr/local/tomcat7/weba…
第1章引言 1.1nutch和solr Nutch 是一个开源的.Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具. Solr 拥有像 web-services API 的独立的企业级搜索服务器.用 XML 通过 HTTP 向它添加文档(称为做索引),通过 HTTP 查询返回 XML 结果. 1.2研究nutch 的原因 可能有的朋友会有疑问,我们有google,有百度,为何还需要建立自己的搜索引擎呢?这里我列出3 点原因: 透明度:nutch 是开放源代码的,因此任何人都…
用Solr.Nutch等开源软件来构建电子元器件垂直搜索引擎涉及很多实现细节,本文结合实际应用系统对数据采集.中文搜索.结果输出.分页处理.整合数据库等重点问题提出了切实可行的解决方法. 用开源软件建垂直搜索引擎 ■ 董娅 周峻松 针对搜索引擎的各种开源技术是开源社区的一枝奇葩,它大大缩短了构建搜索应用的周期,并使得根据特定需求打造个性化应用的垂直搜索引擎系统成为可能.作为一个独立的企业搜索应用解决方案,Solr在美国的众多知名网站中得到应用,如美国最大的科技资讯类网站CNet.Solr基于高性…
1. android_m2repository_r错误 问题描述: Unzipping failed. Please download https://dl-ssl.google.com/android/repository/android_m2repository_r**.zip and extract it to the C:\Users*\AppData\Local\Xamarin* Reason: C:\Users**\AppData\Local\Xamarin\zips\96659D6…
Visual Studio 2015开发Android App 启动调试始终无法完成应用部署的解决方案 创建一个Android App项目后,直接启动调试发现Visual Studio Emulator for Android已成功运行,但应用始终处于Build中(等待时间超过1小时),并未如预期通过adb部署到模拟器中.将应用直接导出apk,拖拽至模拟器直接部署,提示: File transfer failed. Error: Unable to install the file throug…
eclipse 创建的maven项目,引入jar包之后出现红色叹号,一直找不到原因,连main方法都无法运行,提示找不到类: 错误: 找不到或无法加载主类 soapsampler.SoapSamplerGui 百思不得其解,使用maven -X clean package  打了 个空包,啥类都没有打进去,比较无语 D:\tools\eclipse-jee-oxygen-2-win32-x86_64\eclipse\workspace\soapsampler>mvn -X clean packa…
在上学的时候就对搜索有着极大地兴趣,图书馆也借了好多的书看过,也用过Python写过爬虫. 有好多人在初步学习Lucene的时候都以为他是一个搜索引擎,或者搜索工具. 在此我要特别强调一下,Lucene绝对不是一个搜索引擎或者是搜索工具,他就是一个jar包(一系列),一个工具,一个API,而且他是一个检索工具,也不是搜索工具. 所谓搜索引擎,比如:百度,搜狗,猎兔,恕我愚昧只知道国内的.这才是搜索引擎,搜索引擎,大概(非常宏观的哦)分为两部分: 1.爬虫.也是非常重要的一部分,需要对互联网上的信…
今天晚上我们学霸项目的三个小组在一起开会,讨论如何能在后期使我们三个项目更好地结合在一起.为了三个小组的能够同时工作,不出现某一小组因需要其他小组成果而停滞的情况,我们决定围绕lucene,solr,nutch,hadoop进行开发. 这并不等于我们之前的工作白费了,相反地,我们前期的工作恰好给后续的开发工作提供了基础.前两个星期的时间,我们组的成员查询了相关资料并对上一届团队的代码进行了修改,对爬虫的认识大大加深,这对我们的接下来的开发都是有利的. 这一周剩下的时间就是让我们的组员尽快的熟悉这…
酒店评论情感分析系统(二)——Nutch安装 一.需求部分 Nutch是Java开发的所以需要下载Java JDK. 下载地址http://java.sun.com/javase/downloads/index.jsp 2. Nutch的演示搜索页面是Jsp的,需要Tomcat做服务器.                                            下载地址:http://jakarta.apache.org/tomcat/ 3. Nutch的脚本都是用Linux的She…
List of free and open-source software packages From Wikipedia, the free encyclopedia     This article is about software free to be modified and distributed. For examples of software free in the monetary sense, see List of freeware. This is a list of …
1.Solr简介 Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器.同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置.可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎. Solr最初由CNET Networks开发,2006 年初,Apache Software Foundation 在Lucene顶级项目的支持下得到了Solr.Solr于2007年1月酝酿成熟,在整个项目孵化期间,Solr稳步地积…
1 软件环境: VMware8.0 Ubuntu-12.10-desktop-i386 jdk-7u40-linux-i586.tar.gz hadoop-1.2.1.tar.gz eclipse-dsl-juno-SR1-linux-gtk.tar.gz hadoop-eclipse-plugin-1.2.1.jar apache-maven-2.2.1-bin.tar.gz hbase-0.94.11.tar.gz hive-0.10.0.tar.gz mahout-distribution…
Nutch搜索引擎(第2期)_ Solr简介及安装   1.Solr简介 Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器.同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置.可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎. Solr最初由CNET Networks开发,2006 年初,Apache Software Foundation 在Lucene顶级项目的支持下得到了Solr.Solr于20…
李克华 云计算高级群: 292870151 交流:Hadoop.NoSQL.分布式.lucene.solr.nutch 在Solr中配置中文分词IKAnalyzer 1.在配置文件schema.xml(位置{SOLR_HOME}/config/下),配置信息如下: <!-- IKAnalyzer 中文分词-->     <fieldType name="text_ik" class="solr.TextField">         <…
最近,因为未来工作的需要,我尝试安装部署了分布式爬虫系统Nutch,并配置了伪分布式的Hadoop来存储爬取的网页结果,用solr来对爬下来的网页进行搜索.我主要通过参考网上的相关资料进行安装部署的.但网上的资料很多比较乱,我也走了一些弯路.下面将我的安装过程记录下来,供大家参考.不足之处,请大家批评指正.环境:操作系统是Ubuntu10.04,jdk是openjdk-7-jdk. 一.安装nutch1.6    我曾直接下载部署nutch1.6的二进制文件,虽然可以成功爬取网页,但用solr来…
nutch集成solr和中文分词 一.构建nutch环境 1. 设置代理 由于nutch使用ant构建,ant调用ivy,会从maven仓库中下载依赖包,因此若公司需要代理才能上网,需要设置代理,如果公司不需要代理即可上网,此步骤直接省略. 总结设置代理遇到的几个坑: 强制使用系统代理,即 ant -autoproxy , 结果失败! 修改 build.xml , 增加 setproxy ,设置代理,结果失败! 设置 ANT_OPTS ,添加选项 -Dhttp.proxyHost=http://…
昨天已经在Tomcat容器中成功的部署了solr全文检索引擎系统的服务:今天来分享一下solr服务在海量数据的网站中是如何实现数据的检索. 在solr服务中集成IKAnalyzer中文分词器的步骤: 1.下载IKAnalyzer分词器的压缩包并解压: 2.将IKAnalyzer压缩包中的jar包复制到Tomcat容器中已经部署的solr项目中的WEB-INF/lib目录下: 3.在Tomcat容器的solr项目中的WEB-INF/目录创建一个classes目录(默认该目录是不存在的,需手动创建)…
solr中文分词器ik, 推荐资料:http://iamyida.iteye.com/blog/2220474?utm_source=tuicool&utm_medium=referral 使用ik的官方jar包总是有一些问题,个人使用上面博客中共享出来的jar包, 1.将jar包放在solrhome\server\solr-webapp\webapp\WEB-INF\lib下 2.将IKAnalyzer.cfg.xml和stopword.dic copy到solrhome\server\sol…
我用的Solr是4.10版本, 在csdn下载这个版本的IKAnalyzer:IK Analyzer 2012FF_hf1.zip 解压后目录如下: (1)这里还用solr自带的example实验分词效果,在如下的WEB-INF目录新建classes文件夹, 将IKAnalyzer.cfg.xml和stopword.dic拷贝到classes文件夹里面 (2)将IKAnalyzer2012FF_u1.jar拷贝到lib文件夹里面 (3)修改example\solr\collection1\con…