Nutch + solr 这个配合不错哦】的更多相关文章

因为朋友需要,所以把这个开源组合放在一起试用了下,正在弄,先Mark下. 用的是Nutch1.9,这个比较新,资料比较少,基本上就是用原来的英文WIKI. 首先要注意的是,不要试着在windows下做,除非你是环境十分有必要,或者是一点也不会linux,因为在windows下,确实需要改大量的代码,并且会有不可预料的问题出现. 然后在这两个地方要注意 一是记得改Nutch过滤策略. Nutch上的conf/regax-urlfilter.xml中一定要把没用的#掉,然后加上这个正则 +^http…
Nutch配置错误 (1) IO错误   记得出错的时候把出错的目录删除,否则下次还是出错. (2) Command crawl is deprecated, please use bin/crawl instead 1.8和2.3版本不可以使用这个命令,所以才会有之前的错误. 使用以下代替: Usage: bin/crawl <seedDir> <crawlID> <solrURL> <numberOfRounds> Example: bin/crawl…
创建solr数据目录 创建目录solrData,拷贝solr-4.10.2/example/solr到solrData下     修改配置文件中数据目录路径 修改 solrData/solr/collection1/conf/solrconfig.xml <dataDir>${solr.data.dir:}</dataDir> 更改为<dataDir>${solr.data.dir:solrData/solr/collection1/data}</dataDir&…
http://blog.csdn.net/panjunbiao/article/details/12171147 后半部分实践通过…
参考链接:https://www.ibm.com/developerworks/cn/opensource/os-cn-BigInsightsNutchSolr/…
apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术. nutch和solr原来都是lucene下的子项目.但后来nutch独立成为独立项目.nutch是2004年由俄勒冈州立大学开源实验室模仿google搜索引擎创立的开源搜索引擎,后归于apache旗下.nutch主要完成抓取,提取内容等工作. solr则是基于lucene的搜索界面.提供XML/HTTP 和 JSON/Python/Ruby API,提供搜…
背景: 某电信项目中采用HBase来存储用户终端明细数据,供前台页面即时查询.HBase无可置疑拥有其优势,但其本身只对rowkey支持毫秒级 的快 速检索,对于多字段的组合查询却无能为力.针对HBase的多条件查询也有多种方案,但是这些方案要么太复杂,要么效率太低,本文只对基于Solr的 HBase多条件查询方案进行测试和验证. 原理: 基于Solr的HBase多条件查询原理很简单,将HBase表中涉及条件过滤的字段和rowkey在Solr中建立索引,通过Solr的多条件查询快速获得符合过滤条…
1.如何高效使用Solr查询功能 ?2.单个字段分组统计如何实现? 3.IN条件查询有几种方式? 4.多个字段分组统计是否只支持count? Cloudera公司已经推出了基于Hadoop平台的查询统计分析工具Impala,只要熟悉SQL,就可以熟练地使用Impala来执行查询与分析的功能.不过Impala的SQL和关系数据库的SQL还是有一点微妙地不同的.下面,我们设计一个表,通过该表中的数据,来将SQL查询与统计的语句,使用Solr查询的方式来与SQL查询对应.这个翻译的过程,是非常有趣的,…
这篇博客含有海量资料,学习solr必备字典 大概看完solr就基本上手了. solr原味资料:http://wiki.apache.org/solr/FrontPage (     http://wiki.apache.org/solr/QueryParametersIndex     http://wiki.apache.org/solr/SchemaXml     http://wiki.apache.org/solr/CoreAdmin     http://wiki.apache.org…
中文分詞裡IKAnalyzer和結巴是大家比較常用的分詞器, 不過IKAnalyzer已經很久沒有更新了, IKAnalyzer中文分词器V2012使用手册也跟IK Analyer 2012-FF Hotfix 1對不起來.我自己觀察的結果是 IKAnalyzer中文分词器V2012使用手册是IK Analyer 2012 upgrade 6的使用手册, 不是IK Analyer 2012-FF Hotfix 1的使用手册 IK Analyer 2012 upgrade 6支援Lucene 3.…