一.Schema介绍 1. Schema 是什么? Schema:模式,是集合/内核中字段的定义,让solr知道集合/内核包含哪些字段.字段的数据类型.字段该索引存储. 2. Schema 的定义方式 Solr中提供了两种方式来配置schema,两者只能选其一 2.1 默认方式,通过Schema API 来实时配置,模式信息存储在内核目录的conf/managed-schema文件中. 2.2 传统的手工编辑conf/schema.xml的方式,编辑完后需重载集合/内核才会生效. 3. sche…
字段定义详解 原文地址:http://shine-it.net/index.php/topic,2159.0.htmlhttp://blog.sina.com.cn/s/blog_57ded94e01014pm9.html OpenERP对象支持的字段类型有,基础类型:char, text, boolean, integer, float, date, time, datetime, binary:复杂类型:selection, function, related:关系类型:one2one, o…
一.分词器 1. 认识分词器  1.1 Analyzer   分析器 在ES中一个Analyzer 由下面三种组件组合而成: character filter :字符过滤器,对文本进行字符过滤处理,如处理文本中的html标签字符.处理完后再交给tokenizer进行分词.一个analyzer中可包含0个或多个字符过滤器,多个按配置顺序依次进行处理. tokenizer:分词器,对文本进行分词.一个analyzer必需且只可包含一个tokenizer. token filter:词项过滤器,对to…
转载:http://quweiprotoss.wap.blog.163.com/ Push data to Solr or have Solr pull it 尽管一个应用通过HTTP方式与Solr通信,并不意味着它需要将文档通过HTTP发送给Solr.Solr支持一种它称为remote streaming的方式,这种方式需要提供给它一个URL,它可以是一个HTTP URL,但一般它是一个基于文件系统的URL,基于文件系统的URL,可以在数据已经在Solr所在的本机或是在网络驱动中时可以使用.这…
Index Data Author: David Smiley Eric Pugh 译者:Koala++ / 屈伟 在这一章中我们将了解如何将数据传入Solr.这个传入的过程称之为索引,尽管中间还包含了导入的过程.本章的结构如下: l  与Solr交互. l  以Solr的Update-XML格式发送数据. l  提交,优化,回滚和删除. l  以CSV 格式发送数据. l  通过Solr的DataImportHandler直接读数据库和XML. l  通过Solr的ExtractingRequ…
第一次尝试着去写一个系列的教程,希望自己能坚持下去,也希望自己能够通过博客的编写来加深自己对solr搜索的理解. Solr与Tomcat的整合网上有很多教程,我就以我的整合为例来讲述一下我的整合过程,我在整合的过程中用的是solr4.10 第一步:下载solr的源码包,下载地址:<a>http://mirrors.hust.edu.cn/apache/lucene/solr/</a>,在这可以选择你想要的版本 第二步:下载solr-4.10.4.zip,解压缩该文件. 第三步:so…
转载:http://quweiprotoss.wap.blog.163.com/ Solr Cell是一个针对Tika的简单适配器,它由一个SAX ContentHandler组成,ContentHandler处理SAX事件,并通过指定要抽取的域产生文档. 在索引二制进文件的时候,有些事要注意: l  你可以提供任何Tika支持的文档类型给Tika,Tika会尝试确定文档正确的MIME类型,然后再调用相应的解析器.如果你已经知道了正确的MIME,你可以在stream.type参数中指定. l  …
虽然本书中假设你要建索引的内容都是有着良好结构的,比如数据库表,XML文件,CSV,但在现实中我们要保存很混乱的数据,或是二进制文件,如PDF,Microsoft Office,甚至是图片和音乐文件.        我(Eric Pugh)在首次使用Solr时,就需要处理客户在几年间产生的大量PDF和Microsoft文档.随着Solr Cell的进步,和框架的支持,对富文档进行索引不再困难了.        我们来看一个使用Solr Cell从MIDI文件中抽取卡拉OK歌词的例子.想想你可以建…
转载:http://quweiprotoss.wap.blog.163.com/w2/ DIH需要在solrconfig.xml中注册,如下: <requestHandler name="/dih_artists_jdbc" class="org.apache.solr.handler.dataimport.DataImportHandler"> <lst name="defaults"> <str name=&qu…
一.solr两种部署模式介绍 Standalone Server 独立服务器模式:适用于数据规模不大的场景 SolrCloud  分布式集群模式:适用于数据规模大,高可靠.高可用.高并发的场景 二.独立服务器模式详解 1. 独立服务器模式架构 说明: 1.每个solr服务器实例(启动的一个solr服务器进程)都有一个solr主目录(系统变量名为:solr.solr.home).启动服务器实例时须为实例指定主目录(默认为:server/solr目录). 2.solr主目录中存放该服务器实例托管的内…