FileListEntityProcessor

一个简单的实体处理程序,可以用于枚举标准文件系统中的文件列表,它不需要使用DataSource.属性如下:

fileName:(必填) 用正则表达式来标记文件名
baseDir:(必填) 基础目录,绝对路径.
recursive:是否递归文件列表,默认为false.
excludes:不包括的文件名的正则表达式
newerThan:日期参数,格式: (yyyy-MM-dd HH:mm:ss),它也可以是一个数学日期,如('NOW-3DAYS'),其中的单引号是必填的.也可以是一个有效的变量格式,如(${var.name}).
olderThan :日期格式,规则同上.
biggerThan:整型参数.
smallerThan:整型参数.
rootEntity:它一般情况下都是false(除非你只索引文件名).直属于<document>下的实体才是根实体.那就意味着,根实体发出的每一行都会被solr/lucene创建.但是在这种情况下,我们不希望一个文件对应一个文档(document).我们希望生成一个文档(document),每一行的发出都是由下面的实体'x'来完成的.因为实体'f'包含了rootEntity=false,直属实体f下的实体就变成了一个根实体.
dataSource:这里不需要数据源,因此可以设置为null.

例1:

<dataConfig>

    <dataSource type="FileDataSource" />

    <document>

        <entity name="f" processor="FileListEntityProcessor" baseDir="/some/path/to/files"

            fileName=".*xml" newerThan="'NOW-3DAYS'" recursive="true" rootEntity="false"

            dataSource="null">

            <entity name="x" processor="XPathEntityProcessor" forEach="/the/record/xpath"

                url="${f.fileAbsolutePath}">

                <field column="full_name" xpath="/field/xpath" />

            </entity>

        </entity>

    </document>

</dataConfig>

例2:从文件列表中读取文件内容,并将文件名称处理掉文件名后缀.

<dataConfig>

    <script><![CDATA[

        id = 1;

        function GenerateId(row) {

            row.put('id', (id ++).toFixed());

            return row;

        }

        function WipOffHtml(row) {

            var file = row.get('file');

            row.put('file',file.substr(0,file.indexOf('.')));

            return row;

        }

       ]]>

    </script>

    <dataSource name="binFile" type="BinFileDataSource" />

    <document>

        <entity name="f" processor="FileListEntityProcessor" baseDir="D:/solr/source_data/ah/"

            recursive="true" fileName=".*.html" rootEntity="false" dataSource="null"

            transformer="script:WipOffHtml">

            <field column="file" name="title" />

            <entity processor="TikaEntityProcessor" name="tika"

                dataSource="binFile" url="${f.fileAbsolutePath}" format="text"

                transformer="HTMLStripTransformer,RegexTransformer,script:GenerateId">

                <field column="id" name="id" />

                <field column="text" name="content" stripHTML="true" regex="\t|\r|\n|\s"

                    replaceWith="" />

            </entity>

        </entity>

    </document>

</dataConfig>

注意:不要丢失rootEntity这个属性.FileListEntityProcessor 产生的隐式字段是:fileDir,file,fileAbsolutePath,fileSize,fileLastModified ,

这些变量在实体x中都是可以使用的.应该注意的是FileListEntityProcessor返回的是文件路径列表,所以子实体必须使用FileDataSource 来获取文件内容.

不当之处,敬请指正!

FileListEntityProcessor的更多相关文章

1.6.4 Uploading Structured Data Store Data with the Data Import Handler
1.使用DIH上传结构化数据许多搜索应用索引结构化数据,如关系型数据库.DIH提供了一个这样的存储并索引结构化数据的机制.除了关系型数据库,solr可以索引来自HTTP的内容,基于数据源如RSS和A ...
Solr DIH dataconfig配置
1. 配置文件data-config.xml定义了数据库的基本配置,以及导出数据的映射规则,即导出数据库表中对应哪些字段的值,以及对特定字段的值做如何处理 </pre><p>& ...
企业级搜索引擎Solr 第三章索引数据（Indexing Data）[2]--DIH
转载:http://quweiprotoss.wap.blog.163.com/w2/ DIH需要在solrconfig.xml中注册,如下: <requestHandler name=&quo ...
Solr Dataimport配置
参考资料: https://cwiki.apache.org/confluence/display/solr/Uploading+Structured+Data+Store+Data+with+the ...
solr7.7.0搜索引擎使用(三)(添加文件索引)
众所周知,solr与es的最大区别是,solr可以对pdf,txt,doc等文件生成索引那我们如何添加文件索引呢? 步骤1.添加core,取名暂且为 coreFile 在bin下执行命令 ./sol ...
solr特点六: DIH (从数据源导入数据)
在这个结构化数据和非结构化数据的数量都很庞大的年代,经常需要从数据库.XML/HTML 文件或其他数据源导入数据,并使数据可搜索.过去,要编写自定义代码才能创建到数据库.文件系统或 RSS 提要的自定 ...
solr6.6 配置自带中文分词
1.配置solrconfig.xml solr的自带中文分词包在solr-6.6.0\contrib\analysis-extras\lucene-libs下修改solrconfig.xml增加 & ...
solr6.6 导入文本（txt/json/xml/csv）文件
参照:solr6.6 导入 pdf文件重点就是三个配置文件 1.建立的data-config.xml 内容如下: <dataConfig> <dataSource name=&qu ...
solr6.6 导入 pdf/doc/txt/json/csv/xml文件
文本主要介绍通过solr界面dataimport工具导入文件,包括pdf.doc.txt .json.csv.xml等文件,看索引结果有什么不同.其实关键是managed-schema.solrcon ...

随机推荐

fedora 16安装ByPass四网口网卡遇到的问题
这个问题困扰了好几天,今天终于在大谷歌的帮助下,在这个网站http://blog.bwysystems.com/bwysystems/?p=16上找到了答案!还是国外的技术论坛强,在百度上搜遍了也没有 ...
HDU 5858 Hard problem （数学推导）
Hard problem 题目链接: http://acm.split.hdu.edu.cn/showproblem.php?pid=5858 Description cjj is fun with ...
HDU 4618 Palindrome Sub-Array （2013多校2 1008 暴力）
Palindrome Sub-Array Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 65535/32768 K (Java/Oth ...
用keyword实现Editor.GetSelection的退出功能
有时候我们在使用 GetSelection 功能让用户选择实体时,可能会给用户提供一些 keyword 选项,要接收用户选择的 keyword 选项,需要用到 PromptSelectionOptio ...
【转载】Windows/Office“神key的来源”(附win8神key)
凡是没有经过微软授权的渠道激活Windows/Office的全部是"D版"!但由于密钥激活更方便快捷,因此很受欢迎.从百度博客到现在,很多网友询问:"神key&q ...
js date string parse
function dateParse(dStr){ //var dStr = '2016-1-26 0:7:14'; var d = dStr.split(' ')[0].split('-'); va ...
VS2008注册码
PYHYP-WXB3B-B2CCM-V9DX9-VDY8T 如果下载的是90天的试用版,下载下来以后把ISO里面的Setup\setup.sdb文件用记事本打开,把其中的[Product Key]下面 ...
drop,truncate与delete的区别
注意:这里说的delete是指不带where子句的delete语句相同点 truncate和不带where子句的delete, 以及drop都会删除表内的数据不同点: 1. truncate和 d ...
MVC 小常识
什么是MVC (模型视图控制器)? MVC是一个架构模式,它分离了表现与交互.它被分为三个核心部件:模型.视图.控制器.下面是每一个部件的分工: 视图是用户看到并与之交互的界面. 模型表示业务数据 ...
Oracle:递归查询（树形结构数据）
今天要做一个查询功能:查询某用户所属部门,且包含该部门的所有上级部门信息.偶然找到了一个方法,特意来做个笔记.分享给和我一样的菜鸟,哈哈查询子节点 1 select * 2 from d_arc_d ...

FileListEntityProcessor

FileListEntityProcessor的更多相关文章

随机推荐

热门专题