Solr6.6.0 用 SimplePostTool索引文件
一、背景介绍
Solr启动并运行之后,并不包含任何数据,在solr的安装目录下的bin目录中,有一个post工具,我们可以使用这个工具往solr上传数据,这个工具必须在命令行中执行,post工具是一个Unix脚本工具,
没有windows版本(但可以在java程序中调用),我们可以使用SimplePostTool来代替 参考:https://cwiki.apache.org/confluence/display/solr/Post+Tool#PostTool-Windows
二、系统配置:
SimplePostTool工具是一个jar包(post.jar),在%SOLR_HOME%\example\exampledocs目录下
这个工具可以直接运行在支持的环境中(包括Windows),使用如下命令运行:
java -jar example/exampledocs/post.jar
我们可以查看帮助以获得该工具的更多信息,如:上传文件(本地或网络文件夹)到Solr服务器、直接向Solr发送命令等,如下图:
java -jar example/exampledocs/post.jar –h
java [SystemProperties] -jar post.jar [-h|-] [<file|folder|url|arg> [<file|folder|url|arg>...]]
三、参数介绍
支持的系统属性及其默认值:
1、-Dc=<core/collection>
2、-Durl=<base Solr update URL> (overrides -Dc option if specified)
-Durl=solr的Url地址(如:http://127.0.0.1:8983/solr),该参数会覆盖-Dc参数,以上两个参数必须指定其中的一个,因为必须指定url/core/collection参数
3、-Ddata=files|web|args|stdin (default=files) ,该参数指定上传到Solr服务器的数据,默认为files (即文件):
files:本地资源,在命令行参数中指定文件或文件夹(<file|folder|url|arg>);
web:网络资源,在命令行参数中指定的URL地址(<file|folder|url|arg>);
args:命令行参数指定的字符串(<file|folder|url|arg>);
stdin:标准输入,在命令行中通过”<”符号指定输入流(如文件输入流);
4、-Dtype=<content-type> (default=application/xml) 文件类型,默认是xml
5、-Dhost=<host> (default: localhost) ,solr服务器地址
6、-Dport=<port> (default: 8983) ,solr服务器端口默认是8983
7、-Dbasicauth=<user:pass> (sets Basic Authentication credentials)
8、-Dauto=yes|no (default=no) ,SimplePostTool工具是否进入自动模式,自动模式下,会将-Ddata数据转换成相应的内容类型,切会忽略-Dtype参数
假设D:\work\Solr\solr-6.6.0\doctest目录下有一个文件:index.html
java -Dauto=no -Dc=gettingstarted -jar post.jar ..\doctest/
失败
java -Dauto=yes -Dc=gettingstarted -jar post.jar ..\doctest/
成功
9、-Drecursive=yes|no|<depth> (default=0):递归
现在在D:\work\Solr\solr-6.6.0\doctest目录下建一个test文件夹,该文件夹下有一个文件
执行命令:java -Dauto=yes -Drecursive=no -Dc=gettingstarted -jar post.jar ..\doctest/ 没有进行递归,所以只索引了一个文件
执行命令:java -Dauto=yes -Drecursive=yes -Dc=gettingstarted -jar post.jar ..\doctest/ 进行了递归,所以索引了2个文件
10、-Ddelay=<seconds> (default=0 for files, 10 for web):延迟,单位是秒
11、-Dfiletypes=<type>[,<type>,...] (default=xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log) :文件类型
12、-Dparams="<key>=<value>[&<key>=<value>...]" (values must be URL-encoded):过滤参数
13、-Dcommit=yes/no (default=yes):自动提交
14、-Doptimize=yes/no (default=no):优化
15、-Dout=yes/no (default=no)
四、文件索引
首先启动solr
solr start -e cloud -noprompt
1、xml文件索引
java -Dc=gettingstarted -jar post.jar ..\example\exampledocs\*.xml
2、json文件索引
java -Dtype=application/json -Dc=gettingstarted -jar post.jar ..\example\exampledocs\*.json
3、CSV文件索引
java -Dtype=text/csv -Dc=gettingstarted -jar post.jar ..\example\exampledocs\*.csv
4、各种文件索引(包含多种文件)
java -Dauto=yes -Dc=gettingstarted -jar post.jar ..\example\exampledocs\*.*
注意要加上:-Dauto=yes
五、浏览索引文档
您可以浏览http:// localhost:8983 / solr / gettingstarted / browse索引的文档。 /浏览UI可以让您了解Solr的技术能力如何在熟悉的,尽管有些粗略和原型的交互式HTML视图中进行工作。
(/浏览视图默认为假设启动的模式和数据是结构化XML,JSON,CSV示例数据和非结构化富文档的全部混合,您自己的数据可能看起来不太理想,尽管/浏览模板是定制的。)
http://localhost:8983/solr/gettingstarted_shard1_replica1/browse
Solr6.6.0 用 SimplePostTool索引文件的更多相关文章
- Solr6.6.0 用 SimplePostTool索引文件的启示
本文主要是介绍通过SimplePostTool工具索引文件的结果进行确认,针对不同的文件,索引的结果不同. 1.创建core 首先启动solr,建立名称为data的core,SimplePostToo ...
- Solr6.6.0 用 SimplePostTool索引文件 中文乱码
在用SimplePostTool工具导入CSV文件,文件内容如下: 启动solr ,利用命令导入:java -Dtype=text/csv -Dc=solr_test -jar post.jar .. ...
- Solr6.6.0 用 SimplePostTool与界面dataimport索引方式区别
通过测试发现用SimplePostTool与solr界面dataimport索引数据的结果有如下区别: 1.SimplePostTool索引数据对结构化数据文件索引比较合适,比如csv/json/xm ...
- Solr4.8.0源码分析(12)之Lucene的索引文件(5)
Solr4.8.0源码分析(12)之Lucene的索引文件(5) 1. 存储域数据文件(.fdt和.fdx) Solr4.8.0里面使用的fdt和fdx的格式是lucene4.1的.为了提升压缩比,S ...
- Solr4.8.0源码分析(11)之Lucene的索引文件(4)
Solr4.8.0源码分析(11)之Lucene的索引文件(4) 1. .dvd和.dvm文件 .dvm是存放了DocValue域的元数据,比如DocValue偏移量. .dvd则存放了DocValu ...
- Solr4.8.0源码分析(10)之Lucene的索引文件(3)
Solr4.8.0源码分析(10)之Lucene的索引文件(3) 1. .si文件 .si文件存储了段的元数据,主要涉及SegmentInfoFormat.java和Segmentinfo.java这 ...
- Solr4.8.0源码分析(9)之Lucene的索引文件(2)
Solr4.8.0源码分析(9)之Lucene的索引文件(2) 一. Segments_N文件 一个索引对应一个目录,索引文件都存放在目录里面.Solr的索引文件存放在Solr/Home下的core/ ...
- Solr4.8.0源码分析(8)之Lucene的索引文件(1)
Solr4.8.0源码分析(8)之Lucene的索引文件(1) 题记:最近有幸看到觉先大神的Lucene的博客,感觉自己之前学习的以及工作的太为肤浅,所以决定先跟随觉先大神的博客学习下Lucene的原 ...
- Solr6.5.0配置中文分词器配置
准备工作: solr6.5.0安装成功 1.去官网https://github.com/wks/ik-analyzer下载IK分词器 2.Solr集成IK a)将ik-analyzer-solr6.x ...
随机推荐
- PHP高级——抽象类与接口的区别
在学习PHP面向对象时,都会在抽象类与接口上迷惑,作用差不多为什么还那么容易混淆,何不留一去一?但是事实上两者的区别还是很大的,如果能够很好地运用PHP的两个方法,面向对象的程序设计将会更加合理.清晰 ...
- [洛谷P2216][HAOI2007]理想的正方形
题目大意:有一个$a\times b$的矩阵,求一个$n\times n$的矩阵,使该区域中的极差最小. 题解:二维$ST$表,每一个点试一下是不是左上角就行了 卡点:1.用了一份考试时候写的二维$S ...
- 关于spark RDD trans action算子、lineage、宽窄依赖详解
这篇文章想从spark当初设计时为何提出RDD概念,相对于hadoop,RDD真的能给spark带来何等优势.之前本想开篇是想总体介绍spark,以及环境搭建过程,但个人感觉RDD更为重要 铺垫 在h ...
- [poj] 2549 Sumsets || 双向bfs
原题 在集合里找到a+b+c=d的最大的d. 显然枚举a,b,c不行,所以将式子移项为a+b=d-c,然后双向bfs,meet int the middle. #include<cstdio&g ...
- Codeforces Round #527 (Div. 3) ABCDEF题解
Codeforces Round #527 (Div. 3) 题解 题目总链接:https://codeforces.com/contest/1092 A. Uniform String 题意: 输入 ...
- vue倒计时页面
https://www.cnblogs.com/sichaoyun/p/6645042.html https://blog.csdn.net/sinat_17775997/article/detail ...
- gitHub优秀android项目
转自:http://blog.csdn.net/shulianghan/article/details/18046021 主要介绍那些不错个性化的View,包括ListView.ActionBar.M ...
- 消耗战(bzoj 2286)
Description 在一场战争中,战场由n个岛屿和n-1个桥梁组成,保证每两个岛屿间有且仅有一条路径可达.现在,我军已经侦查到敌军的总部在编号为1的岛屿,而且他们已经没有足够多的能源维系战斗,我军 ...
- centos7配置环境LNMP
#yum安装epel-release第三方软件包 yum install epel-release #要验证EPEL仓库是否建立成功 yum repolist xshell访问系统出现中文乱码的解决方 ...
- codechef AUG17 T1 Chef and Rainbow Array
Chef and Rainbow Array Problem Code: RAINBOWA Chef likes all arrays equally. But he likes some array ...