Solr-5.3.1 dataimport 导入mysql数据

右介 2024-09-04 18:13:33 原文

最近需要计算制造业领域大词表每个词的idf，词表里一共九十多万个词，语料一共三百七十多万篇分词后文献。最开始尝试用程序词表循环套语料循环得到每个词的idf，后来又尝试把语料存入mysql然后建立全文索引再循环用sql语句去查每个词的idf，效率都十分不理想。

最新的想法是利用solr搜索引擎的速度来做，所以首先要把mysql的数据导入solr。

一、开启Solr服务

1、下载solr-5.3.1.tgz包，解压之后为solr-5.3.1

2、通过bin/solr start命令开启solr服务

3、开启服务之后，默认是开启8983端口，此时就可以使用localhost:8983/solr/进行访问了

二、从Mysql数据库中导入数据

1、创建core或collection：bin/solr create -c 集合名

2、从mysql官网中下载一个mysql-connector-java-5.1.25.zip压缩包，解压出一个mysql-connector-java-5.1.25-bin.jar包，将它分别copy到solr-5.3.1/server/lib和solr-5.3.1/server/solr-webapp/webapp/WEB-INF/lib当中（只copy到第一个路径应该就可以）

3、将solr-dataimporthandler-5.3.1.jar和solr-dataimporthandler-extras-5.3.1.jar从solr-5.3.1/dist/文件夹下copy到solr-5.3.1/server/solr-webapp/webapp/WEB-INF/lib当中（只copy第一个文件应该就可以）

4、修改solr-5.3.1/server/solr/集合名/conf/managed-schema文件为schema.xml

5、在schema.xml添加field（根据实际情况），如下：

<field name="quanwen" type="text_general" indexed="true" stored="true" required="true" />

6、修改solr-5.3.1/server/solr/collection/conf/下的solrconfig.xml的配置文件，增加一段添加数据库数据的xml，如下：

<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">

    <lst name="defaults">

        <str name="config">data-config.xml</str>

    </lst>

</requestHandler>

7、在solr-5.3.1/server/solr/collection/conf/下创建data-config.xml文件，配置访问数据库的用户名、密码、查询语句，column对应数据库中字段、name对应solr的schema.xml中字段（根据实际情况），文件内容如下：

<dataConfig>

    <dataSource driver="com.mysql.jdbc.Driver" url="jdbc:mysql://IP:3306/库名" user="账号" password="密码"/>

    <document>

        <entity name="item" query="select * from 表名">

            <field column="id" name="id" />

            <field column="quanwen" name="quanwen" />

        </entity>

    </document>

</dataConfig>

8、重启服务bin/solr restart

9、

Solr-5.3.1 dataimport 导入mysql数据的更多相关文章

solr7.4创建core，导入MySQL数据，中文分词
#solr版本:7.4.0 一.新建Core 进入安装目录下得server/solr/,创建一个文件夹,如:new_core 拷贝server/solr/configsets/_default/con ...
Sqoop导入mysql数据到Hbase
sqoop import --driver com.mysql.jdbc.Driver --connect "jdbc:mysql://11.143.18.29:3306/db_1" ...
如何导出和导入mysql数据(数据迁移)
. 导出数据库数据 mysqldump -uroot -p dp_db > dumpout.sql 其中 root是账户名 dp_db是需要导出的数据库名称 dumpout.sql存储导出的数据 ...
HeidiSQL工具导出导入MySQL数据
有时候,为了数据方便导出导入SQL,我们可以借助一定的工具,方便我们队数据库的移植,可以达到事半功倍的效果.在这里,就给大家简单的介绍一款能方便导出或者导入MySQL的数据. ①首先,选择你要导出的数 ...
excel导入mysql数据
excel加载mysql数据 1.第一步,选择从mysql导入数据 2.单击会出现弹框: 3.可能有的同学的,这里缺少插件,例如: 4.去下载这个插件安装即可.https://dev.mysql. ...
Solr导入MySQL数据之dataimport-handler
Solr不借助手动JSolr编程情况下也可以将Mysql的数据导入到Solr中.实现方式是安装dataimport-Handler从关系数据库将数据导入到索引库. 1.向SolrCore中加入jar包 ...
solr学习笔记-导入mysql数据
操作系统:LINUX CENTOS 6.7 solr安装目录:/usr/local/solr-6.1.0 1.准备工作: 1.1.创建数据表: CREATE TABLE `mytable` ( `id ...
Solr安装并导入mysql数据
参考博客:https://blog.csdn.net/u013160017/article/details/81037279 下载地址:https://lucene.apache.org/solr/m ...
Sqoop导入MySQL数据
导入所有表: sqoop import-all-tables –connect jdbc:mysql://ip:port/dbName --username userName --password p ...

随机推荐

PL/SQL 09 包 package
--定义包头 create or replace package 包名as 变量.常量声明; 函数声明; 过程声明;end; --定义包体 create or replace package b ...
【C++】类的特殊成员变量+初始化列表
参考资料: 1.黄邦勇帅 2.http://blog.163.com/sunshine_linting/blog/static/448933232011810101848652/ 3.http://w ...
深入理解Java的注解（Annotation）：注解处理器（3）
如果没有用来读取注解的方法和工作,那么注解也就不会比注释更有用处了.使用注解的过程中,很重要的一部分就是创建于使用注解处理器.Java SE5扩展了反射机制的API,以帮助程序员快速的构造自定义注解处 ...
spring quartz job autowired 出错 null pointer
什么情况下才能用autowired? 当当前类属于spring IOC容器管时候就可以,比如在applicationContext.xml里有定义就是说在spring上下文里能够找到但是比如qua ...
redis使用管道pipeline提升批量操作性能(php演示)
Redis是一个TCP服务器,支持请求/响应协议. 在Redis中,请求通过以下步骤完成: 客户端向服务器发送查询,并从套接字读取,通常以阻塞的方式,用于服务器响应. 服务器处理命令并将响应发送回客户 ...
Laravel 中的 Many-To-Many
在实际的开发中,我们经常会接触到几种常见的对应关系模式: One-To-One //一对一 One-To-Many //一对多 Many-To-Many //多对多在刚刚开始接触到这些概念的时候,其 ...
（一）安装openvpn服务器端
环境 centos版本 [root@localhost ~]# cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core) 关闭cento ...
ubuntu 18.04下编译最新版本的KMS
KMS:kurento媒体服务,即 kurento media server 很庞大的一个WEBRTC项目,GIT库主项目:https://github.com/Kurento 基础实现,修改了gst ...
整数快速乘法/快速幂+矩阵快速幂+Strassen算法
快速幂算法可以说是ACM一类竞赛中必不可少,并且也是非常基础的一类算法,鉴于我一直学的比较零散,所以今天用这个帖子总结一下快速乘法通常有两类应用:一.整数的运算,计算(a*b) mod c 二.矩 ...
NOIP2014飞扬的小鸟
长为n,高为m的二维平面,其中有k个管道(忽略管道的宽度)小鸟始终在游戏界面内移动.从最左边任意高度位置出发,到达游戏界面最右边,游戏完成每个单位时间沿横坐标方向右移距离为1,竖直移动的距离由玩家控制 ...