阅读此文请先阅读上文：[大数据]-Elasticsearch5.3.1 IK分词，同义词/联想搜索设置，前面介绍了ES，Kibana5.3.1的安装配置，以及IK分词的安装和同义词设置，这里主要记录Logstash导入mysql数据到Elasticsearch5.3.1并设置IK分词和同义词。由于logstash配置好JDBC，ES连接之后运行脚本一站式创建index，mapping，导入数据。但是如果我们要配置IK分词器就需要修改创建index,mapping的配置，下面详细介绍。

一、Logstash-5.3.1下载安装:

下载：https://www.elastic.co/cn/downloads/logstash
解压：tar -zxf logstash-5.3.1.tar.gz
启动：bin/logstash -e 'input { stdin { } } output { stdout {} }' （参数表示终端输入输出）如下则成功。

Sending Logstash's logs to /home/rzxes/logstash-5.3.1/logs which is now configured via log4j2.properties

[2017-05-16T10:27:36,957][INFO ][logstash.setting.writabledirectory] Creating directory {:setting=>"path.queue", :path=>"/home/rzxes/logstash-5.3.1/data/queue"}

[2017-05-16T10:27:37,041][INFO ][logstash.agent           ] No persistent UUID file found. Generating new UUID {:uuid=>"c987803c-9b18-4395-bbee-a83a90e6ea60", :path=>"/home/rzxes/logstash-5.3.1/data/uuid"}

[2017-05-16T10:27:37,581][INFO ][logstash.pipeline        ] Starting pipeline {"id"=>"main", "pipeline.workers"=>1, "pipeline.batch.size"=>125, "pipeline.batch.delay"=>5, "pipeline.max_inflight"=>125}

[2017-05-16T10:27:37,682][INFO ][logstash.pipeline        ] Pipeline main started

The stdin plugin is now waiting for input:

[2017-05-16T10:27:37,886][INFO ][logstash.agent           ] Successfully started Logstash API endpoint {:port=>9600}

二、Logstash-5.3.1连接mysql作为数据源，ES作为数据输出端：

由于此版本的logstash已经集成了jdbc插件，我们只需要添加一个配置文件xxx.conf。内容如下test.conf：

input {

    stdin {

    }

    jdbc {

      # 数据库地址  端口  数据库名

      jdbc_connection_string => "jdbc:mysql://IP:3306/dbname"

      # 数据库用户名

      jdbc_user => "user"

      # 数据库密码

      jdbc_password => "pass"

      # mysql java驱动地址

      jdbc_driver_library => "/home/rzxes/logstash-5.3.1/mysql-connector-java-5.1.17.jar"

      jdbc_driver_class => "com.mysql.jdbc.Driver"

      jdbc_paging_enabled => "true"

      jdbc_page_size => "100000"

      # sql 语句文件，也可以直接写SQL，如statement => "select * from table1"

      statement_filepath => "/home/rzxes/logstash-5.3.1/test.sql"

      schedule => "* * * * *"

      type => "jdbc"

    }

}

output {

    stdout {

        codec => json_lines

    }

    elasticsearch {

        hosts  => "192.168.230.150:9200"

        index => "test-1" #索引名称

        document_type => "form" #type名称

        document_id => "%{id}" #id必须是待查询的数据表的序列字段

} }

创建一个SQL文件：如上配置test.sql内容: select * from table1
test.conf,test.sql文件都在logstash的根目录下。
运行logstash脚本导入数据： bin/logstash -f test.conf 启动如下;
等待数据导入完成。开启Es-head,访问9100端口如下：
可以看到已经导入了11597条数据。
更多详细的配置参考官方文档：plugins-inputs-jdbc-jdbc_driver_library

三、logstash是如何创建index，mapping，并导入数据？

ES导入数据必须先创建index，mapping，但是在logstash中并没有直接创建，我们只传入了index，type等参数，logstash是通过es的mapping template来创建的，这个模板文件不需要指定字段，就可以根据输入自动生成。在logstash启动的时候这个模板已经输出了如下log:

[2017-05-23T15:58:45,801][WARN ][logstash.outputs.elasticsearch] Restored connection to ES instance {:url=>#<URI::HTTP:0x68f0d43b URL:http://192.168.230.150:9200/>}

[2017-05-23T15:58:45,805][INFO ][logstash.outputs.elasticsearch] Using mapping template from {:path=>nil}

[2017-05-23T15:58:45,979][INFO ][logstash.outputs.elasticsearch] Attempting to install template {:manage_template=>{"template"=>"logstash-*", "version"=>50001, "settings"=>{"index.refresh_interval"=>"5s"}, "mappings"=>{"_default_"=>{"_all"=>{"enabled"=>true, "norms"=>false}, "dynamic_templates"=>[{"message_field"=>{"path_match"=>"message", "match_mapping_type"=>"string", "mapping"=>{"type"=>"text", "norms"=>false}}}, {"string_fields"=>{"match"=>"*", "match_mapping_type"=>"string", "mapping"=>{"type"=>"text", "norms"=>false, "fields"=>{"keyword"=>{"type"=>"keyword"}}}}}], "properties"=>{"@timestamp"=>{"type"=>"date", "include_in_all"=>false}, "@version"=>{"type"=>"keyword", "include_in_all"=>false}, "geoip"=>{"dynamic"=>true, "properties"=>{"ip"=>{"type"=>"ip"}, "location"=>{"type"=>"geo_point"}, "latitude"=>{"type"=>"half_float"}, "longitude"=>{"type"=>"half_float"}}}}}}}}

添加IK分词，只需要创建一个json文件： vim /home/rzxes/logstash-5.3.1/template/logstash.json 添加如下内容：

{

    "template": "*",

    "version": 50001,

    "settings": {

        "index.refresh_interval": "5s"

    },

    "mappings": {

        "_default_": {

            "_all": {

                "enabled": true,

                "norms": false

            },

            "dynamic_templates": [

                {

                    "message_field": {

                        "path_match": "message",

                        "match_mapping_type": "string",

                        "mapping": {

                            "type": "text",

                            "norms": false

                        }

                    }

                },

                {

                    "string_fields": {

                        "match": "*",

                        "match_mapping_type": "string",

                        "mapping": {

                            "type": "text",

                            "norms": false,

                            "analyzer": "ik_max_word",#只需要添加这一行即可设置分词器为ik_max_word

                            "fields": {

                                "keyword": {

                                    "type": "keyword"

                                }

                            }

                        }

                    }

                }

            ],

            "properties": {

                "@timestamp": {

                    "type": "date",

                    "include_in_all": false

                },

                "@version": {

                    "type": "keyword",

                    "include_in_all": false

                }

            }

        }

    }

}

如需配置同义词，需自定义分词器，配置同义词过滤<IK分词同义词详见上一篇文章>。修改模板logstash.json如下:

{

    "template" : "*",

    "version" : 50001,

    "settings" : {

        "index.refresh_interval" : "5s",

        #分词，同义词配置：自定义分词器，过滤器，如不配同义词则没有index这一部分

        "index": {

          "analysis": {

            "analyzer": {

              "by_smart": {

                "type": "custom",

                "tokenizer": "ik_smart",

                "filter": ["by_tfr","by_sfr"],

                "char_filter": ["by_cfr"]

              },

              "by_max_word": {

                "type": "custom",

                "tokenizer": "ik_max_word",

                "filter": ["by_tfr","by_sfr"],

                "char_filter": ["by_cfr"]

              }

            },

            "filter": {

              "by_tfr": {

                "type": "stop",

                "stopwords": [" "]

              },

              "by_sfr": {

                "type": "synonym",

                "synonyms_path": "analysis/synonyms.txt" #同义词路径

              }

            },

            "char_filter": {

              "by_cfr": {

                "type": "mapping",

                "mappings": ["| => |"]

              }

            }

          }

        } # index --end--

      },

    "mappings" : {

        "_default_" : {

            "_all" : {

                "enabled" : true,

                "norms" : false

            },

            "dynamic_templates" : [

                {

                    "message_field" : {

                        "path_match" : "message",

                        "match_mapping_type" : "string",

                        "mapping" : {

                            "type" : "text",

                            "norms" : false

                        }}

                    },

                {

                    "string_fields" : {

                        "match" : "*",

                        "match_mapping_type" : "string",

                        "mapping" : {

                            "type" : "text",

                            "norms" : false,

                            #选择分词器：自定义分词器，或者ik_mmax_word

                            "analyzer" : "by_max_word",

                            "fields" : {

                                "keyword" : {

                                    "type" : "keyword"

                                }

                            }

                        }

                    }

                 }

            ],

            "properties" : {

                "@timestamp" : {

                    "type" : "date",

                    "include_in_all" : false

                },

                "@version" : {

                    "type" : "keyword",

                    "include_in_all" : false

                }

            }

        }

    }

}

有了自定义模板文件，test.conf中配置模板覆盖使模板生效。test.conf最终配置如下：

input {

            stdin {

            }

            jdbc {

              # 数据库地址  端口  数据库名

              jdbc_connection_string => "jdbc:mysql://IP:3306/dbname"

              # 数据库用户名

              jdbc_user => "user"

              # 数据库密码

              jdbc_password => "pass"

              # mysql java驱动地址

              jdbc_driver_library => "/home/rzxes/logstash-5.3.1/mysql-connector-java-5.1.17.jar"

              jdbc_driver_class => "com.mysql.jdbc.Driver"

              jdbc_paging_enabled => "true"

              jdbc_page_size => "100000"

              # sql 语句文件

              statement_filepath => "/home/rzxes/logstash-5.3.1/mytest.sql"

              schedule => "* * * * *"

              type => "jdbc"

            }

        }

        output {

            stdout {

                codec => json_lines

            }

            elasticsearch {

                hosts  => "192.168.230.150:9200"

                index => "test-1"

                document_type => "form"

                document_id => "%{id}" #id必须是待查询的数据表的序列字段

                template_overwrite => true

                template => "/home/rzxes/logstash-5.3.1/template/logstash.json"

                }

        }

删除上次创建的index（由于数据导入时会根据原有数据的index，mapping进行索引创建），重新启动logstash。
最终在Kibana中检索关键词番茄，就会发现西红柿也会被检索到。如下图：
致此logstash数据导入的template重写就完成了。
另一种方式配置IK分词:全局配置，不需要自定义模板。

curl -XPUT "http://192.168.230.150:9200/_template/rtf" -H 'Content-Type: application/json' -d'

{

            "template" : "*",

            "version" : 50001,

            "settings" : {

                "index.refresh_interval" : "5s",

                "index": {

                  "analysis": {

                    "analyzer": {

                      "by_smart": {

                        "type": "custom",

                        "tokenizer": "ik_smart",

                        "filter": ["by_tfr","by_sfr"],

                        "char_filter": ["by_cfr"]

                      },

                      "by_max_word": {

                        "type": "custom",

                        "tokenizer": "ik_max_word",

                        "filter": ["by_tfr","by_sfr"],

                        "char_filter": ["by_cfr"]

                      }

                    },

                    "filter": {

                      "by_tfr": {

                        "type": "stop",

                        "stopwords": [" "]

                      },

                      "by_sfr": {

                        "type": "synonym",

                        "synonyms_path": "analysis/synonyms.txt"

                      }

                    },

                    "char_filter": {

                      "by_cfr": {

                        "type": "mapping",

                        "mappings": ["| => |"]

                      }

                    }

                  }

                }

              },

            "mappings" : {

                "_default_" : {

                    "_all" : {

                        "enabled" : true,

                        "norms" : false

                    },

                    "dynamic_templates" : [

                        {

                            "message_field" : {

                                "path_match" : "message",

                                "match_mapping_type" : "string",

                                "mapping" : {

                                    "type" : "text",

                                    "norms" : false

                                }}

                            },

                        {

                            "string_fields" : {

                                "match" : "*",

                                "match_mapping_type" : "string",

                                "mapping" : {

                                    "type" : "text",

                                    "norms" : false,

                                    "analyzer" : "by_max_word",

                                    "fields" : {

                                        "keyword" : {

                                            "type" : "keyword"

                                        }

                                    }

                                }

                            }

                         }

                    ],

                    "properties" : {

                        "@timestamp" : {

                            "type" : "date",

                            "include_in_all" : false

                        },

                        "@version" : {

                            "type" : "keyword",

                            "include_in_all" : false

                        }

                    }

                }

            }

        }'

可以使用curl查看模板： curl -XGET "http://192.168.230.150:9200/_template"

[大数据]-Logstash-5.3.1的安装导入数据到Elasticsearch5.3.1并配置同义词过滤的更多相关文章

[大数据]-Fscrawler导入文件（txt,html,pdf,worf...）到Elasticsearch5.3.1并配置同义词过滤
fscrawler是ES的一个文件导入插件,只需要简单的配置就可以实现将本地文件系统的文件导入到ES中进行检索,同时支持丰富的文件格式(txt.pdf,html,word...)等等.下面详细介绍下f ...
Java使用JDBC连接数据库逐条插入数据、批量插入数据、以及通过SQL语句批量导入数据的效率对比
测试用的示例java代码: package com.zifeiy.test.normal; import java.io.File; import java.io.FileOutputStream; ...
【neo4j】文件管理路径、数据备份、创建新数据库、导入数据等操作记录
neo4j一般的配置路径如下一.备份数据使用neo4j-admin命令. 首先,先找到数据的存储路径,然后关闭数据库. 关闭数据库的语句如下: #切换到/bin目录下 ./neo4j stop 然 ...
第十节：Web爬虫之数据存储与MySQL8.0数据库安装和数据插入
用解析器解析出数据之后,接下来就是存储数据了,保存的形式可以多种多样,最简单的形式是直接保存为文本文件,如 TXT.JSON.csv 另外,还可以保存到数据库中,如关系型数据库MySQL ,非关系型数 ...
使用BCP批量导入数据
本文原创,转载请标明出处 BCP 工具的使用 The bulk copy program utility (bcp) bulk copies data between an instance of M ...
geotrellis使用（二十一）自动导入数据
目录前言整体介绍前台界面后台控制总结一.前言之前Geotrellis数据导入集群采用的是命令行的方式,即通过命令行提交spark任务来ingest数据,待数据导入完毕再启动 ...
一起学Hive——详解四种导入数据的方式
在使用Hive的过程中,导入数据是必不可少的步骤,不同的数据导入方式效率也不一样,本文总结Hive四种不同的数据导入方式: 从本地文件系统导入数据从HDFS中导入数据从其他的Hive表中导入数据 ...
记录一次向TiDB数据库导入数据的例子
导出数据今天从Mysql的某个库中导出一个表大概有20分钟吧,等了一会终于导出成功了.查看一下文件的大小: [tidb@:vg_adn_CkhsTest ~]$du -h ./creative_ou ...
Hive数据导入——数据存储在Hadoop分布式文件系统中，往Hive表里面导入数据只是简单的将数据移动到表所在的目录中！
转自:http://blog.csdn.net/lifuxiangcaohui/article/details/40588929 Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop ...

随机推荐

JavaScript基础学习(五)—其他引用类型
JavaScript定义了两个内置对象: Global和Math. 一.Global对象 1.URI编码方法 Global对象的encodeURI()和encodeURICompo ...
spring_boot攻略1.1-hello SpringBoot
交流账号:2318645572 说明: 开发工具:eclipse 开发系统:windows 7 开发规范:maven项目注意:按照我说的方式做下去 1.导包:pom.xml <project ...
Spring Boot 配置文件 – 在坑中实践
摘要: 原创出处 www.bysocket.com 「泥瓦匠BYSocket 」欢迎转载,保留摘要,谢谢! 『仓廪实而知礼节,衣食足而知荣辱 - 管仲』本文提纲一.自动配置二.自定义 ...
一个全局变量引起的DLL崩溃
参考我发的帖子: http://bbs.csdn.net/topics/390737064?page=1#post-397000946 现象是exe程序在加载dll的时候崩溃了,莫名其妙的崩溃了.换其 ...
FOJ 11月月赛题解
抽空在vjudge上做了这套题.剩下FZU 2208数论题不会. FZU 2205 这是个想法题,每次可以在上一次基础上加上边数/2的新边. #include <iostream> #in ...
Linux-进程描述（4）之进程优先级与进程创建执行
进程优先级进程cpu资源分配就是指进程的优先权(priority).优先权高的进程有优先执行权利. 权限与优先级.权限(privilege)是指在多用户计算机系统的管理中,某个特定的用户具有特定的系 ...
php-fpm死机解决办法，脚本后台自动重启
本人用nginx+php7搭建了一台服务器,因为请求量太大,而且php里面又有挂起的任务,导致php-fpm在高峰期的时候经常死掉,吧php-fpm的最大进程数已经改到1000了,还是吃不消,cpu也 ...
php中print_r、var_dump和var_export几个函数的用法区别
php中print_r.var_dump和var_export几个函数的用法区别
查询表达式和LINQ to Objects
查询表达式实际上是由编译器“预处理”为“普通”的C#代码,接着以完全普通的方式进行编译.这种巧妙的发式将查询集合到了语言中,而无须把语义改得乱七八糟 LINQ的介绍 LINQ中的基础概念降低两种数据 ...
TypeScript入门-枚举、类型推论
枚举使用枚举可以定义一些具有名字的数字常量,和在C语言中一样都是使用关键字enum enum Direction { Up = 1, Down = 1<<2, Left, Right } ...

[大数据]-Logstash-5.3.1的安装导入数据到Elasticsearch5.3.1并配置同义词过滤

一、Logstash-5.3.1下载安装:

二、Logstash-5.3.1连接mysql作为数据源，ES作为数据输出端：

三、logstash是如何创建index，mapping，并导入数据？

[大数据]-Logstash-5.3.1的安装导入数据到Elasticsearch5.3.1并配置同义词过滤的更多相关文章

随机推荐

热门专题