【原创】大数据基础之Logstash（6）mongo input

logstash input插件之mongodb是第三方的，配置如下：

input {

  mongodb {

    uri => 'mongodb://mongo_server:27017/db'

    placeholder_db_dir => '/path/to/db_dir/'

    placeholder_db_name => 'table.db'

    collection => 'table'

    batch_size => 5000

  }

}

安装

./logstash-plugin install logstash-input-mongodb

插件实现非常简单，就一个ruby文件，

https://github.com/phutchins/logstash-input-mongodb/blob/master/lib/logstash/inputs/mongodb.rb

使用sqlite来维护状态，db文件目录在 placeholder_db_dir，可以直接通过sqlite命令查看和修改

# sqlite3 /path/to/db_dir/table.db

db结构

sqlite> .schema

CREATE TABLE `since_table` (`table` varchar(255), `place` Int);

sqlite> select * from since_table order by place desc limit 1;

logstash_since_table|5d0b2c2682b7d74de069ce4d

插件中取place代码

  public

  def get_placeholder(sqlitedb, since_table, mongodb, mongo_collection_name)

    since = sqlitedb[SINCE_TABLE]

    x = since.where(:table => "#{since_table}_#{mongo_collection_name}")

    if x[:place].nil? || x[:place] == 0

      first_entry_id = init_placeholder(sqlitedb, since_table, mongodb, mongo_collection_name)

      @logger.debug("FIRST ENTRY ID for #{mongo_collection_name} is #{first_entry_id}")

      return first_entry_id

    else

      @logger.debug("placeholder already exists, it is #{x[:place]}")

      return x[:place][:place]

    end

  end

place取自mongo的_id

> db.table.find().limit(1).pretty()

{

        "_id" : ObjectId("5b48cd2382b7d752b802de31"),

...

可以手工通过sqlite的update命令来操作进度；

同步过程日志

D, [2019-06-20T16:21:31.938302 #28968] DEBUG -- : MONGODB | 47.92.149.159:27017 | db.find | STARTED | {"find"=>"table", "filter"=>{"_id"=>{"$gt"=>BSON::ObjectId('5d0b420782b7d74de069db7b')}}, "limit"=>10000}

D, [2019-06-20T16:21:31.941658 #28968] DEBUG -- : MONGODB | 47.92.149.159:27017 | db.find | SUCCEEDED | 0.002s

读place，从place开始取10000条，然后写place，如此往复

参考：https://github.com/phutchins/logstash-input-mongodb

【原创】大数据基础之Logstash（6）mongo input的更多相关文章

【原创】大数据基础之Logstash（4）高可用
logstash高可用体现为不丢数据(前提为服务器短时间内不可用后可恢复比如重启服务器或重启进程),具体有两个方面: 进程重启(服务器重启) 事件消息处理失败在logstash中对应的解决方案为: ...
【原创】大数据基础之Logstash（3）应用之http（in和out）
一个logstash很容易通过http打断成两个logstash实现跨服务器或者跨平台间数据同步,比如原来的流程是 logstash: nginx log -> kafka 打断成两个是 log ...
【原创】大数据基础之Logstash（1）简介、安装、使用
Logstash 6.6.2 官方:https://www.elastic.co/products/logstash 一简介 Centralize, Transform & Stash Yo ...
【原创】大数据基础之Logstash（2）应用之mysql-kafka
应用一:mysql数据增量同步到kafka 1 准备mysql测试表 mysql> create table test_sync(id int not null auto_increment, ...
【原创】大数据基础之Logstash（5）监控
有两种方式来监控logstash: api ui(xpack) When you run Logstash, it automatically captures runtime metrics tha ...
【原创】大数据基础之Logstash（3）应用之file解析（grok/ruby/kv）
从nginx日志中进行url解析 /v1/test?param2=v2&param3=v3&time=2019-03-18%2017%3A34%3A14->{'param1':' ...
【原创】大数据基础之Zookeeper（2）源代码解析
核心枚举 public enum ServerState { LOOKING, FOLLOWING, LEADING, OBSERVING; } zookeeper服务器状态:刚启动LOOKING,f ...
【原创】大数据基础之词频统计Word Count
对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多简单: 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test ...
【原创】大数据基础之Impala（1）简介、安装、使用
impala2.12 官方:http://impala.apache.org/ 一简介 Apache Impala is the open source, native analytic datab ...

随机推荐

php 设置error_reporting(0)和ini_set('display_errors', 0)之后，还是显示错误
php 5.4 apache 2.2 关闭错误报告和错误显示依然会显示错误按照我的理解,error_reporting(0)之后就应该不会显示错误了,这是怎么回事? 后来我又试着在php.ini者 ...
opencv配置运行问题
opencv是图像处理常用的一个库文件,对于一些新手来说,配置完后运行,总会有这样或者那样的错误,会挫伤其学习积极性,这里将常见的几种错误列举出来,供其参考和使用. 方法/步骤第一种错误叫no suc ...
发布机制-灰度发布-例子：Gmail Labs
ylbtech-发布机制-灰度发布-例子:Gmail Labs Gmail Labs是一个新特性橱窗,用户可以自己选择一些未正式发布的新特性进行体验,不喜欢可以关闭,在这个过程中,吃了螃蟹,也当了Go ...
在react项目中启用mobx的配置方法
1.安装插件 npm install --save-dev babel-preset-mobx mobx mobx-react 2.package.json配置 "dependencies& ...
DisplayUtils
import android.app.Activity; import android.content.Context; import android.graphics.Rect; import an ...
CSS 背景色变化结构化伪类的练习
CSS3的nth-child() 选择器(兼容性不好),在做表格偶数行变色的时候,我通常在绑定的时候,做一个js判断,来加一个css,从而使表格偶数行和奇数行颜色不一样.这样的兼容性很好. 但是最近在 ...
[Java读书笔记] Effective Java(Third Edition) 第2章创建和销毁对象
第 1 条:用静态工厂方法代替构造器对于类而言,获取一个实例的方法,传统是提供一个共有的构造器. 类可以提供一个公有静态工厂方法(static factory method), 它只是一个返回类 ...
Spring Security登录超时,angular ajax请求出错自动跳转至登录页(jQuery也适用)
公司开发采用Spring Security+AngualerJS框架,在session过期之后,ajax请求会直接出错.本文介绍如何实现出错情况下自动跳转至登录页. 整体思路是,session过期后, ...
xpath定位元素
@ 表示包含的属性,如@id表示包含id属性的标签[] 表示索引.. 表示父节点 --------------------------------------------------- //* #定位 ...
Qt编写数据可视化大屏界面电子看板3-新建布局
一.前言能够新建布局,也是数据可视化大屏界面电子看板系统中的必备功能之一,新建布局这样的功能一般做到右键菜单中,单击新建布局菜单,弹出输入框要求输入新的布局的名称,为了更符合国情,直接支持中文名称, ...

【原创】大数据基础之Logstash（6）mongo input

【原创】大数据基础之Logstash（6）mongo input的更多相关文章

随机推荐

热门专题