Mydumper是一个针对mysql和Drizzle的高性能多线程备份和恢复工具。开发人员分别来自MySQL，Facebook，SkySQL公司。目前已经在有一些大型产品业务上测试并使用了Mydumper。分稳定版和开发版两种，目前最新稳定版是0.2.3和最新开发版是0.5.1。恢复时可使用myloader工具。

Mydumper主要特性：

轻量级C语言写的代码
比mysqldump接近快10倍的速度
事务性和非事务性表一致的快照（适用于0.22+）
快速的文件压缩(file compression on-the-fly)
支持导出binlog
多线程恢复（ 0.2.1+）
可以用守护进程的工作方式，定时的扫描和输出连续的二进制日志
开源 (GNU GPLv3)

mydumper安装方法：

# wget http://launchpadlibrarian.net/77098505/mydumper-0.5.1.tar.gz

在CentOS 6.0上测试的，安装前：

#yum install glib2-devel mysql-devel zlib-devel pcre-devel
#apt-get install libglib2.0-dev libmysqlclient15-dev zlib1g-dev libpcre3-dev（Ubuntu/Debian用户）
#tar -xzvf mydumper-0.5.1.tar.gz
#cd mydumper-0.5.1
#cmake .
#make;make install

mydumper的使用和源代码分析

解析参数：

使用glib的g_option_context_parse，比libc里的getopt_long简单多了。连接目标数据库，通过show processlist来判断是否有长查询，如果有长查询则退出dump，可以通过–long-query-guard加长时间，或者使用–kill-long-queries杀掉长查询，锁定myisam表，针对innodb table开启事务。

产生3个消息队列(线程ready队列、任务队列、myisam表处理完毕队列)。

conf.queue = g_async_queue_new();

conf.ready = g_async_queue_new();

conf.unlock_tables= g_async_queue_new();

产生指定的线程个数，–threads可以指定，默认是4个。

GThread **threads = g_new(GThread*,num_threads);

struct thread_data *td= g_new(struct thread_data, num_threads);

for (n=0; n<num_threads; n++) {

    td[n].conf= &conf;

    td[n].thread_id= n+1;

    threads[n] = g_thread_create((GThreadFunc)process_queue,&td[n],TRUE,NULL);

    g_async_queue_pop(conf.ready);

}

dump_database，从DATA_DICTIONARY.TABLES读取所有表，通过–ignore, –tables-list, regex等过滤条件，产生需要dump的目标表列表，分别插入innodb_tables、non_innodb_table、table_schemas三个链表。

query= g_strdup_printf("SELECT TABLE_NAME, ENGINE, TABLE_TYPE as COMMENT FROM DATA_DICTIONARY.TABLES WHERE TABLE_SCHEMA='%s'", database);

    ....

innodb_tables= g_list_append(innodb_tables, dbt);

    ....

non_innodb_table= g_list_append(non_innodb_table, dbt);

    ....

table_schemas= g_list_append(table_schemas, dbt);

dump non-innodb table 把需要导出myisam表加入到任务队列。

for (non_innodb_table= g_list_first(non_innodb_table); non_innodb_table; non_innodb_table= g_list_next(non_innodb_table)) {

         dbt= (struct db_table*) non_innodb_table->data;

         dump_table(conn, dbt->database, dbt->table, &conf, FALSE);

         g_atomic_int_inc(&non_innodb_table_counter);

}

dump innodb table把需要导出innodb表加入任务队列。

for (innodb_tables= g_list_first(innodb_tables); innodb_tables; innodb_tables= g_list_next(innodb_tables)) {

         dbt= (struct db_table*) innodb_tables->data;

         dump_table(conn, dbt->database, dbt->table, &conf, TRUE);

}

dump schema 把需要导出表结构任务加入到任务队列。

for (table_schemas= g_list_first(table_schemas); table_schemas; table_schemas= g_list_next(table_schemas)) {

         dbt= (struct db_table*) table_schemas->data;

         dump_schema(dbt->database, dbt->table, &conf);

         g_free(dbt->table);

         g_free(dbt->database);

         g_free(dbt);

}

典型的生产者（主线程）消费者（子线程）模式，子线程会从任务队列里读取需要处理的表名字和表类型，再通过select * from table_name 读入数据各自写入到各自的文件。

for(;;) {

    ....

    job=(struct job *)g_async_queue_pop(conf->queue);

    ....

    switch (job->type) {

        case JOB_DUMP:

            ....

            dump_table_data_file(thrconn, tj->database, tj->table, tj->where, tj->filename);

            ....

        case JOB_DUMP_NON_INNODB:

            ....

            dump_table_data_file(thrconn, tj->database, tj->table, tj->where, tj->filename);

        case JOB_SCHEMA:

            ....

            dump_schema_data(thrconn, sj->database, sj->table, sj->filename);

}

所有导数据的任务加入任务队列之后，会再加入让线程退出的任务，让线程自然退出。

case JOB_SHUTDOWN:

    g_message("Thread %d shutting down", td->thread_id);

    if (thrconn)

        mysql_close(thrconn);

    g_free(job);

    mysql_thread_end();

    return NULL;

    break;

解除myisam表锁，等待子线程退出。

使用

导出test database的数据

mydumper -h 127.0.0.1 -u root --database test

指定某个目录

mydumper -h 127.0.0.1 -u root --outputdir=.

不导出表结构

mydumper -h 127.0.0.1 -u root --no-schema

如果表数据是空，还是产生一个空文件（默认无数据则只有表结构文件）

mydumper -h 127.0.0.1 -u root --build-empty-files

设置长查询的上限，如果存在比这个还长的查询则退出mydumper，也可以设置杀掉这个长查询

mydumper -h 127.0.0.1 -u root --long-query-guard 200 --kill-long-queries

设置要dump的列表–tables-list，不需要设置db名字，逗号分割

mydumper -h 127.0.0.1 -u root --tables-list=ddd,zzz

通过regex也设置正则表达，需要设置db名字

mydumper -h 127.0.0.1 -u root --regex=test.z

把单表分成多个chunks，这个后面会讲分割的原理

mydumper -h 127.0.0.1 -u root --rows 10000

过滤某个引擎的表

mydumper -h 127.0.0.1 -u root -B test --ignore-engines=innodb

详细日志

mydumper -h 127.0.0.1 -u root -B test -v 3

几个注意点

各自线程都要自己连接到数据库，因为libmysql是线程不安全的。
因为对myisam表有有表锁，所有先处理myisam表，记录myisam表个数，每处理一个myisam都原子操作数量减一。并在myisam表都处理完毕后，立即解锁，尽量减少锁定的时间，而不是在导出innodb表数据的时候还在lock myisam表。

main_thread

for (non_innodb_table= g_list_first(non_innodb_table); non_innodb_table; non_innodb_table= g_list_next(non_innodb_table)) {

        dbt= (struct db_table*) non_innodb_table->data;

        dump_table(conn, dbt->database, dbt->table, &conf, FALSE);

        g_atomic_int_inc(&non_innodb_table_counter);

}

child_thread

if (g_atomic_int_dec_and_test(&non_innodb_table_counter) && g_atomic_int_get(&non_innodb_done)) {

        g_async_queue_push(conf->unlock_tables, GINT_TO_POINTER(1));

}

main_thread

g_async_queue_pop(conf.unlock_tables);

g_message("Non-InnoDB dump complete, unlocking tables");

mysql_query(conn, "UNLOCK TABLES");

–regex的处理在–tables-list后，先满足–tables-list再满足–regex，如下只会dump表z1

mydumper -h 127.0.0.1 -u root --regex=test.z1 --outputdir=. --rows=10000 -v 3 -e --tables-list=z2,z1

** Message: Thread 1 dumping data for `test`.`z1`

** Message: Thread 2 dumping schema for `test`.`z1`

–rows的使用，设置–rows可以把一个表分成多个文件。分块的原则并不是根据–rows设定的行数来决定生成文件里包含的函数，而是通过rows和表的总行数计算出要生成的文件个数，尽量保证每个文件的大小一致。

表的总行数是如何获得的？
首先mydumper会选择一个索引，顺序是pk、uk或者show index from table里Cardinality最高的一个索引，再通过explain select index from table的rows字段获得总行数total_nums（可能不准确），于是第一个文件就是从select * from table where index >=1 and index < total_nums/ (int(total_nums/ rows) – 1) + 1。每个分块可以分到不同的线程，所以即便同一个表dump都可以很快加速。

ps：这个项目大量使用glib（gnome）比较少见，看了一下glib doc觉得glib设计的挺好的用起来很方便，否则实现一个消息队列加多线程还是要几百行代码的。接下来要看mydumper0.50的代码。

mydumper主要参数：

–host, -h 连接的mysql服务器
–user, -u 用户备份的连接用户
–password, -p
–port, -P 连接端口
–socket, -S 连接socket文件
–database, -B 需要备份的数据库
–table-list, -T 需要备份的表，用,分隔
–outputdir, -o 输出的目录
–build-empty-files ，-e 如果表数据是空，还是产生一个空文件,默认无数据则只有表结构文件
–regex, -x 支持正则表达式，如mydumper –regex ’^(?!(mysql|test))’
–ignore-engines, -i 忽略的存储引擎
–no-schemas, -m 不导出表结构
–long-query-guard 长查询，默认60s,超过则通过mydumper
–kill-long-queries, -k 可以设置kill长查询
–verbose, -v 0 = silent, 1 = errors, 2 = warnings, 3 = info，默认是2
–binlogs, -b 导出binlog
–daemon, -D 启用守护进程模式
–snapshot-interval, -I dump快照间隔时间，默认60s
–logfile, -L mysqldumper日志输出，一般在Daemon模式下使用
myloader 大多参数和mydumper一样
–directory, -d 要还原的数据目录
–overwrite-tables, -o Drop any existing tables when restoring schemas

mydumper原理4的更多相关文章

mydumper原理5
前言之前介绍了Oracle官方的多线程逻辑导入导出工具mysqlpump,但已经操作过的同学会发现其多线程的单位还是表,换句话说, 单表依然是单线程导出 .网易早已使用mydumper/myloa ...
MySQL 逻辑备份mysqldump&mysqlpump&mydumper原理解析
目录准备 mysqldump备份 mysqlpump备份 mydumper备份想弄清除逻辑备份的原理,最好的办法是开启general_log,一探究竟准备创建用户 CREATE USER IF ...
mydumper原理3
Mydumper介绍 Mydumper是一个针对MySQL和Drizzle的高性能多线程备份和恢复工具.开发人员主要来自MySQL,Facebook,SkySQL公司.目前已经在一些线上使用了Mydu ...
mydumper原理1
http://www.cnblogs.com/linuxnote/p/3817698.html?utm_source=tuicool&utm_medium=referral mydumper介 ...
mydumper原理2
使用mydumper备份发生Waiting for table flush,导致所有线程都无法读和写版本 mydumper 0.9.1OS centos6.6 X86_64mysql 5.6.25- ...
mydumper原理介绍
mydumper的安装:http://www.cnblogs.com/lizhi221/p/7010174.html mydumper介绍 MySQL自身的mysqldump工具支持单线程 ...
mysql备份工具：mysqldump mydumper Xtrabackup 原理
备份是数据安全的最后一道防线,对于任何数据丢失的场景,备份虽然不一定能恢复百分之百的数据(取决于备份周期),但至少能将损失降到最低.衡量备份恢复有两个重要的指标:恢复点目标(RPO)和恢复时间目标(R ...
mysqldump+mydumper+xtrabackup备份原理流程
mysqldump备份原理备份的基本流程如下: 1.调用FTWRL(flush tables with read lock),全局禁止读写 2.开启快照读,获取此时的快照(仅对innodb表起作用) ...
MySQL备份原理详解
备份是数据安全的最后一道防线,对于任何数据丢失的场景,备份虽然不一定能恢复百分之百的数据(取决于备份周期),但至少能将损失降到最低.衡量备份恢复有两个重要的指标:恢复点目标(RPO)和恢复时间目标(R ...

随机推荐

excel 经验总结
1.2007版excel表格中怎么将使用字母+数字下拉排序比如:A201110300001怎么在excel表格中往下拉的时候变成A201110300002.A201110300003…… 方法: 因 ...
CodeForces 148D-Bag of mice（概率dp）
题意: 袋子里有w个白球b个黑球,现在两个人轮流每次取一个球(不放回),先取到白球的获胜,当后手取走一个球时,袋子里的球会随机的漏掉一个,问先手获胜的概率. 分析: dp[i][j]表示袋子中i个白球 ...
Apriori学习笔记
Apriori算法是一种挖掘关联规则的频繁项集算法,是由Rakesh Agrawal和Ramakrishnan Srikant两位在1994年提出的布尔关联规则的频繁项集挖掘算法.算法的名字" ...
各个城市优步uber注册司机官网地址汇总
uber城市开通uber城市开通优步城市哪些城市开通了uber 哪些城市开通了优步分类: uber专车资讯作为专车模式的创立者,Uber公司很早就进入了中国区域.优步在中国市场也是胸怀大 ...
HTML的奇葩嵌套规则
一.HTML 标签包括块级元素(block).内嵌元素(inline) 1.块级元素一般用来搭建网站架构.布局.承载内容……它包括以下这些标签: address.blockquote.center ...
内核源码分析之linux内核栈（基于3.16-rc4）
在3.16-rc4内核源码中,内核给每个进程分配的内核栈大小为8KB.这个内核栈被称为异常栈,在进程的内核空间运行时或者执行异常处理程序时,使用的都是异常栈,看下异常栈的代码(include/linu ...
mahout协同过滤算法
一直使用mahout的RowSimilarity来计算物品间的相似度,今晚仔细看了其实现,终于搞明白了他的计算逻辑. 上篇中介绍了整个itemBaseCF的mapreducer过程,主要有三个大的步骤 ...
新手指导：教你如何查看识别hadoop是32位还是64位
问题导读: 1.从哪些地方可以识别hadoop是32位还是64位?2.hadoop本地库在什么位置? 来源:about云本文链接:http://www.aboutyun.com/thread-127 ...
JSP学习初体验
JSP简介: 1)JSP--Java Server Pages 2)拥有servlet的特性与优点(本身就是一个servlet) 3)直接在HEML中内嵌JSP代码 4)JSP程序由JSP Engin ...
【转】使用Auto Layout中的VFL(Visual format language)--代码实现自动布局
本文将通过简单的UI来说明如何用VFL来实现自动布局.在自动布局的时候避免不了使用代码来加以优化以及根据内容来实现不同的UI. 一:API介绍 NSLayoutConstraint API 1 2 3 ...

mydumper原理4

mydumper的使用和源代码分析

使用

mydumper原理4的更多相关文章

随机推荐

热门专题