mongodb拆库分表脚本

脚本功能：

1. 将指定的报告文件按照指定的字段、切库切表策略切分

2. 将切分后的文件并发导入到对应的Mongodb中

3. 生成日志文件和done标识文件

使用手册：

-h 打印帮助信息,并退出";

-f 需要切分的数据文件";

-g 清理昨日或历史全部数据： 1 昨日数据 2 历史全部数据";

-k 拆分字段在文件中列数，从1开始";

-o 需要切分的数据文件格式 tsv或csv ";

-d 切分的库数目";

-t 切分的表数目";

-m 切分后，需要入库的mongodb未拆分库名，比如拆分前cpc, 拆分后cpc_01";

-c 切分后，需要入库的mongodb未拆分库名，比如拆分前cpc, 拆分后cpc_0102";

-a 入库fieldFile";

-p 配置文件",

使用步骤：

1. 在配置文件中设置日志、切割后数据临时路径$LOG_HOME 和 $DATA_SPLIT_HOME目录，如果不存在，则手动创建；

在配置文件中设置目标Mongodb参数信息，用来作为导入数据的目标库；

在配置文件中设置Mongodb程序的主目录$MONGO;

2. 按照具体的参数意义，仿照下面的格式执行脚本：

举例：./mongo-split-importer.sh -f /data/shell/test.ata -g 1 -o tsv -k 3 -d 3 -t 3 -m idea -c idea -p ../conf/demeter_conf_qa.sh -a ../conf/idea-head-file

-f 切分目标文件 -o 文件格式 tsv -k 切割字段，第三个 -d 切割成3个库 -t 每个库3个表

-m 导入的mongodb未拆分名称idea -c 导入的mongodb未拆分表名idea -p 环境配置文件 -a 导入目标表的fieldFile文件 -g 清理昨日数据

mongo-split-importer.sh执行脚本：

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

271

272

273

274

275

276

277

278

279

280

281

282

283

284

285

286

287

288

289

290

291

292

293

294

295

296

297

298

299

300

301

302

303

304

305

306

307

308

309

310

311

312

313

314

315

316

317

318

319

320

321

322

323

324

325

326

327

328

329

330

331

332

333

334

#!/bin/bash

SPLITFILE="" #目标切割文件

FILEFORMAT="" # 目标切割文件格式 , \t

FILEFORMATNAME="" #切割目标文件格式名称 csv tsv

SPLITKEY=1

SPLITDBNUM="" #目标切割库数目

SPLITTBNUM="" #目标切割表数目

IMPORTDBNAME="" # 目标入库未分割库名

IMPORTTBNAME="" #目标入库未切割表名

PROFILE="" #配置文件

FIELDFILE="" #入库fieldFile

CLEAN=0 #清理数据， 0：默认不清理， 1 ：清理昨日的数据 2：清理所有以前的数据

SPILTTMPDIR="" #目标切割文件存放临时目录

FULLPATH=$(cd `dirname $0`;pwd -P)

SCRIPTFILE=`basename $0`

TOTLE_RECORD_NUM=0 #文件切割前的记录条目

SUBFILE_RECORD_NUM=0 #切割后所有文件汇总的记录条目

_mongo_count="-1"

#------------------------------------------------函数---------------------------------------------------------------

function usage(){

echo "$SCRIPTFILE - 分库分表后将数据导数据到mongodb"

echo "SYNOPSIS"

echo "OPTIONS"

echo " -h 打印帮助信息,并退出";

echo " -f 需要切分的数据文件";

echo " -g 是否清理历史数据，默认不清理 1：清理昨日数据 2：清理以前所有数据";

echo " -k 拆分字段在文件中列数，从1开始";

echo " -o 需要切分的数据文件格式 tsv或csv ";

echo " -d 切分的库数目";

echo " -t 切分的表数目";

echo " -m 切分后，需要入库的mongodb未拆分库名，比如拆分前cpc, 拆分后cpc_01";

echo " -c 切分后，需要入库的mongodb未拆分库名，比如拆分前cpc, 拆分后cpc_0102";

echo " -a 入库fieldFile";

echo " -p 配置文件,绝对或相对路径文件",

exit

}

function setFileFormat(){

FILEFORMATNAME=$1

case $1

in

csv) FILEFORMAT=",";;

tsv) FILEFORMAT="\t";;

*) echo "unknow profile -o $1"; usage;;

esac

}

while getopts ':hf:g:o:k:d:t:a:p:m:c:' OPTION

do

case $OPTION

in

h) usage;;

f) SPLITFILE=$OPTARG;;

g)CLEAN=$OPTARG;;

o) setFileFormat $OPTARG;;

k) SPLITKEY=$OPTARG;;

d) SPLITDBNUM=$OPTARG;;

t) SPLITTBNUM=$OPTARG;;

a) FIELDFILE=$OPTARG;;

p) PROFILE=$OPTARG;;

m) IMPORTDBNAME=$OPTARG;;

c) IMPORTTBNAME=$OPTARG;;

:) echo "选项 \"-$OPTARG\" 后面缺少对应值, 将使用默认值";;

\?)echo " 错误的选项 -$OPTARG, 将退出"; usage;;

esac

done

#记录日志信息

function logInfo(){

echo "[`date +"%Y-%m-%d %H:%M:%S"`] $@ " | tee -a $LOGFILE

}

function checkError(){

if [ $? -ne 0 ]; then

echo "[`date +"%Y-%m-%d %H:%M:%S,%s"`][$SCRIPTFILE, $$] ERROR OCCURS! - $1" | tee -a $ERRORFILE

exit 1;

fi

}

function check_ready() {

tmp_done_file=`printf "$reportDoneFile" "$TABLE" "$1"`

while [ "$isok" = "false" ]; do

rsync --list-only ${tmp_done_file}

if [ $? -eq 0 ]; then

isok="true";

break;

fi

if [ "$isok" = "false" ]; then

sleep 300

fi

time_now=`date +%s`

if [ `expr ${time_now} - ${time_start}` -ge $max_interval ]; then

return 255;

fi

done

return 0;

}

#从数据库列表里选择主库

function selectMongoMaster(){

tmp="TARGET_MONGO_HOST_LIST_0$1"

TMP_HOST=${!tmp}

echo $TMP_HOST

#replica set

for DUBHE_MONGO_HOST in $TMP_HOST; do

if [ $? -eq 0 ] ; then

break;

fi

done

# single server

#for DUBHE_MONGO_HOST in $TMP_HOST; do

#TARGET_MONGO_HOST=$DUBHE_MONGO_HOST

#echo $TARGET_MONGO_HOST

#done

}

#切割

function split() {

logInfo "spilt data file"

echo "split db num"$SPLITDBNUM

echo "split tb num"$SPLITTBNUM

echo "Start to split file: "$SPLITFILE

awk '

BEGIN {

FS="'${FILEFORMAT}'";

}

ARGIND==1{

#分库分表

DBN=$'${SPLITKEY}' % '${SPLITDBNUM}' + 1;

TBN=int($'${SPLITKEY}' / '${SPLITDBNUM}')

TBN=TBN % '${SPLITTBNUM}' + 1;

DBN="0"DBN;

TBN="0"TBN;

print $0 > "'${SPILTTMPDIR}'""/""'${IMPORTTBNAME}'""_"DBN""TBN

}

END {

}

' ${SPLITFILE};

ls $SPILTTMPDIR

echo "Split file successfully : "$SPLITFILE

}

#导入

function import() {

#importData

local iter=1;

while [ $iter -le $SPLITDBNUM ]; do

thread_import $iter &

iter=`expr $iter + 1`

done

#wait for child-threads

wait;

}

#导入子线程

function thread_import() {

local num=1;

targetFileName=$IMPORTTBNAME"_0"$1"0"$num

targetFile=$SPILTTMPDIR/$IMPORTTBNAME"_0"$1"0"$num

targetDB=$IMPORTDBNAME"_0"$1

targetCollection=$IMPORTTBNAME"_0"$1"0"$num

if [ ! -f $targetFile ]; then

logInfo "spilt file does not exits : " $targetFile

num=`expr $num + 1`

continue

fi

user="TARGET_MONGO_USER_0"$1

TMP_USER=${!user}

password="TARGET_MONGO_PWD_0"$1

TMP_PASSWORD=${!password}

#选择master

selectMongoMaster $1;

#clean dirty data

if [ $CLEAN -gt 0 ]; then

logInfo "$qdate $targetDB.$targetCollection cleaning up dirty data in mongodb"

clean_dirty_data

checkError "whether error occurs during cleaning dirty data from mongodb"

fi

#import data

import2mongo $1 $targetFile $targetDB $targetCollection

#record done file

statusfile="$STATUS_LOG_HOME/$targetFileName.done.`date -d $qdate +"%Y-%m-%d"`"

touch $statusfile

num=`expr $num + 1`

done

logInfo "thread $1 ends"

}

#把指定的文件导到指定的库指定的表,并建立索引，mongodb自身会判断索引是否存在

#不存在的情况下才创建新索引

function import2mongo(){

if [ "$FIELDFILE" != "" ]; then

MONGO_FIELD_FILE=$FIELDFILE

else

MONGO_FIELD_FILE=$FULLPATH/../conf/${IMPORTTBNAME}-head-file

fi

DATAFILE=$2

if [ ! -f $DATAFILE ]; then

logInfo "mongodb [${DB}.${COLL}] imported 0 objects"

return 0

fi

TMPLOGFILE=$INFO_LOG_HOME/$DB.$COLL.tmp.log

tmp=$?

if [ "$tmp" != "0" ]; then

return $tmp

fi

#data check

_mongo_count=`tail $TMPLOGFILE | grep imported`

_mongo_count=`expr 0$_mongo_count + 0`

#start to ensure index

ensureIndex

logInfo "mongodb [${DB}.${COLL}] imported $_mongo_count objects"

return $tmp

}

function ensureIndex(){

}

#垃圾数据清理

function clean_dirty_data(){

day=`date -d ${1:-' -1day'} +"%y%m%d"`

if [ $CLEAN -eq 1 ]; then

_mongo_condition="{\"_id\":{\"\$gte\":\"${day}_0\",\"\$lte\":\"${day}_9\"}}"

else

_mongo_condition="{\"_id\":{\"\$lte\":\"${day}_9\"}}"

fi

logInfo "waiting for the clean task.."

echo $_mongo_condition

tmp=$?

if [ "$tmp" != "0" ]; then

return $tmp

fi

sleep 5s

logInfo "dirty data cleaned: "$targetDB $targetCollection $dirtyCount

echo "dirty data cleaned: "$targetDB $targetCollection $dirtyCount

return $tmp

}

#parameter check

function checkParams() {

if [ 1 -ne $CLEAN -a 2 -ne $CLEAN ]; then

logInfo "-g the parameter clean is not in [1, 2] : "$CLEAN

return 1;

fi

if [ $FILEFORMAT != "," -a $FILEFORMAT != "\t" ]; then

logInfo "-o the parameter file format is not in [csv, tsv] : "$FILEFORMAT

return 1;

fi

if [ $SPLITKEY -lt 1 ]; then

logInfo "-k split key must not be less than 1 : "$SPLITKEY

return 1;

fi

if [ $SPLITDBNUM -lt 1 ]; then

logInfo "-d database number must not be less than 1 : "$SPLITDBNUM

return 1;

fi

if [ $SPLITTBNUM -lt 1 ]; then

logInfo "-t collection number must not be less than 1 : "$SPLITTBNUM

return 1;

fi

if [ ! -f $FIELDFILE ]; then

logInfo "-a field file is not a common file or not exits : "$FIELDFILE

return 1;

fi

if [ "" = $IMPORTDBNAME ] ; then

logInfo "-m import database name is empty : "$IMPORTDBNAME

return 1;

fi

if [ "" = $IMPORTTBNAME ] ; then

logInfo "-m import table name is empty : "$IMPORTTBNAME

return 1;

fi

}

#主函数

function main() {

set +x

echo "check split file and profile: " $SPLITFILE $PROFILE

if [ ! -f $SPLITFILE ]; then

echo "-f split file is not a common file or not exits : "$SPLITFILE

return 1;

fi

if [ ! -f $PROFILE ]; then

echo "-p profile file is not a common file or not exits : "$PROFILE

return 1;

fi

source $PROFILE

qdate=`date +"%Y-%m-%d"`

last_day=`date -d "-1day" +"%Y-%m-%d"`

BASEFILENAME=$(basename $SPLITFILE)

echo "base split file name is : "$BASEFILENAME

if [ ! -d $LOG_HOME ] ; then

logInfo " log home is not a common directory or not exits : "$LOG_HOME

return 1;

fi

LOGFILE=$INFO_LOG_HOME/$BASEFILENAME.$qdate.log

if [ -f $LOGFILE ]; then

mv $LOGFILE $LOGFILE.$last_day

fi

touch $LOGFILE

ERRORFILE=$ERROR_LOG_HOME/$BASEFILENAME.error.log

if [ -f $ERRORFILE ]; then

mv $ERRORFILE $ERRORFILE.$last_day

fi

touch $ERRORFILE

#空行

echo

logInfo "start to check parameters!"

checkParams

checkError "whether error occurs during check parameters : $SPLITFILE"

#空行

echo

logInfo "start to split file: "$SPLITFILE

if [ ! -d $DATA_SPLIT_HOME ] ; then

logInfo " data split home is not a common directory or not exits : "$DATA_SPLIT_HOME

return 1;

fi

SPILTTMPDIR=$DATA_SPLIT_HOME/$BASEFILENAME

echo "split temple directory : "$SPILTTMPDIR

if [ -d ${SPILTTMPDIR} ]; then

rm -rf ${SPILTTMPDIR}

fi

mkdir -p ${SPILTTMPDIR}

split

checkError "whether error occurs during split data : $SPLITFILE"

logInfo "split data completely : $SPLITFILE"

statusfile=$STATUS_LOG_HOME/$BASEFILENAME".split.done."$qdate

touch ${statusfile}

#空行

echo

logInfo "start to import split file to mongodb"

import

logInfo "import data completely : $SPLITFILE"

statusfile=$STATUS_LOG_HOME/$BASEFILENAME".import.done."$qdate

touch ${statusfile}

#空行

echo

#remove temple directory

# if [ -d ${SPILTTMPDIR} ]; then

# rm -rf ${SPILTTMPDIR}

# fi

}

#-------------------------------------------------入口----------------------------------------------------------------

source /etc/profile

demeter_conf_cpc_qa.sh 脚本：

#!/bin/bash

source /etc/profile

#logger path

INFO_LOG_HOME="${LOG_HOME}/info"

STATUS_LOG_HOME="${LOG_HOME}/status"

if [ ! -d $ERROR_LOG_HOME ]; then

if [ ! -d $INFO_LOG_HOME ]; then

mkdir -p $INFO_LOG_HOME

fi

if [ ! -d $STATUS_LOG_HOME ]; then

mkdir -p $STATUS_LOG_HOME

fi

if [ ! -d $DATA_HOME ]; then

mkdir -p $DATA_HOME

fi

#data path for source and target data path

DATA_SPLIT_HOME=/data/demeter/sdata

#import target mongodbs

TARGET_MONGO_PORT_01=XXX

TARGET_MONGO_USER_01=XXX

TARGET_MONGO_PWD_01=XXX

TARGET_MONGO_HOST_LIST_01="test01.mongodb01:$TARGET_MONGO_PORT_01 test01.mongodb02:$TARGET_MONGO_PORT_01 test01.mongodb03:$

TARGET_MONGO_PORT_01"

TARGET_MONGO_PORT_02=XXX

TARGET_MONGO_USER_02=XXX

TARGET_MONGO_PWD_02=XXX

TARGET_MONGO_HOST_LIST_02="testt02.mongodb01:$TARGET_MONGO_PORT_02 test02.mongodb02:$TARGET_MONGO_PORT_02 test02.mongodb03:$

TARGET_MONGO_PORT_02"

TARGET_MONGO_PORT_03=XXX

TARGET_MONGO_USER_03=XXX

TARGET_MONGO_PWD_03=XXX

TARGET_MONGO_HOST_LIST_03="test03.mongodb01:$TARGET_MONGO_PORT_03 test03.mongodb02:$TARGET_MONGO_PORT_03 test03.mongodb03:$

TARGET_MONGO_PORT_03"

#mongodb utils

MONGO=/opt/mongodb

xuri-cpc-head-file

a

b

c

d

e

f

g

h

i

j

k

l

m

n

0

p

q

r

s

host：

XX.XX.XX.XX test01.mongodb01

XX.XX.XX.XX test01.mongodb02

XX.XX.XX.XX testt01.mongodb03

XX.XX.XX.XX test02.mongodb01

XX.XX.XX.XX test02.mongodb02

XX.XX.XX.XX test02.mongodb03

XX.XX.XX.XX test03.mongodb01

XX.XX.XX.XX test03.mongodb02

XX.XX.XX.XX test03.mongodb03

mongodb拆库分表脚本的更多相关文章

Sharding-JDBC:单库分表的实现
剧情回顾前面,我们一共学习了读写分离,垂直拆分,垂直拆分+读写分离.对应的文章分别如下: Sharding-JDBC:查询量大如何优化? Sharding-JDBC:垂直拆分怎么做? 通过上面的优化 ...
Sharding-JDBC实现水平拆分-单库分表
参考资料:猿天地 https://mp.weixin.qq.com/s/901rNhc4WhLCQ023zujRVQ 作者:尹吉欢当单表的数量急剧上升,超过了1千万以上,这个时候就要对表进行水平 ...
mycat 单库分表
上次把mycat的读写分离搞定了,这次试下单库分表,顾名思义就是在一个库里把一个表拆分为多个需要配置的配置文件为 schema.xml 配置内容如下 <!DOCTYPE mycat:schem ...
SpringBoot+Mybatis-Plus整合Sharding-JDBC5.1.1实现单库分表【全网最新】
一.前言小编最近一直在研究关于分库分表的东西,前几天docker安装了mycat实现了分库分表,但是都在说mycat的bug很多.很多人还是倾向于shardingsphere,其实他是一个全家桶,有 ...
mycat 单库分表实践
参考 https://blog.csdn.net/sq2006hjp/article/details/78732227 Mycat采用的水平拆分,不管是分库还是分表,都是水平拆分的.分库是指,把一个大 ...
MySQL多数据源笔记3-分库分表理论和各种中间件
一.使用中间件的好处使用中间件对于主读写分离新增一个从数据库节点来说,可以不用修改代码,达到新增节点数据库而不影响到代码的修改.因为如果不用中间件,那么在代码中自己是先读写分离,如果新增节点, 你进 ...
MySql 建库建表脚本
1.建库 CREATE DATABASE test DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci; 2.建表脚本 CREATE TABLE `c ...
Spring Boot中整合Sharding-JDBC单库分表示例
本文是Sharding-JDBC采用Spring Boot Starter方式配置第二篇,第一篇是读写分离讲解,请参考:<Spring Boot中整合Sharding-JDBC读写分离示例> ...
springboot with appache sharding 3.1 单库分表
配置文件相关信息: #开发 server.port=7200 spring.application.name=BtspIsmpServiceOrderDev eureka.client.service ...

随机推荐

机器学习性能评估指标（精确率、召回率、ROC、AUC）
http://blog.csdn.net/u012089317/article/details/52156514 ,y^)=1nsamples∑i=1nsamples(yi−y^i)2
【转】WCF服务的创建和发布到IIS
一. WCF服务的创建有两种创建方式: 1.WCF服务库 2.WCF服务应用程序如下图所示: 这里选择WCF服务库.注意事项: 1.WCF服务库是一个类库项目,这里选择.net 3.5版本(版本高 ...
使用什么工具连接MySQL Server
字符界面:命令行终端(需MySQL Client) GUI界面:Navicat.MySQL Workbench 开发语言:使用相应语言的MySQL数据库驱动包或模块连接MySQL 我一般用的是命令行, ...
初涉RxAndroid结合Glide实现多图片载入操作
转载请注明出处:王亟亟的大牛之路本来周末就想发了然后各种拖拉就没有然后了,那么就今天早上写吧,废话不多開始正题什么是RxJava或者RxAndroid我就不多废话了,理论知识一大堆人给我们做好了. ...
vs2013+MVC3.0+EasyUI的ComboBox联动使用(二)
vs2013+MVC3.0+EasyUI的ComboBox联动使用(二) 简单介绍:在vs2013(.net4.0)中使用MVC3.0对于EasyUI中ComboBox的联动使用. 载入Comb ...
CentOS系统中的passwd命令实用技巧小结
这篇文章主要介绍了Linux系统中的passwd命令实用技巧小结,是Linux入门学习中的基础知识,需要的朋友可以参考下先来回顾一下passwd命令的基本用法: Linux passwd命令用来 ...
关于MySQL的几个命令之load
1.记录当前操作命令
linux nfs
linux(十四)之linux NFS服务管理学到这里差不多就结束了linux的基础学习了,其实linux的内容并不难,我们要经常的反复的去操作它,多多和它去联络感情才能很好的掌握这个linux. ...
如果返回结构体类型变量（named return value optimisation，NRVO）
貌似这是一个非常愚蠢的问题,因为对于具有良好素质的程序员而言,在C中函数返回类型为结构体类型是不是有点不合格,干嘛不用指针做传入传出呢? 测试环境:Linux IOS 3.2.0-45-generic ...
Linux基本监控项目
1.网卡流量 (统计网卡TX(发送)RX(接受)流量脚本) 使用 Nagios 来监控网卡流量 2013/01/31 Nagios, 网卡监控统计与日志分析评论 2,272 下载地址为:che ...

mongodb拆库分表脚本

mongodb拆库分表脚本的更多相关文章

随机推荐

热门专题