通过shell脚本批处理es数据

#!/bin/sh

【按照指定的域名-website集合，遍历各个域名，处理url】

#指定待删除的变量集合

arr=(6.0)

cur="`date +%Y%m%d%H%M%S`"

res_file=${BASH_SOURCE}.${cur}.json.txt

log_file=${BASH_SOURCE}.${cur}.log

es_str=''

for v in ${arr[@]}

 do

 es_str='curl testIP:9200/my_index/my_doc//_search?pretty=true  -d "{"_source": false,"query": {"match": {"website": "'$v'"}},"from": 1,"size": 9999}"'

 echo $es_str

 eval  $es_str >> $res_file

done

str_head='{"delete":{"_id":"'

str_foot='"}}'

split_file_dir='/data/xiaole_chk_url/domain_iask/'

bulk_file=${split_file_dir}${BASH_SOURCE}.${cur}.json

#创建文件

echo '' > $bulk_file

#单引号字符串的限制：

#单引号里的任何字符都会原样输出，单引号字符串中的变量是无效的；

#单引号字串中不能出现单引号（对单引号使用转义符后也不行）。

#双引号

#your_name='qinjx'

#str="Hello, I know your are \"$your_name\"! \n"

#双引号的优点：

#双引号里可以有变量

#双引号里可以出现转义字符

str_tag='"_id" : "'

#读取文件，生成批处理文件

while read line

do

    echo $line

   # if [ $a = $line ]

   # if test $a -eq $line

    if [[ $line == *$str_tag* ]]

    then

        #查找目标字符串

        #${string#substring}从变量$string的开头, 删除最短匹配$substring的子串

        a=${line#'"_id" : "'}

        #${string//substring/replacement}

        #Shell字符串比较相等、不相等方法小结 - CSDN博客 https://blog.csdn.net/mr_leehy/article/details/76383091

        #shell中if做比较 - 生活费 - 博客园 http://www.cnblogs.com/276815076/archive/2011/10/30/2229286.html

        b=${a//'",'/''}

        echo $b

        echo ${str_head}${b}${str_foot} >> $bulk_file

    else

        echo bbb

    fi

    unset a

    unset b

done<$res_file

#{"delete":{"_id":website.com.cn/b/tpoNpaBlFx.html"}}

#{"delete":{"_id":website.com.cn/b/4W0xcTKZib.html"}}

#{"delete":{"_id":website.com.cn/b/5dptLwDEaD.html"}}

#{"delete":{"_id":website.com.cn/b/4OdzPUwb6X.html"}}

#{"delete":{"_id":website.com.cn/b/2baCMVRsAH.html"}}

#{"delete":{"_id":website.com.cn/b/2Nb6PnEt0T.html"}}

#{"delete":{"_id":website.com.cn/b/3GbeNhQvyP.html"}}

#{"delete":{"_id":website.com.cn/b/3z2wWJWhIf.html"}}

#{"delete":{"_id":website.com.cn/b/1id9c9K1MT.html"}}

#{"delete":{"_id":website.com.cn/b/2UYjsh1fcf.html"}}

#{"delete":{"_id":website.com.cn/b/66PtNs1vbt.html"}}

#执行批处理文件es删除操作

curl -XPOST testIP:9200/my_index/my_doc//_bulk --data-binary @$bulk_file >> $log_file

exit 0

#检查结果

【返回指定id的查询结果】

#curl 'testIP:9200/my_index/my_doc//_search?pretty=true'  -d '

#{

#"query" : {

#"bool" : {

#"should" : [

#{ "match" : { "_id": "website.com.cn/b/KV4Lw3dAw1.html" } },

#{ "match" : { "_id": "website.com.cn/b/KI9t2kvSlT.html" } },

#{ "match" : { "_id": "website.com.cn/b/4Hdkz68Vox.html" } },

#{ "match" : { "_id": "bbs.py168.com/xinxi/25975882.html" } }

#            ]

#           }

#}

#}'

【检查日志】

#{"took":1980,"errors":false,"items":[{"delete":{"_index":"my_index","_type":"my_doc","_id":"website.com.cn/b/KzVLkQWh9b.html","_version":2,"_shards":{"total":2,"successful":2,"failed":0},"status":200,"found":true}},{"delete":{"_index":"my_index","_type":"my_doc","_id":"website.com.cn/b/Lc2SQpxEPP.html","_version":2,"_shards":{"total":2,"successful":2,"failed":0},"status":200,"found":true}},{"delete":{"_index":"my_index","_type":"my_doc","_id"

#!/bin/sh

【

#穷举站点值，得到满足一定条件的rul

#可以在穷举循环中，再加一层穷举，得到满足一定条件的url全集

】

loop_step=1

loop_stop=5000

loop_period_start=0

loop_period_end=0

cur="`date +%Y%m%d%H%M%S`"

res_file=${BASH_SOURCE}.$cur.json.txt

log_file=${BASH_SOURCE}.$cur.log

es_str=''

for((i=0;i<$loop_stop;i++))

do

 loop_period_start=$((i*loop_step))

 loop_period_end=$((loop_period_start+loop_step))

 echo $loop_period_start

 echo $loop_period_end

 echo  $i

 #查找域名 size为1；查找域名的子模式，比如是否存在/m/疑似手机站，则设为系统最大值9999

 es_str='curl testIP:9200/my_index/my_doc//_search?pretty=true  -d "{"query": {"match": {"website": "'${loop_period_start}'"}},"_source":true,"from":1,"size":9999}"'

 echo $es_str

 #将执行结果写入结果文件

 eval  $es_str >> $res_file

done

str_head='{"delete":{"_id":"'

str_foot='"}}'

split_file_dir='/data/xiaole_chk_url/url_mobile/'

bulk_file=${split_file_dir}${BASH_SOURCE}.${cur}.json

str_tag='"_id" : "'

str_tag_mobile='/m/'

#读取文件，生成批处理文件

while read line

do

    if [[ $line == *$str_tag* ]]

    then

        if [[ $line == *$str_tag_mobile* ]]

        then

            #查找目标字符串

            a=${line#'"_id" : "'}

            b=${a//'",'/''}

            echo $line

            echo ${str_head}${b}${str_foot} >> $bulk_file

         else

             echo 'filter_1'

        fi

    else

        echo 'filter_o'

    fi

done<$res_file

#curl -XPOST testIP:9200/my_index/my_doc//_bulk --data-binary @$bulk_file >> $log_file

exit 0

shell 文件读取 if else 分支字符串查找模糊匹配字符串截取

es 批处理批删除

通过shell脚本批处理es数据的更多相关文章

shell编程系列24--shell操作数据库实战之利用shell脚本将文本数据导入到mysql中
shell编程系列24--shell操作数据库实战之利用shell脚本将文本数据导入到mysql中利用shell脚本将文本数据导入到mysql中需求1:处理文本中的数据,将文本中的数据插入到mys ...
Shell脚本处理JSON数据工具jq
shell脚本如何方便地处理JSON格式的数据呢,这里介绍一个工具:jq 使用参数介绍:https://stedolan.github.io/jq/manual/ 官方教程简单翻译如下. 1.获取JS ...
shell脚本中的数据传递方式
shell中支持的数据传递方式主要有那么几种: 变量.管道.结果引用.重定向+文件.以及xargs. 变量方式: 1. 定义变量: 变量名=值 2. 使用变量: $变量名管道方式: 统计当前文件夹 ...
案例：通过shell脚本实现mysql数据备份与清理
Shell是系统的用户界面,提供了用户与内核进行交互操作的一种接口.它接收用户输入的命令并把它送入内核去执行,实际上Shell是一个命令解释器,它解释由用户输入的命令并且把它们送到内核,不仅如此,Sh ...
shell脚本处理二进制数据
正确处理二进制数据正确处理二进制数据必须保证以下三个环节是二进制安全(Binary Safe)的: 从文件读取至内存: 处理数据过程中: 内存写入至文件. 那么二进制安全是什么?通俗来说就是不会特殊 ...
shell脚本处理大数据系列之(一)方法小结
转自:http://longriver.me/?p=57 方法1: 单进程处理大规模的文件速度如(上million量级)比较慢,可以采用awk取模的方法,将文件分而治之,这样可以利用充分的利用多核CP ...
Shell脚本实现用户数据导入
#输入:固定格式的用户数据user.sql #处理:循环读取user.sql中的每行(每行对应一条用户数据),依次调用curl命令将用户插入BearyChat #输出:执行结果输出到日志文件outlo ...
linux下使用shell脚本批处理命令
1.新建脚本touch first.sh 2.写入命令vi first.sh #!/bin/bash #publish service and api echo "copy file&quo ...
使用shell脚本批处理控制大数据环境服务启动停止
三台集群机器: master 192.168.168.200 slave1 192.168.168.201 slave2 192.168.168.202 1.start-maste ...

随机推荐

第3节 mapreduce高级：10、11、分组求取topN
只要修改OrderReducer.java的reduce方法,修改为: int i = 0;for(NullWritable nullWritable:values){ if(i>=2) bre ...
第3节 mapreduce高级：2、3、课程大纲&共同好友求取步骤一、二
第五天课程大纲:1.社交粉丝的数据分析:求共同好友2.倒排索引的建立3.自定义inputFormat合并小文件 4.自定义outputformat5.分组求topN6.MapReduce的其他补充了 ...
scikit-learn - 分类模型的评估 (classification_report)
使用说明参数 sklearn.metrics.classification_report(y_true, y_pred, labels=None, target_names=None, sample ...
使用layer时控制台出现： Failed to load resource: the server responded with a status of 404 (Not Found)
问题:layer文件路径放置出错解决:layer文件如图:都放在创建的JS文件里,而不是单独的layer.js文件.
题解洛谷P1903/BZOJ2120【[国家集训队]数颜色 / 维护队列】
对于不会树套树.主席树的本蒟蒻,还是老老实实的用莫队做吧.... 其实这题跟普通莫队差不了多远,无非就是有了一个时间,当我们按正常流程排完序后,按照基本的莫队来,做莫队时每次循环对于这一次操作,我们在 ...
VS2017 + Qt5 + OpenCV400 环境配置
首先为VS2017 IDE点赞. 配置核心配置 Qt5 和 OpenCV400,最主要的就是头文件路径.库路径以及库文件名字. 配置方法和步骤新建一个工程,或者打开一个已有的工程: 选择 View ...
HDU 4747 Mex【线段树上二分+扫描线】
[题意概述] 一个区间的Mex为这个区间没有出现过的最小自然数,现在给你一个序列,要求求出所有区间的Mex的和. [题解] 扫描线+线段树. 我们在线段树上维护从当前左端点开始的前缀Mex,显然从左到 ...
linux中的命令
1,ln-链接功能是为某一个文件在另外一个位置建立一个同步的链接,这个命令最常用的参数是-s,具体用法是: ln -s 源文件目标文件 // -s 是 symbolic(符号,象征)的意思. l ...
关于No Spring WebApplicationInitializer types detected on classpath的提示，tomcat 卡主
No Spring WebApplicationInitializer types detected on classpath 下一句:Initializing Spring root WebAppl ...
【04】< meta > 元素
< meta > 元素概要标签提供关于HTML文档的元数据.元数据不会显示在页面上,但是对于机器是可读的.它可用于浏览器(如何显示内容或重新加载页面),搜索引擎(关键词),或其他 we ...

通过shell脚本批处理es数据

通过shell脚本批处理es数据的更多相关文章

随机推荐

热门专题