方案一

找到状态为 `red` 的索引

curl -X GET "http://172.xxx.xxx.174:9288/_cat/indices?v="

red    open   index                          5   1    3058268        97588      2.6gb          1.3gb

状态为 red 是无法对外提供服务的，说明有主节点没有分配到对应的机子上。

找到 `UNASSIGNED` 节点

_cat/shards 能够看到节点的分配情况

curl -X GET "http://172.xxx.xxx.174:9288/_cat/shards"

index                            shard prirep state        docs   store   ip             node

index                      1    p     STARTED     764505 338.6mb 172.xxx.xxx.174 Calypso

index                      1    r     STARTED     764505 338.6mb 172.xxx.xxx.89  Savage Steel

index                      2    p     STARTED     763750 336.6mb 172.xxx.xxx.174 Calypso

index                      2    r     STARTED     763750 336.6mb 172.xxx.xxx.88  Temugin

index                      3    p     STARTED     764537 340.2mb 172.xxx.xxx.89  Savage Steel

index                      3    r     STARTED     764537 340.2mb 172.xxx.xxx.88  Temugin

index                      4    p     STARTED     765476 339.3mb 172.xxx.xxx.89  Savage Steel

index                      4    r     STARTED     765476 339.3mb 172.xxx.xxx.88  Temugin

index                      0    p     UNASSIGNED

index                      0    r     UNASSIGNED

index 有一个主节点 0 和一个副本 0 处于 UNASSIGNED 状态，也就是没有分配到机子上，因为主节点没有分配到机子上，所以状态为 red。

从 ip 列可以看出一共有三台机子，尾数分别为 174，89 以及 88。一共有 10 个 index 所以对应的 elasticsearch 的 index.number_of_shards: 5，index.number_of_replicas: 1。一共有 10 个分片，可以按照 3，3，4 这样分配到三台不同的机子上。88 和 89 机子都分配多个节点，所以可以将另外一个主节点分配到 174 机子上。

找出机子的 `id`

找到 174 机子对应的 id，后续重新分配主节点得要用到

curl -X GET "http://172.xxx.xxx.174:9288/_nodes/process?v="

{

  "cluster_name": "es2.3.2-titan-cl",

  "nodes": {

    "Leivp0laTYSqvMVm49SulQ": {

      "name": "Calypso",

      "transport_address": "172.xxx.xxx.174:9388",

      "host": "172.xxx.xxx.174",

      "ip": "172.xxx.xxx.174",

      "version": "2.3.2",

      "build": "b9e4a6a",

      "http_address": "172.xxx.xxx.174:9288",

      "process": {

        "refresh_interval_in_millis": 1000,

        "id": 32130,

        "mlockall": false

      }

    },

    "EafIS3ByRrm4g-14KmY_wg": {

      "name": "Savage Steel",

      "transport_address": "172.xxx.xxx.89:9388",

      "host": "172.xxx.xxx.89",

      "ip": "172.xxx.xxx.89",

      "version": "2.3.2",

      "build": "b9e4a6a",

      "http_address": "172.xxx.xxx.89:9288",

      "process": {

        "refresh_interval_in_millis": 1000,

        "id": 7560,

        "mlockall": false

      }

    },

    "tojQ9EiXS0m6ZP16N7Ug3A": {

      "name": "Temugin",

      "transport_address": "172.xxx.xxx.88:9388",

      "host": "172.xxx.xxx.88",

      "ip": "172.xxx.xxx.88",

      "version": "2.3.2",

      "build": "b9e4a6a",

      "http_address": "172.xxx.xxx.88:9288",

      "process": {

        "refresh_interval_in_millis": 1000,

        "id": 47701,

        "mlockall": false

      }

    }

  }

}

174 机子对应的 id 为 Leivp0laTYSqvMVm49SulQ。

为了简单也可以直接将该主分片放到 master 机子上，但是如果节点过于集中肯定会影响性能，同时会影响宕机后数据丢失的可能性，所以建议根据机子目前节点的分布情况重新分配。

curl -X GET "http://172.xxx.xxx.174:9288/_cat/master?v="

id                     host          ip            node

EafIS3ByRrm4g-14KmY_wg 172.xxx.xxx.89 172.xxx.xxx.89 Savage Steel

分配 `UNASSIGNED` 节点到机子

得要找到 UNASSIGNED 状态的主分片才能够重新分配，如果重新分配不是 UNASSIGNED 状态的主分片，例如我视图重新分配 shard 1 会出现如下的错误。

curl -X POST -d '{

    "commands" : [ {

      "allocate" : {

          "index" : "index",

          "shard" : 1,

          "node" : "EafIS3ByRrm4g-14KmY_wg",

          "allow_primary" : true

      }

    }]

}' "http://172.xxx.xxx.174:9288/_cluster/reroute"

{

  "error": {

    "root_cause": [

      {

        "type": "remote_transport_exception",

        "reason": "[Savage Steel][172.xxx.xxx.89:9388][cluster:admin/reroute]"

      }

    ],

    "type": "illegal_argument_exception",

    "reason": "[allocate] failed to find [index][1] on the list of unassigned shards"

  },

  "status": 400

}

重新分配 index shard 0 到某一台机子。_cluster/reroute 的参数 allow_primary 得要小心，有概率会导致数据丢失。具体的看看官方文档该接口的说明吧。

curl -X POST -d '{

    "commands" : [ {

      "allocate" : {

          "index" : "index",

          "shard" : 0,

          "node" : "Leivp0laTYSqvMVm49SulQ",

          "allow_primary" : true

      }

    }]

}' "http://172.xxx.xxx.174:9288/_cluster/reroute"

{

  "acknowledged": true,

  .........

  "index": {

    "shards": {

      "0": [

        {

          "state": "INITIALIZING",

          "primary": true,

          "node": "Leivp0laTYSqvMVm49SulQ",

          "relocating_node": null,

          "shard": 0,

          "index": "index",

          "version": 1,

          "allocation_id": {

            "id": "wk5q0CryQpmworGFalfWQQ"

          },

          "unassigned_info": {

            "reason": "INDEX_CREATED",

            "at": "2017-03-23T12:27:33.405Z",

            "details": "force allocation from previous reason INDEX_REOPENED, null"

          }

        },

        {

          "state": "UNASSIGNED",

          "primary": false,

          "node": null,

          "relocating_node": null,

          "shard": 0,

          "index": "index",

          "version": 1,

          "unassigned_info": {

            "reason": "INDEX_REOPENED",

            "at": "2017-03-23T11:56:25.568Z"

          }

        }

      ]

      }

    }

    .............

}

输出结果只罗列出了关键部分，主节点处于 INITIALIZING 状态，在看看索引的状态

curl -X GET "http://172.xxx.xxx.174:9288/_cat/indices?v="

green  open   index                          5   1    3058268        97588      2.6gb          1.3gb

索引状态已经为 green，恢复正常使用。

以上参考 ELASTICSEARCH几个问题的解决

方案二

找一台空的机子，与现有的机子组成集群，由于新机子的加入机子的节点将会被分配，状态也就会恢复。等集群中所有的节点的状态变为 green 就可以关闭新加入的机子。

欢迎转载，但请注明本文链接，谢谢你。

2017.3.24 12:15

elasticsearch 索引 red 状态恢复 green的更多相关文章

Elasticsearch 集群和索引健康状态及常见错误说明
之前在IDC机房线上环境部署了一套ELK日志集中分析系统, 这里简单总结下ELK中Elasticsearch健康状态相关问题, Elasticsearch的索引状态和集群状态传达着不同的意思. 一. ...
Elasticsearch集群状态健康值处于red状态问题分析与解决（图文详解）
问题详情我的es集群,开启后,都好久了,一直报red状态??? 问题分析有两个分片数据好像丢了. 不知道你这数据怎么丢的. 确认下本地到底还有没有,本地要是确认没了,那数据就丢了,删除索引 ...
ELASTICSEARCH健康red的解决
今天惯例看统计报表, 才发现es集群悲剧了......昨天下午到今天早上, 持续报错, 写了1G的错误日志>_<#(暂无监控....) 当前状态: 单台机器, 单节点(空集群), 200W ...
Elasticsearch索引和文档操作
列出所有索引现在来看看我们的索引 GET /_cat/indices?v 响应 health status index uuid pri rep docs.count docs.deleted st ...
线上 ELK 集群健康值 red 状态问题排查与解决
之前一直运行正常的数据分析平台,最近一段时间没有注意发现日志索引数据一直未生成,大概持续了n多天,当前状态: 单台机器, Elasticsearch(下面称ES)单节点(空集群),1000+shrad ...
【ELK】Elasticsearch的备份和恢复
非原创,只是留作自己查询使用,转自http://keenwon.com/1393.html Elasticsearch的备份和恢复备份 Elasticsearch的一大特点就是使用简单,api也比较 ...
Elasticsearch系列---生产数据备份恢复方案
前言生产环境中运行的组件,只要有数据存储,定时备份.灾难恢复是必修课,mysql数据库的备份方案已经非常成熟,Elasticsearch也同样有成熟的数据备份.恢复方案,我们来了解一下. 概要本篇 ...
Elasticsearch索引(company)_Centos下CURL增删改
目录返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 1.Elasticsearch索引说明 a. 通过上面几篇博客已经将Elastics ...
第五章 MySQL事务,视图,索引,备份和恢复
第五章 MySQL事务,视图,索引,备份和恢复一.事务 1.什么是事务事务是一种机制,一个操作序列,它包含了一组数据库操作命令,并且把所有的命令作为一个整体一起向系统提交或撤销操作请求.要么都执行 ...

随机推荐

php抽奖概率算法（刮刮卡，大转盘）
两种方法:①概率随着抽的奖项的变少而时刻变化经典的概率算法函数:如下 <?php /* * 经典的概率算法, * $proArr是一个预先设置的数组, * 假设数组为:array(20, ...
websevice（Web服务）基础
webservice简介: 1.WebService到底是什么? WebService是一种跨编程语言和跨操作系统平台的远程调用技术.所谓跨编程语言和跨操作平台,就是说服务端程序采用java编写,客户 ...
Java生成、解析二维码
今天遇到需求,使用Java生成二维码图片,网搜之后,大神们早就做过,个人总结一下. 目标:借助Google提供的ZXing Core工具包,使用Java语言实现二维码的生成和解析. 步骤如下: 1.m ...
【翻译】Jay Kreps - 为何流处理中局部状态是必要的
译者注: 原文作者是 Jay Kreps,也是那篇著名的<The Log: What every software engineer should know about real-time da ...
ACM 海贼王之伟大航路(深搜剪枝)
"我是要成为海贼王的男人!" 路飞他们伟大航路行程的起点是罗格镇,终点是拉夫德鲁(那里藏匿着"唯一的大秘宝"--ONE PIECE).而航程中间,则是各式各样的 ...
Codeforce 水题报告
最近做了好多CF的题的说,很多cf的题都很有启发性觉得很有必要总结一下,再加上上次写题解因为太简单被老师骂了,所以这次决定总结一下,也发表一下停课一星期的感想= = Codeforces 261E M ...
Angular2 Service实践——实现简单音乐播放服务
引言: 如果说组件系统(Component)是ng2应用的躯体,那把服务(Service)认为是流通于组件之间并为其带来生机的血液再合适不过了.组件间通信的其中一种优等选择就是使用服务,在ng1里就有 ...
xargs命令详解，xargs与管道的区别
为什么要用xargs,问题的来源在工作中经常会接触到xargs命令,特别是在别人写的脚本里面也经常会遇到,但是却很容易与管道搞混淆,本篇会详细讲解到底什么是xargs命令,为什么要用xargs命令以 ...
hibernate系列笔记(1)---Hibernate增删改查
Hibernate增删改查 1.首先我们要知道什么是Hibernate Hibernate是一个轻量级的ORMapping对象.主要用来实现Java和数据库表之间的映射,除此之外还提供数据查询和数据获 ...
Java中String类型的部分用法
1.如何将字符串转换为整型数值? int i = Integer.parseInt("20"); 2.如何用“==”还是equals比较两个字符串? “==”是用来比较俩引用是不是 ...

elasticsearch 索引 red 状态恢复 green

方案一

找到状态为 red 的索引

找到 UNASSIGNED 节点

找出机子的 id

分配 UNASSIGNED 节点到机子