Impala实践之十四:一次Impala节点故障记录(不能启动)
前言Impala集群中有两台机器的Impala Daemon不能正常启动,记录一下整个过程和解决方式。
过程阶段一Impala集群的状态开始飘红,有两台节点不能正常使用。
这时候发现集群里面有十多个任务正在运行,任务执行时间很长,情况非常不正常。
看了一下sql的内容,有几个sql的确比较耗资源。
阶段二此时,我先通知不要提交sql,给修复问题留点时间。
正在重启不健康的节点,群里面就有人继续提交了不合理的sql,还在问“为什么集群这么慢?”
此时集群的Hive Metastore Server服务也飘红了,重启过后几分钟继续变红。
Impala节点还重启失败
阶段三此时我的心情其实是挺糟糕的,大早上闹这一出,而且还不配合。因此再次强调了一下不要提交sql。然后集群稍微好一点了。
两台机器仍然故障,但是我的权限还不够,不能看到linux层面的错误日志。
因此决定暂时停掉两台Impala节点的使用,并在负载均衡上将两台节点排除,这样机器虽然少了两台,但是集群仍能正常使用。
阶段四现在主要的问题在于,为什么两台机器Impala节点不能启动,启动后可以再找错误原因。...阅读全文
过程阶段一Impala集群的状态开始飘红,有两台节点不能正常使用。
这时候发现集群里面有十多个任务正在运行,任务执行时间很长,情况非常不正常。
看了一下sql的内容,有几个sql的确比较耗资源。
阶段二此时,我先通知不要提交sql,给修复问题留点时间。
正在重启不健康的节点,群里面就有人继续提交了不合理的sql,还在问“为什么集群这么慢?”
此时集群的Hive Metastore Server服务也飘红了,重启过后几分钟继续变红。
Impala节点还重启失败
阶段三此时我的心情其实是挺糟糕的,大早上闹这一出,而且还不配合。因此再次强调了一下不要提交sql。然后集群稍微好一点了。
两台机器仍然故障,但是我的权限还不够,不能看到linux层面的错误日志。
因此决定暂时停掉两台Impala节点的使用,并在负载均衡上将两台节点排除,这样机器虽然少了两台,但是集群仍能正常使用。
阶段四现在主要的问题在于,为什么两台机器Impala节点不能启动,启动后可以再找错误原因。...阅读全文