前言前段时间,imppala资源告警,各种任务失败,查询堵塞,因此公司集群升级。
这次迁移的确必须,因为当时的集群规模很小,资源太紧张了。
迁移集群后,今天集群再次出问题,导致一个下午没什么事都没干,查了一下午的错误。
事件发展1.阶段一:下午2点17分数据组反映集群崩溃,HUE界面不能登录,登录之后刷不出来表,当然也不能提交数据。
查看各种log日志、任务信息,发现事件发生前后有两个现象:
有一个admin用户每隔一分钟提交一次insert任务,一次任务的数据量主要分两个个等级:500M、900M,他们分别需要30s和1分钟左右能完成操作。该用户每隔几次操作,会执行一次 invalidate metadata操作数据分析的小伙伴提交了很多个重复的任务,比如select *from tablename limit 100,而且有几个我很佩服的十多行的sql(目前我是写不出来)。具体的情况就是,数据分析组的三个人同时对一张表执行各种不同复杂程度的select查询,因为反映慢了点,所以反复提交了很多次,包括hue和shell端。初步分析1: 大量任务 + 反复提交复杂查询。单个原...
阅读全文