Browsed by
日期:2020年6月12日

解Bug之路-记一次存储故障的排查过程

解Bug之路-记一次存储故障的排查过程

閱讀本文約花費: 8 (分鐘)解Bug之路-记一次存储故障的排查过程 高可用真是一丝细节都不得马虎。平时跑的好好的系统,在相应硬件出现故障时就会引发出潜在的Bug。偏偏这些故障在应用层的表现稀奇古怪,很难让人联想到是硬件出了问题,特别是偶发性出现的问题更难排查。今天,笔者就给大家带来一个存储偶发性故障的排查过程。 Bug现场 我们的积分应用由于量非常大,所以需要进行分库分表,所以接入了我们的中间件。一直稳定运行,但应用最近确经常偶发连接建立不上的报错。报错如下: 而笔者中间件这边收到的确是: 这样的告警。整个Bug现场如下图所示: 偶发性错误 之前出过类似register err这样的零星报警,最后原因是安全扫描,并没有对业务造成任何影响。而这一次,类似的报错造成了业务的大量连接超时。由于封网,线上中间件和应用已经稳定在线上跑了一个多月,代码层面没有任何改动!突然出现的这个错误感觉是环境出现了某些问题。而且由于线上的应用和中间件都是集群,出问题时候都不是孤立的机器报错,没道理所有机器都正好有问题。如下图所示: 开始排查是否网络问题 遇到这种连接超时,笔者最自然的想法当然是网络出了问题。于是找网工进行排查,在监控里面发现网络一直很稳定。而且如果是网络出现问题,同一网段的应用应该也都会报错才对。事实上只有对应的应用和中间件才报错,其它的应用依旧稳稳当当。 又发生了两次 就在笔者觉得这个…

Read More Read More