
システム監視とアラート地獄
こんにちは。フィックスポイントの冨です。
システム運用の業務の一つに「監視」があります。
管理下のシステムが正常に動作しているか、 異常が発生しそうな予兆が無いかを常時モニターするわけですが、 ひとたび異常が発生した場合には、それを知らせる仕組みが必要になります。
通知に気づかずに取りこぼしてしまうと、 対応が遅れてサービス停止時間が長引くリスクがあるため、 心情的にはいろいろな監視ツールから、 あらゆる異常を知らせてもらうべく通知設定を入れがちです。
これらが積み重なり、またシステム規模が拡大してくると、 日常的に大量のアラート通知を受け取るようになります。
クリティカルな障害通知以外にも、 取り扱い商品がTVで紹介されて一時的に負荷が高まったECサイト、 社員が行っている大量のファイルの共有ディスクへのコピーなど、 正常な場合でも様々な通知の機会が発生します。
一定規模のシステム運用をされている方はご承知の通り、 これらを全て受信しているとメールボックスは大量のアラートメールで溢れ、 かえって重要な通知を見落とす可能性が増えてきます。
アラートが常態化してくると「オオカミ少年効果」にも似て、 アラートを過小評価したり無視することもあります。
また、重要な障害通知の場合でも、例えばネットワークとサーバーの複合障害のような場合ですと、 アラート間の関係を読み解く必要がありますが、 メッセージが溢れかえった状態では、それもままなりません。
つまりシステム運用を行う以上は、通知の処理は避けられないものの、 その流量や内容の精度は注意深くコントロールする必要があります。
今月リリースしたKompira AlertHubは、そのような通知処理の自動化を行い、 重要なアラートのみを確実にエンジニアに届けるための基盤を目指して開発されたものです。
来月開催する"kompiraミーティング2020"では、AlertHubの使いどころや現状の課題点などをご講演いただきます。
アラートの処理にお困りの方にはご興味をお持ち頂ける内容と思いますので、ぜひご覧ください。


