システムに求められる要求と運用コストのバランスは常に悩みの種です。また昨今では運用の安定性を維持しつつ、開発速度を加速させていくことがますます求められています。
Googleでは「サイト信頼性エンジニアリング(SRE)」という手法を用いて、長年サービスに対するユーザーの信頼性を高く維持しつつ、大規模なシステムの運用と開発のバランスを適正にすることに努めてきました。
本セッションではサイト信頼性エンジニアリングとはどのような運用手法なのか、そしてなぜ信頼性の向上にうまく機能するのかをご説明します。