티스토리 뷰

Sorry Architecture

Pilot Light

Quill. 2023. 10. 13. 11:52

2012년 봄의 ‘90분의 커피 브레이크’[각주:1]를 통해서 클라우드(Cloud) 환경에서의 재해 복구를 직접 보았고, 어떻게 구현했으며, 실제 어떻게 동작 했는 지 체험했었다. 강사는 이러한 전략을 설명하면서 파일럿 라이트 (Pilot Light)[각주:2]라는 용어를 사용했다. 그러면서 이름의 유래에 대해 설명해 주었다. 파일럿 라이트의 기본 개념은 간단한데, 화로나 난로 등의 발열 기구의 불이 타오르도록 하기 위해서 연료에 제공하는 불씨를 말한다. 난로를 “켜게 되면”, 밸브가 열리면서 주입되는 가스(연료)에 파일럿 라이트가 불을 붙여 연소가 시작되는 것이다. 마치 작은 불씨를 이용해서 난로의 연소가 시작되는 과정이 시연을 통해 보여준 재해 복구 전략과 흡사 하기 때문에 파일럿 라이트라는 이름이 붙었다고 설명해 주었다.
 
클라우드는 원하는 순간에 IT 자원을 요청했을 때 제공해주고, 사용한 만큼 비용을 지불하는 개념을 갖고 있다. 그래서 항상 모든 자원을 가동할 필요가 없으며 이와 같이 생성 명령 또는 실행 안내서[각주:3] [각주:4]를 활용해서 빠르게 복구 시스템을 생성해서 대응할 수 있는 것이다. 클라우드에서는 작은 불씨로 온전한 난로를 켜는 것처럼 스크립트를 트리거로 활용하여 온전한 시스템을 복구하는 전략이 가능해졌다.
 
파일럿 라이트는 1) 비용이 저렴하다는 장점을 가지고 있다. 재해 복구 시점을 만족시키기 위한 데이터 복제 비용은 필요하지만, 서비스 제공을 위한 애플리케이션 환경은 복구 시점에 생성하기 때문에 비용이 없다. 2) 인프라스트럭처 및 애플리케이션 구성을 자동화할 수 있다. 재해 복구를 위해서 별도의 솔루션을 구매하고 사용법을 익히는 것이 아니라 스크립트 기반으로 운영 환경을 구축하면서 동시에 복구 환경도 구성할 수 있다. 따라서 별도의 비상 시스템을 구축하기 위해 비용을 지불하거나 재해 복구 방법을 훈련할 필요가 없으며 주기적인 재해 복구 훈련을 권고하는 규정을 준수하기 위해서도 운영 환경을 구축하는 것과 같은 방법으로 스크립트를 실행하면 된다. 
 
2014년에 뮤직 라디오에 파일럿 라이트 재해 복구 전략을 적용하였고, 재해 복구 훈련도 잘 동작하는 것을 보여 주었다. 그리고 2015년 파일럿 라이트는 삼성의 운영 준비 점검 목록(Operation Readiness Reviews/Approval)에 권고사항으로 포함되었다. 당시 운영 준비 점검 사항에 재해 복구 계획을 수립하고 보고서를 제출하도록 되어 있었으나, 실제 환경이 복잡하기도 하고 운영 환경도 서비스 시작 이후 매월 이뤄지는 배포과정을 통해 변하기 때문에 실제 재해 복구가 동작하는 지 점검하고 확인하기 어려웠다. 또한 재해 복구 훈련을 하다가 운영 환경에 영향 끼칠 것을 우려하는 현장의 목소리도 있어서 운영 부서에서도 재해 복구 계획에 대해서는 보고서로 갈음하는 정도로 처리했다. 무엇보다도 재해 복구를 해야 하는 상황이 발생할 확률이 낮기 때문에 우선 순위에서 자주 밀려 나는 편이었다. 이러한 상황에서 실제 동작하는 재해 복구 전략을 구현하여 보여주었고, 서비스 운영과 재해 복구 시스템 운영을 동시에 수행함으로서 효율성과 실용성을 입증하였기 때문에 운영 준비 점검 사항에 권장 (모범) 사례로 추가되었다.
 
물론, 정말 중요한 서비스의 경우 기대하는 재해 복구 목표 수준이 높은 - 예를 들어, 복구 시간 목표(Recovery Time Objective, RTO)가 1분 미만, 복구 시점 목표(Recovery Point Objective, RPO)가 1초 미만 같이 매우 높은 수준을 요구하는 - 경우에는 많은 비용을 지불하더라도 동일한 사양의 시스템을 함께 가동해서 대비해야 하며 이러한 경우에는 파일럿 라이트 전략을 사용할 수 없다. 대신 Multi-Site Active-Active 전략을 사용하거나 Warm-Standby 전략을 고려해야한다.


 

  1. https://youngookkim.tistory.com/114 [본문으로]
  2. https://en.m.wikipedia.org/wiki/Pilot_light [본문으로]
  3. 나중에 이 개념은 나중에 IaC라고 부르는 Infrastructure as (a) Code 라는 이름으로 정립되었다 [본문으로]
  4. https://youngookkim.tistory.com/6 [본문으로]

'Sorry Architecture' 카테고리의 다른 글

90 min. Coffee Break (90분의 커피 브레이크)  (0) 2023.10.13
Platform Engineering  (0) 2023.04.12
On-calls  (0) 2023.03.14
Sixth Man  (0) 2022.05.16
Poka-Yoke  (0) 2022.05.10
공지사항