IT 인프라는 고객 데이터부터 내부 운영 시스템까지 비즈니스 전반을 지탱하는 핵심 요소입니다. 만약 자연재해나 보안 사고 등으로 인프라가 멈춘다면 어떤 일이 벌어질까요?
최근 발생한 Y사 랜섬웨어 사태와 국가정보자원관리원 화재 사건과 같이 서비스 안정성에 큰 타격을 입게 됩니다. 기업이라면 고객 불만과 매출 손실뿐만 아니라 장기적인 브랜드 신뢰도 하락으로 이어질 수 있습니다.
이런 상황을 대비하는 데 필요한 것이 재해 복구(Disaster Recovery) 일명 DR입니다. 이번 글에서는 DR과 관련된 개념을 살펴보고 AWS DR 전략을 어떻게 수립할 수 있는지 살펴보겠습니다.

재해 복구(DR) 개념과 필요성
재해 복구(DR)란 자연재해·보안 사고와 같은 돌발 상황으로 인해 IT 시스템이 마비되었을 때 이를 빠르게 복구하고 정상 상태로 되돌리는 과정과 전략을 의미합니다.
‘설마 우리에게 그런 일이 일어나겠어?’라고 많은 사람이 생각하지만, 사고는 형태와 종류가 다양해서 예측하기 쉽지 않습니다. 대비하지 않은 사고는 기업의 핵심 자산인 데이터와 서비스 가용성을 위협하죠.
[예기치 못한 사고]
- 화재, 홍수, 지진 등의 자연재해
- 랜섬웨어 감염, 외부 공격, 내부자 실수 등의 보안 위협
- 서버 하드웨어 고장, 네트워크 단절, 스토리지 손상 등의 기술 장애
그렇다면 DR은 단순히 비상 상황에 일시적으로 대응하기 위해 선택하는 것일까요? 아닙니다. 요즘 시대에 DR은 서비스 연속성을 위한 필수 요소이자 비즈니스 전략에 가깝습니다.
[재해 복구(DR)의 필요성]
- 고객 만족도와 브랜드 신뢰를 지킬 수 있도록 비즈니스 연속성 확보
- 매출 손실, 계약 위반, 복구 비용 등 재정적 손실 최소화
- 강력한 복원력과 서비스 가용성 유지를 통한 경쟁 우위 확보
특히 규제가 엄격한 금융, 공공, 의료 분야라면 컴플라이언스 대응을 위해서 필수적으로 DR 전략을 수립해야 합니다. 그렇다면 DR 전략은 어떻게 세울 수 있을까요?
비즈니스 성격과 기업의 우선순위에 따라서 DR 목표를 다르게 설계할 수 있습니다.
대표적인 2가지 목표 RPO와 RTO를 비교하며 살펴보겠습니다.

재해 복구(DR)의 2가지 목표 – RPO VS RTO 비교
DR의 목표는 크게 ① 복구 시점(Recovery Point)과 ② 복구 시간(Recovery Time)으로 나뉩니다.
① RPO (Recovery Point Objective)
- 데이터 ‘복구 시점’을 기준으로 함
- ‘현시점에서 얼마나 많은 데이터를 잃었는가?’를 줄이는 것이 목표
RPO는 재해가 발생했을 때 ‘허용할 수 있는 최대 데이터 손실’을 의미합니다. RPO가 짧을수록 데이터 유실이 최소화됩니다.
예를 들어 전자상거래 시스템의 RPO를 5분으로 한다면 서비스 중단 시점을 기준으로 마지막 5분 이내 데이터까지만 손실될 수 있는 걸 목표로 하게 됩니다.
② RTO (Recovery Time Objective)
- 데이터 ‘복구 시간’을 기준으로 함
- ‘서비스 중단으로부터 얼마나 빨리 복구할 수 있는가?’를 앞당기는 것이 목표
RTO는 재해가 발생했을 때 서비스를 ‘정상화하는 데 걸리는 최대 허용 시간’을 의미합니다. RTO가 짧을수록 고객 서비스 중단 시간 즉, 다운 타임이 줄어들고 매출 손실이나 평판 하락도 줄어듭니다.
전자상거래 서비스라면 RTO가 몇 시간만 길어져도 큰 매출 손실이 발생할 수 있습니다. 전자상거래 서비스의 RTO를 1시간으로 잡는다면 1시간 이내에 서비스 정상화를 하는 것이 목표가 됩니다.

재해 발생을 기준으로 RPO는 ‘재해 이전에 쌓아왔던 데이터의 유실 범위’를, RTO는 ‘재해 발생 이후 낭비되는 시간’을 중요하게 봅니다.
복구 시점과 시간은 모두 중요한 요소이며 RTO와 RPO 또한 DR 전략을 세울 때 반드시 고려해야 합니다. 하지만, 두 목표치를 낮게 잡을수록 서비스는 더 안정적인 만큼 비용과 기술적 복잡도가 함께 올라가죠.
아래 그래프를 통해 서비스 중요도에 따른 RTO/RPO와 비용의 상관관계를 비교해 보겠습니다.


이처럼 모든 시스템에 동일한 목표를 적용하기보단 현실적인 업무 중요도와 비용의 균형을 고려해 DR 전략을 수립하는 것이 중요합니다.

비즈니스 상황에 맞는 4단계 AWS DR 전략
AWS는 DR을 위해 다양한 서비스와 아키텍처 패턴을 제공하고 있습니다. RTO와 RPO 수준에 따라 다음 4가지 전략이 주로 활용됩니다.
AWS DR 전략 | RPO (복구 시점) 및 RTO (복구 시간) | 비용 | 특징 | 주요 AWS 서비스 |
1단계 백업 및 복원 (Backup & Restore) | RPO 12시간 RTO 24시간 | $ | 소스와 동일한 리전에 백업 생성 | AWS Backup, EBS Snapshot |
2단계 파일럿 라이트 (Pilot Light) | RPO 1시간 RTO 6시간 | $$ | 별도 DR 리전에 실시간 복제되나 기능은 꺼져있음 | Amazon Machine Image |
3단계 웜 스탠바이 (Warm Standby) | RPO 6분 RTO 30분 | $$$ | 2단계와 유사하나 최소한의 인프라를 항상 실행 (ex. 계층당 EC2 1대) | Auto Scaling Group |
4단계 멀티 사이트 액티브-액티브 (Active-Active) | 실시간 | $$$$ | 두 개 이상의 리전에서 워크로드를 나눠서 동시에 처리 | Amazon DynamoDB 글로벌 테이블 |


DR 목표 달성을 위해서 AWS에서 제공하는 다양한 서비스 특징을 이해하고 아키텍처를 설계할 수 있어야 합니다. 이에 더해 주기적인 DR 훈련과 장애 시뮬레이션 등을 통해 신뢰성을 검증하고 개선해야 합니다.

성공적인 DR 전략 수립과 아키텍처 설계가 궁금하다면?
AWS에서 제공하는 DR 전략과 아키텍처를 보더라도 바로 조직에 적용하기란 쉽지 않습니다. 기존 환경을 분석하고 예산, 네트워크, 보안 등 여러 요소를 고려해야 하기 때문입니다.
AWS 기반 DR 전략 수립 때문에 고민하고 계신가요?
AWS의 공식 컨설팅 파트너 가비아가 여러분의 고민을 덜어드립니다. 고객의 성공적인 DR 목표 달성 및 서비스 운영을 가비아 AWS가 지원합니다.