재해 복구(DR), 기업을 지키는 가장 확실한 방법

2001년 미국 9.11 테러 사건 당시, 세계무역센터가 붕괴하면서 입주해 있던 기업들의 주요 시설 및 장비뿐 아니라 전산시스템도 함께 파괴됐습니다. 이에 따라 실질적인 비즈니스 활동이 불가능해진 것은 물론, 모든 데이터가 손실되었습니다.

하지만 이러한 재해 상황에서도 모건스탠리, 메릴린치 등 일부 기업들은 다음날, 혹은 며칠 만에 업무를 정상적으로 재개하여 고객과 투자자들의 신뢰를 얻었습니다. 어떻게 가능했을까요? 🤔

IT에서의 재해는 자연재해, 외부요인에 의한 시스템 결함, 내부적 요인에 의한 장애 등 다양한 상황을 포함합니다.

🌀 자연재해: 지진, 태풍, 홍수, 화재 등
💥 외부요인: 테러, 전쟁, 해킹, 전력 공급 차단 등
🔧 내부요인: 기계적 오류, 관리정책 오류, 사용자 실수 등

재해는 예측할 수 없기에 완벽한 IT 시스템이라고 해도 재해로 인한 데이터 손실 및 서비스 중단 위협은 항상 존재합니다. 서비스 연속성을 유지하기 위해서는 이러한 위협에 대비해야 하는데요. 가장 확실한 방법으로 재해 복구(DR)가 있습니다.

위에 언급한 기업들도 기존에 체계적인 재해 복구 시스템을 갖추고 있었기에 서비스를 빠르게 재개할 수 있었습니다. 재해 복구 시스템을 갖추고 있지 않던 기업들 대부분은 사실상 서비스 복구가 어렵기에 차례차례 도산했습니다.

이처럼 재해 상황에서 기업의 존폐를 좌지우지하는 ‘재해 복구(DR)’란 무엇인지 알아보겠습니다.

재해 복구란?

🧙‍♀️도르마무 도르마무,, 재해 이전 상태로 복구하러 왔다,,,

재해 복구(Disaster Recovery, DR)란, 데이터센터의 각종 재해 및 위험 요소에 의해 서비스나 시스템이 중단됐을 때 이를 정상 상태로 복구하는 것을 의미합니다.

안전한 인프라 설계뿐 아니라, 서비스 복구를 위한 기업의 절차 및 정책 등을 모두 포함하는 개념으로 예상치 못한 재해로부터 기업을 보호하기 위한 전략입니다. 🛡

재해 복구를 위해서는 먼저 기업에 적합한 재해 복구 계획을 세우고, 이를 실질적으로 수행하기 위한 재해 복구 시스템을 갖춰야 합니다.

이 과정에서 백업 데이터 인프라를 보유한 DR 센터 구축도 필요한데요. DR 센터는 일반적으로 데이터센터와 물리적으로 떨어진 지역에 위치한 곳에 구축해야 합니다. 지진, 홍수 등의 재해나 지역적인 전력 공급 중단 사태 등을 고려한다면 두 센터 간 거리가 멀어야 동시에 중단될 가능성을 줄일 수 있기 때문입니다.

이렇듯 DR의 목표는 예기치 못한 사고가 생길 경우를 대비하여 데이터를 보호하고, 재해가 발생하면 DR 센터로 빠르게 대체함으로써 서비스를 지속적으로 이어 나갈 수 있도록 하는 것입니다.

재해 복구시스템 유형

재해 복구시스템은 복구 수준별 유형에 따라 크게 4가지로 구분되는데요. 복구 시간/범위 정도에 따라 미러 사이트, 핫 사이트, 웜 사이트, 쿨 사이트 4가지로 나눌 수 있습니다.

먼저, 4가지 유형을 이해하는 데 필요한 용어들을 알아보겠습니다.

🎯 복구 시간 목표(Recovery Time Objective, RTO): 재해 발생 시 서비스가 복구되는 데 걸릴 수 있는 시간입니다. 서비스 중단을 감내할 수 있는 최대 시간을 결정합니다.

기업의 RTO가 4시간이라면, 4시간 이내에 서비스 복구가 완료되는 것을 목표로 합니다. 그 시간 동안 서비스 중단이 발생할 수 있습니다.

🎯 복구 시점 목표(Recovery Point Objective, RPO): 재해 발생 시 데이터 손실을 허용할 수 있는 시간입니다. 최소 백업 빈도를 결정합니다.

기업의 RPO가 4시간이라면, 4시간마다 백업이 이루어집니다. 마지막 백업 이후 3시간 만에 재해가 발생했다면 3시간 동안의 데이터 손실은 감당해야 합니다.

RPO와 RTO의 개념

위의 용어들을 이해하셨다면, 대표적인 재해 복구 시스템 4가지 유형에 대해 알아보겠습니다.

  1. 미러 사이트 (Mirror Site)
    1등급 미러 사이트는 데이터센터와 동일한 수준의 DR 센터를 Active 상태로 구축해 실시간으로 동기화하여 운영하는 방식입니다.
    실시간 미러링 (이론적인 RPO=0)을 통하여 데이터 최신 상태를 유지하며, 재해 발생 시 즉시 (이론적인 RTO=0) 복구할 수 있습니다.
    기존 데이터센터와 동일한 DR 센터를 Active 상태로 구축하는 만큼 초기 투자 및 유지보수에 큰 비용이 소요됩니다.

  2. 핫 사이트 (Hot Site)
    2등급 핫 사이트는 데이터센터와 동일한 수준의 DR 센터를 Standby 상태로 구축해 재해 발생 시 DR 센터를 Active로 전환하여 서비스를 제공하는 방식입니다.
    실시간 미러링(RPO=0 지향)을 통하여 데이터 최신 상태를 유지하며, 재해 발생 시 복구시간은 약 4시간 이내(RTO=수 시간)입니다.

  3. 웜 사이트 (Warm Site)
    3등급 웜 사이트는 데이터센터와 동일한 수준의 DR 센터를 구축하되 중요도가 높은 데이터만 DR 센터에 부분적으로 저장하는 방식입니다.
    그 외 일반 데이터 백업은 수 시간~1일 (RPO=수 시간~1일) 단위로 진행되며, 복구 시간은 수일~수주(RTO=수일~수주) 소요됩니다.
    미러 사이트와 핫 사이트에 비해 초기 투자 및 유지보수 비용이 저렴하지만, 복구 수준은 완전하지 않을 수 있습니다.

  4. 콜드 사이트 (Cold Site)
    4등급 콜드 사이트는 최소한의 수준으로 DR 센터를 구축해 데이터만 보관하는 방식입니다.
    백업은 수일~수주(RPO=수일~수주) 단위로 진행되며, 복구 시간은 수주~수개월 정도(RTO=수주~수개월) 소요됩니다.
    초기 투자 및 유지보수 비용은 가장 저렴하지만, 복구 시간이 매우 길고 복구 신뢰성이 낮습니다. 콜드 사이트 방식은 주로 미러 사이트나 핫 사이트를 보완하기 위해 사용됩니다.

이처럼 재해 복구 시스템 4가지 유형에 대해 정리해보았는데요. RPO/RTO가 짧을수록 초기 투자 및 유지보수 비용이 커지는 것을 확인할 수 있습니다.

RTO/RPO 짧은 순서: 미러 사이트 > 핫 사이트 > 웜 사이트 > 콜드 사이트
초기 투자 및 유지보수 비용이 높은 순서: 미러 사이트 > 핫 사이트 > 웜 사이트 > 콜드 사이트

유형설명복구 시간 목표 (RTO)복구 시점 목표 (RPO)비용장점단점
Mirror Site– 데이터센터와 동일한 수준의 정보기술자원을 DR센터에 구축
– Active-Active 상태로 실시간 동시 서비스 제공
이론적으로 0 (=즉시)이론적으로 0 (=즉시)$$$$$– 데이터 최신성
– 높은 안정성
– 신속한 업무재개
– 높은 초기투자 비용
– 높은 유지보수 비용
– 데이터 업데이트 빈도가 높은 시스템의 경우 부적합
Hot Site– 데이터센터와 동일한 수준의 정보기술자원을 DR센터에 구축
– Active-Standby 상태로 유지
– 데이터센터 재해시 DR센터를 Active 상태로 전환하여 서비스 제공
– 데이터는 동기적 또는 비동기적 방식의 실시간 미러링을 통하여 최신 상태로 유지
수시간 (4시간 이내)0 지향$$$$– 데이터 최신성
– 높은 안정성
– 신속한 업무 재개
– 데이터 업데이트 빈도가 높은 시스템의 경우에 적합
– 높은 초기투자 비용
– 높은 유지보수 비용
Warm Site– 중요성이 높은 데이터만 부분적으로 DR센터에 보유
– 데이터는 수시간~1일 단위로 백업
수일~수주수시간~1일$$$– 초기투자 및 유지비용이 핫사이트에 비해 저렴– 데이터 다소의 손실 발생 가능
– 초기 복구 수준 부분적
Cold Site– 데이터만 DR센터에 보관
– 서비스를 위한 정보자원은 확보하지 않거나 장소 등 최소한으로만 확보
– 데이터는 수일~수주 단위로 DR센터에 백업
수주~수개월수일~수주$$– 초기투자 및 유지비용이 가장 저렴– 데이터의 손실 발생 가능
– 복구에 매우 긴 시간이 소요
– 복구 신뢰성 낮음
출처: 정보시스템 재해 복구 지침, 한국정보통신기술, 2007

기업은 이러한 RTO/RPO, 비용 등을 고려하여 자사에 적합한 재해 복구 시스템을 구축해야 합니다. 장애가 일어나면 안 되는 1금융 전산센터 같은 경우, 정부 차원에서 미러사이트 시스템을 강제하고 있습니다.

DR 센터 구축 비용

재해 복구 시스템을 위한 DR 센터 구축에는 많은 비용이 소요됩니다. 💰 DR 센터 설립을 위한 장소뿐 아니라 인프라 구축을 위한 장비, 운영 인력 등이 필요하기 때문입니다.

네트워크 비용, 전기 비용과 같은 유지보수에도 엄청난 예산이 듭니다. 서버 추가 비용만 하더라도 1대당 약 1,400만 원인 만큼 이렇게 큰 비용을 감당할 수 있는 기업은 극히 일부일 것입니다.

비용적인 한계에도 불구하고, 재해 발생 시 서비스 중단으로 인한 여러 피해를 예상했을 때 충분히 대비할 가치가 있는데요. 이로 인해 일부 조직에서는 물리적인 DR 센터의 대안으로 비용이 합리적인 클라우드를 DR 센터로 활용하고 있습니다.

물리적인 DR 센터의 경우, 재해 발생 이전까지 모든 장비가 유휴 상태로 유지되어 비용이 낭비될 수 있습니다. 하지만, 클라우드는 재해 발생 전까지 비용을 지불하지 않으면서 데이터는 사전 복원이 가능합니다.

DRaaS의 등장

비용을 낭비하지 않으면서 사전 복원이 가능한 클라우드의 특성으로 인해 최근에는 DR 자체를 클라우드화한 DRaaS(DR as a Service) 서비스 제공 기업도 늘고 있습니다. ☁

일반적으로 기존 웹사이트에 간단한 관리 프로그램만 설치하면 데이터가 DRaaS 기업의 클라우드로 지속적으로 동기화되는 방식인데요. 별도로 DR 인프라를 구축하거나 관리하지 않아도 된다는 장점이 있습니다.

정리하며

2022년 10월, SK C&C 판교 데이터센터 화재로 카카오 서비스 장애가 발생하면서 많은 분들이 재해 복구(DR)의 중요성을 깨닫게 되었는데요. 기업들도 실시간 장애 진단 및 재해 복구 솔루션에 관심을 갖게 되고, 정부 차원에서는 대규모 서비스 장애에 대한 재발 방지를 위해 이른바 ‘카카오 먹통 방지법’도 개정했습니다.

기업의 확실한 서비스 연속성을 위해서는 DR에 대한 지속적인 투자가 필요하며, 실제 재해 발생 시 재해 복구 시스템이 유효하게 작동하는지 확인하기 위한 재해 대비 훈련을 꾸준히 진행하는 것도 중요합니다.

가비아는 클라우드 서비스, 매니지드 서비스, 보안관제 서비스를 모두 제공하는 국내 유일의 기업으로 여러 재해 상황과 관련된 서비스를 제공하고 있습니다.

관련하여 자세한 사항이 궁금하시다면 맞춤 전문가를 통해 1:1 상담을 받으실 수 있습니다. 😉


재해 복구란?

재해 복구(Disaster Recovery, DR)란, 데이터센터의 각종 재해 및 위험 요소에 의해 서비스나 시스템이 중단됐을 때 이를 정상 상태로 복구하는 것을 의미합니다. 안전한 인프라 설계뿐 아니라, 서비스 복구를 위한 기업의 절차 및 정책 등을 모두 포함하는 개념으로 예상치 못한 재해로부터 기업을 보호하기 위한 전략입니다.

미러 사이트란?

미러 사이트(Mirror Site)란 데이터센터와 동일한 수준의 DR 센터를 Active 상태로 구축해 실시간으로 동기화하여 운영하는 방식입니다. 실시간 미러링을 통하여 데이터 최신 상태를 유지하며, 재해 발생 시 즉시 복구할 수 있습니다.

핫 사이트란?

핫 사이트(Hot Site)는 데이터센터와 동일한 수준의 DR 센터를 Standby 상태로 구축해 재해 발생 시 DR 센터를 Active로 전환하여 서비스를 제공하는 방식입니다. 실시간 미러링을 통하여 데이터 최신 상태를 유지하며, 재해 발생 시 복구시간은 약 4시간 이내입니다.

웜 사이트란?

웜 사이트(Warm Site)는 데이터센터와 동일한 수준의 DR 센터를 구축하되 중요도가 높은 데이터만 DR 센터에 부분적으로 저장하는 방식입니다. 그 외 일반 데이터 백업은 수 시간~1일 단위로 진행되며, 복구 시간은 수일~수주 소요됩니다.

콜드 사이트란?

콜드 사이트(Cold Site)는 최소한의 수준으로 DR 센터를 구축해 데이터만 보관하는 방식입니다. 백업은 수일~수주 단위로 진행되며, 복구 시간은 수주~수개월 정도 소요됩니다.

DRaaS란?

DRaas(DR as a Service)란 DR 자체를 클라우드환 서비스입니다. 물리적 DR 센터와 달리 재해 발생 전까지 비용을 지불하지 않으면서 데이터는 사전 복원이 가능합니다. 별도의 DR 인프라를 구축하거나 관리하지 않아도 된다는 장점이 있습니다.