데이터센터 붕괴의 원인

데이터센터 붕괴의 원인

데이터 운영자는 때때로 전체 데이터 센터가 중단될 수 있는 실수를 저지릅니다. 그러나 이러한 문제의 대부분은 유지 관리 조치, 검사 절차 및 시스템 운영자의 상식과 경험을 통해 피할 수 있습니다.

"계획되지 않은 데이터 센터 중단"은 가동 중지 시간으로 이어지는 문제가 있는 데이터 센터를 정중하게 말하는 방식입니다. 근본 원인이 하드웨어 오류, 소프트웨어 오류 또는 사람의 오류인지 여부에 관계없이 이러한 오류의 대부분은 사전에 예방할 수 있고 예방해야 합니다. 오늘날의 데이터 센터에는 높은 수준의 위험 중복성이 있으므로 사전에 사고를 예방하는 것이 전적으로 가능합니다.

한 가지 흥미로운 점은 데이터센터에서는 크고 작은 오류가 계속해서 발생할 수 있으며, 데이터센터의 가동이 중단되어 발생하는 피해는 단기간이라도 적지 않다는 점이다. Data Center Knowledge의 연구에 따르면, 데이터 센터 가동 중단으로 인해 기업은 분당 약 7,900달러의 비용을 지출할 수 있습니다. 실제로 데이터센터 다운타임이 10일 이상 지속된 기업 중 93%가 1년 이내에 파산했고, 40%는 즉시 파산했다. 평가된 41개 데이터 센터에 대한 또 다른 연구에 따르면 계획되지 않은 중단으로 인한 평균 비용에는 업무 중단으로 인해 179,000달러 이상, 매출 손실로 인해 118,000달러, 생산성으로 인해 42,000달러가 포함된 것으로 나타났습니다. 데이터 센터 관리자가 일반적인 오류의 주요 원인을 조사하고 해결하는 데 더 집중한다면 잠재적인 위험을 크게 줄일 수 있습니다.

데이터센터 붕괴의 원인

문제는 많은 데이터 센터 운영자와 운영자가 이미 존재하는 것을 유지하고 강화하는 대신 성장과 수익에 더 집중하는 경우가 많다는 것입니다. 오늘날 많은 공공 및 민간 데이터 센터의 관리자를 주의 깊게 살펴보면 그들이 거의 전적으로 스토리지 용량 증가, 서버 밀도 증가 및 서버 밀도 증가에만 관심이 있다는 것을 알 수 있습니다. 예를 들어 냉각 시스템. 이 모든 것이 훌륭하고 절실히 필요하며 데이터 스토리지 산업의 엄청난 성장을 보여주지만, 데이터 센터의 실패가 점점 더 흔해지는 이유도 보여줍니다.

이 문서에서는 데이터 센터가 비활성화되는 일반적인 이유를 살펴보고 이를 최소화하거나 제거하기 위해 관리자가 수행할 수 있는 작업을 강조하고 이러한 문제를 완전히 해결하고 시스템 안정성을 향상시킬 수 있습니다.

데이터센터 붕괴의 원인

인간이 일으킨 오류

이는 가장 단순한 원인이자 가장 피하기 어려운 원인 중 하나입니다. 간단히 말해서, 누구나 실수를 할 수 있습니다. 가동 중단의 22%가 사람의 실수로 인해 발생하므로 이 원인은 신중하게 고려해 볼 가치가 있으며, 중요한 점은 상대적으로 쉽게 예방할 수 있다는 것입니다.

부적절한 시스템 인증

데이터센터 붕괴의 원인

실제로 데이터 센터의 모든 시스템에 대한 완전하고 무제한적인 액세스 권한을 가진 관리자는 거의 없습니다. 더 많은 사람에게 이 권한을 부여하는 대신 액세스를 엄격하게 관리해야 합니다. 그렇지 않으면 시스템에 심각한 오류가 발생할 수 있습니다. 예를 들어, 2014년 Joyent 사건에서는 숙련된 관리자가 단 몇 번의 클릭만으로 회사 동부 데이터 센터의 모든 가상 머신을 실수로 다시 시작했습니다.

잘못된 백업 절차

데이터센터 붕괴의 원인

유지 관리 작업을 계획할 때 중요하지만 자주 잊혀지는 단계는 백업 프로세스입니다. 프로세스는 문서화되지만 철저하게 검토되지 않는 경우가 많으며, 유지 관리 후에도 원래 형태로 완전히 복원되지 않는 경우가 많습니다.

너무 많은 변경을 가함

데이터센터 붕괴의 원인

유지 관리 중에 관리자가 한 번에 너무 많은 변경을 시도하면 문제가 발생할 수 있습니다. 첫째, 관리자는 짧은 시간 내에 많은 양의 작업을 완료해야 하기 때문에 성급한 사고방식을 갖고 있으며 이로 인해 실수가 발생하는 경우가 많습니다. 둘째, 동일한 기간에 너무 많은 변경 사항이 발생하기 때문에 변경 후 문제 해결 작업이 훨씬 더 어려워집니다.

인적자원 관리의 허술함

데이터센터 붕괴의 원인

좀 가혹하게 들리겠지만, 직원들은 센터의 규칙을 엄격하게 준수하는 방법을 알아야 하고, 이를 위반할 경우 엄중한 징계를 해야 합니다. 예를 들어, 데이터 센터에서는 직원이 업무 중에 먹거나 마시는 것을 허용하지 않으며, 비상 스위치에는 명확하게 라벨을 붙이고 보안을 유지해야 합니다. 사소해 보일 수도 있지만 큰 사고로 이어질 수 있으므로 항상 규칙을 엄격히 준수하시기 바랍니다.

시스템 오류

백업 전원이 보장되지 않으며 장비가 오래되었거나 잘못 구성되었습니다.

데이터센터 붕괴의 원인

데이터 센터가 다운되는 가장 일반적인 이유는 정전 때문입니다. 정전은 언제든지 발생할 수 있습니다. 따라서 데이터 센터는 주 전원이 끊길 경우를 대비해 백업 전원을 사용하여 설계되었습니다. 배터리나 발전기 시스템은 종종 백업 전원으로 사용됩니다. 문제는 배터리를 제때 교체하지 못하고, 발전기를 점검 및 유지보수하지 못해 정전 발생 시 문제가 발생할 수 있다는 점이다. 이 모든 것은 백업 기능이 가장 필요할 때 사용하지 못할 수 있음을 의미합니다.

정전이 발생하는 경우 UPS 시스템은 배터리를 백업 전원으로 사용하므로 배터리는 데이터 센터의 가동 시간을 유지하는 데 필수적인 부분입니다. 그러나 배터리가 항상 잘 작동하는 것은 아닙니다. 배터리 상태를 확인하려면 제조업체에서 권장하는 유지 관리를 수행하십시오. 적어도 분기마다 배터리를 검사하여 적절한 설치, 방전 및 충전을 확인해야 합니다. 여기에는 육안 검사, 용량 점검, 소프트웨어나 UPS 공급업체 자체를 통한 정기 모니터링이 포함됩니다.

또한 온도가 높으면 시스템의 배터리 수명이 단축될 수 있습니다. 전용 UPS실을 구축하면 배터리 수명의 마모를 줄이는 데 도움이 될 수 있습니다. 또한, 배터리를 자주 방전시키지 말고, 느슨한 연결이나 마모된 커넥터를 잘 관리해야 합니다. 간단히 말해서, UPS는 특히 중요한 시스템이므로 합리적인 설계, 적절한 사용 및 엄격한 유지 관리가 필요합니다.

냉각 시스템의 오작동

데이터센터 붕괴의 원인

데이터 센터의 기계 시스템은 많은 전력을 소비합니다. 이는 작동 중에 많은 양의 열을 방출한다는 것을 의미합니다. 데이터센터는 가동 1분 만에 화장터가 될 수 있다. 그래서 냉각 시스템이 중요합니다. 그리고 온도 센서가 판독하고 관리자에게 경고가 전송되더라도 모든 것이 녹기 전에 센터의 백업 냉각 절차를 구현할 수 있는 충분한 시간이 있는지 확인해야 합니다."

또한 많은 냉각 시스템은 실제로 현대 고용량 데이터 센터의 증가된 열 수준을 따라잡을 수 있도록 설계되지 않았습니다. 다시 말하지만, 데이터 센터가 100% 용량으로 작동하는 상황을 파악하면 향후 더 나은 냉각 시스템을 계획하는 데 도움이 됩니다. 시스템 온도 변동에 대한 경고 시스템 설정도 필요합니다. 일부 열 모델링 소프트웨어와 일부 DCIM 시스템을 사용할 수 있습니다. 또한 화학 냉매는 수성 시스템보다 더 나은 선택입니다.

자동 변환 프로세스가 제대로 작동하지 않습니다

데이터센터 붕괴의 원인

대부분의 서비스 제공업체, 조직 및 기업에는 프로덕션 데이터 센터로 사용되는 백업 데이터 센터가 있습니다. 기본 데이터 센터에 정전이 발생하면 백업 데이터 센터가 자동으로 시작되고 모든 트래픽이 해당 백업 시설로 라우팅됩니다. 제대로 수행되면 프로세스는 최종 사용자까지 원활하게 진행되어야 합니다. 안타깝게도 자동 장애 조치(failover)가 예상대로 작동하지 않는 경우가 많습니다. 이 문제의 일반적인 원인은 정기적인 테스트가 부족하기 때문입니다. 프로덕션 인프라의 작은 변화라도 자동화된 장애 조치에 큰 영향을 미칠 수 있습니다. 따라서 인프라를 변경할 때 자동화된 장애 조치 절차를 테스트하여 프로세스에서 벗어나는 부분이 없는지 확인해야 합니다.

오래된 하드웨어

데이터센터 붕괴의 원인

각 시스템의 모든 하드웨어 에는 특정 수명이 있습니다. 그리고 하드웨어를 오래 사용할수록 문제가 발생할 확률이 높아집니다. 모두가 알고 있지만 중요한 애플리케이션이 10년 된 하드웨어에서 실행된다는 이유만으로 충돌이 발생하는 경우가 많습니다. 이러한 문제는 새로운 하드웨어나 소프트웨어 플랫폼에 대한 포괄적인 교체 및 업그레이드 계획이 부족하거나 예산 부족으로 인해 발생하는 경우가 많습니다. 돈 문제라면 할 수 있는 일이 없습니다. 하지만 단순히 최대한 오래 활용하려고 하면 언제든지 문제가 발생할 수 있고, 그렇게 되면 문제로 인한 피해가 훨씬 커질 수 있습니다.

화재 진압 시스템에 누수 문제가 있습니다

데이터센터 붕괴의 원인

대부분의 현대 데이터 센터는 고의로 또는 실수로 작동하더라도 장비가 손상되지 않도록 물을 사용하지 않는 화재 방지 시스템을 사용합니다. 그러나 많은 오래된 시설에서는 여전히 데이터 센터에 전통적인 화재 방지 시스템을 사용하고 있습니다. 많은 누수로 인해 대규모 정전이 발생했습니다.

비상 전원 차단이 실수로 활성화되었습니다.

데이터센터 붕괴의 원인

대부분의 데이터 센터에 설치된 높은 수준의 물리적 보안은 단순히 도둑을 저지하는 것이 아닙니다. 또한 데이터 센터의 작동 방식을 이해하지 못하는 직원을 피하기 위해 마련되었습니다. 예를 들어, 애플리케이션 관리자가 데이터 센터에 들어와 실수로 EPO(긴급 전원 차단)를 실행했습니다. EPO는 전체 시스템의 전원을 차단하는 큰 빨간색 버튼입니다. 그리고 분명히, 이해하지 못하거나 전문 지식이 없는 사람들에게는 그러한 혼란이 전적으로 가능합니다.

사이버공격, 디도스(Ddos)

데이터센터 붕괴의 원인

수년에 걸쳐 사이버 공격은 2010년 2%에서 2016년 22%로 증가하여 데이터 센터 장애의 주요 원인 중 하나가 되었습니다. 운영자 데이터 센터는 공격 위험을 조기에 감지하고 완화하기 위한 시스템을 구축하기 위한 조치를 취해야 합니다.

데이터센터는 대규모 DDoS 공격을 방어하기 어렵습니다 . 대부분의 ISP는 네트워크의 레이어 3과 4에서 일부 보호를 제공하지만 서비스에는 레이어 7에서 추가 보호가 필요하며 이는 특히 HTTP GET 또는 호출을 통해 유사한 공격을 통해 표적으로 삼을 수 있습니다. 방화벽, IPS/IDS, DDoS 등의 완화 서비스를 결합하여 트래픽을 다시 라우팅할 수 있습니다.

자연 재해

최근 폭풍과 홍수의 증가로 인해 데이터 센터에 심각한 중단이 발생할 수 있습니다. 2010년 미국에서는 250건이 넘는 자연재해가 발생했습니다. 통계에 따르면, 미국 뉴저지 주는 2012년 슈퍼폭풍 샌디로 인한 업무 중단으로 인해 639억 달러의 손실을 입었다.

데이터 센터 "붕괴" 사고로 인한 피해를 제한하기 위한 단계

정기 유지보수를 위한 가동 중지 시간을 세심하게 계획하고, 특히 교통량이 적은 기간 동안 센터 가동 중지 시간에 대해 고객에게 사전에 경고한다면 고객의 동정심이 더욱 높아지고 피해가 크게 줄어들 것입니다. 예상치 못한 상황이 발생했을 때 가장 큰 피해가 발생하며, 특히 장기간 지속될 경우 추가 문제가 발생합니다. 직원들이 효율적으로 업무를 수행할 수 있도록 회사 전체의 자원 시스템을 안정적으로 유지하여 IT 부서의 부담을 줄여줍니다.

구체적으로:

  • 데이터 백업: 데이터 센터 가동 중단이 발생하는 경우 시작할 때 데이터(더 중요한 것은 고객의 데이터)가 준비되어 있어야 합니다. 문제 해결을 시작하고 다시 실행하세요. 정기적인 백업을 수행하면 실제 붕괴 위험이 줄어듭니다. 회사에서 여유가 있는 경우 EMC의 VPLEX 제품군이나 VEEAM의 백업 및 복제 소프트웨어와 같은 일부 제품을 사용하면 자동으로 위치 백업으로 전환하여 다운타임을 최소화할 수 있습니다.
  • 서버 시스템의 정기적인 모니터링 유지: 모니터링은 정기적으로 수행할 수 있는 서비스이며 일반적으로 비용이 많이 들지 않습니다. 제3자 모니터링 서비스는 잠재적인 서버 가동 중지 시간을 알려주므로 문제를 즉시 처리할 수 있습니다.
  • 인적 오류 최소화: 서버 시스템이나 전기 배선을 작업하거나 주변을 돌아다닐 때 실수로 손상되지 않도록 주의하거나 전문 지식 없이는 알 수 없는 스위치를 만지지 마십시오. 기계 시스템에 액체를 가까이 두지 마십시오. 서버 업그레이드나 유지 관리가 필요할 때마다 데이터 보호 전문가에게 연락하고 센터의 규칙을 준수하세요.

소규모 센터부터 기업 규모의 시설 및 서비스 제공업체에 이르기까지 모든 데이터 센터는 사용자에게 안정적인 서비스를 제공하기 위해 100% 노력해야 합니다. 유지 관리 및 인적 요소 원칙에 따라 미래를 계획하는 데 시간을 투자함으로써 데이터 센터는 중단 문제의 가장 일반적인 원인 중 일부를 피할 수 있습니다.

더보기


Windows 10에서 Nvidia 드라이버를 복원(롤백)하는 방법

Windows 10에서 Nvidia 드라이버를 복원(롤백)하는 방법

최신 Nvidia 드라이버로 인해 문제가 발생하는 경우 이 문서의 단계에 따라 Windows 10에서 드라이버를 롤백하세요.

PC 및 VirtualBox에 Bliss OS X86을 설치하는 방법

PC 및 VirtualBox에 Bliss OS X86을 설치하는 방법

맞춤형 Android Bliss OS는 X86 노트북이나 PC에서만 사용할 수 있는 것이 아니라 스마트폰, 태블릿 등 다른 x86 기반 장치에도 설치할 수 있습니다. Bliss OS는 32비트 및 64비트 장치를 모두 지원합니다.

Windows 10/11에서 Microsoft Store 앱을 다시 등록하는 방법

Windows 10/11에서 Microsoft Store 앱을 다시 등록하는 방법

Store 앱이 열리지 않거나 정지되거나 제대로 작동하지 않는 경우 Microsoft Store 앱을 다시 등록하면 이 문제가 해결됩니다. 다음 가이드에서는 Windows 10에서 Microsoft Store 앱을 다시 등록하는 방법을 보여줍니다.

Netgear 라우터에서 DDNS를 설정하고 구성하는 방법

Netgear 라우터에서 DDNS를 설정하고 구성하는 방법

이 가이드는 Netgear 라우터에서 동적 DNS(DDNS)를 설정하고 구성하는 데 도움이 됩니다. 라우터에 내장된 동적 DNS를 사용하면 원격으로 네트워크에 액세스하기 위해 컴퓨터를 네트워크에서 지속적으로 실행할 필요가 없습니다.

Windows 10이 인터넷 대역폭을 낭비하는 6가지 방법

Windows 10이 인터넷 대역폭을 낭비하는 6가지 방법

Windows 10 개발자는 연결성과 상호 운용성에 중점을 둡니다. 이는 인터넷 연령 및 대역폭 요구 사항에 맞게 설계된 운영 체제입니다.

Windows 10/11에서 작동하지 않는 Windows PIN을 수정하는 8가지 방법

Windows 10/11에서 작동하지 않는 Windows PIN을 수정하는 8가지 방법

PIN을 올바르게 입력했는데도 Windows에서 PIN이 올바르지 않다고 표시하는 문제가 발생할 수 있습니다.

Foxiebro 악성코드는 어떻게 작동하나요? 그것을 제거하는 방법?

Foxiebro 악성코드는 어떻게 작동하나요? 그것을 제거하는 방법?

Adware BrowserModifier는 일상적인 사용 중에 사용자를 속일 수 있는 가장 악성 프로그램 중 하나입니다. 그리고 Foxiebro는 이들 중 1위를 차지하고 있습니다.

Windows 및 macOS에서 IMG 파일의 압축을 푸는 방법

Windows 및 macOS에서 IMG 파일의 압축을 푸는 방법

디스크를 구워본 적이 있는 사람이라면 대부분의 디스크 이미지 파일 형식에 익숙할 것입니다. IMG는 그 중 하나이며 운영 체제, 소프트웨어 또는 비디오 게임과 같은 프로그램을 압축하는 데 자주 사용됩니다.

무시하면 안되는 4가지 보안 경고

무시하면 안되는 4가지 보안 경고

인터넷에서 활동을 하다가 갑자기 웹 브라우저나 운영 체제에 경고가 나타나면 이에 주의하고 즉시 올바른 조치를 취하는 것이 중요합니다.

모든 브라우저에서 MyStartSearch를 제거하기 위한 지침

모든 브라우저에서 MyStartSearch를 제거하기 위한 지침

기술적으로 MyStartSearch는 바이러스가 아니며 컴퓨터에 설치할 수 있는 잠재적으로 원하지 않는 프로그램(PUP)일 뿐입니다. MyStartSearch 애드웨어가 시스템을 공격하면 인터넷에 접속하여 탐색할 때마다 팝업 창과 광고 배너가 화면에 표시됩니다.