본문 바로가기

Gremlin

(11)
데이터 센터 중단의 장기화 2022.10.25 데이터 센터 중단의 장기화 원문보기 ‍ Uptime Institute에서 발표한 최신 연례 설문조사인 2022년 데이터 센터의 가동 중지 시간에 대한 보고서를 보면 데이터 센터의 가동 중지 시간의 빈도는 크게 변화하지 않았으나 가동 중단 시간이 점점 더 길어지고 그에 따른 비용도 증가하고 있다는 것을 확인할 수 있습니다. 데이터 센터 중단의 추세와 관련한 자세한 내용 살펴보겠습니다. ‍ ‍ (1) 데이터 센터 가동 중지의 시간이 장기화되는 것이 일반화되고 있습니다. 지난 5년 동안 데이터 센터의 중단과 완전한 복구에 소요되는 시간은 계속해서 크게 늘어났으며 2021년에는 중단 사태가 발생하고 복구하기까지 24시간 이상 소요된 비율이 약 30%에 달했습니다. (2) 데이터 센터가 중단되..
시스템 신뢰성을 측정·개선하기 위한 4가지 테스트 2022.10.25 Four tests to measure and improve reliability 원문보기 ‍ 시스템 관련 사고를 방지하는 가장 좋은 방법은 프로덕션 단계에 들어가기 전에 시스템을 테스트하여 장애 상황에 대비하는 것입니다. 즉, 시스템의 안정성, 다시 말해 이상적인 조건보다 낮은 조건에서도 시스템을 사용할 수 있다는 점을 얼마나 신뢰할 수 있는지 확인하도록 명시적으로 설계된 테스트를 실행하는 것입니다. 문제는 이러한 테스트를 실행하는 방법과 처음에 실행할 테스트를 파악하는 것입니다. Gremlin은 서비스 단계에서 실행할 수 있는 사전에 구축된 안정성 테스트 세트를 제공합니다. 일반적인 장애 모드에 대한 복원력을 검증하고 서비스가 안정성에 대한 모범 사례를 충족하는지 확인하기 위해 이..
오에스씨코리아 그렘린, 산업계 IT 장애예측 지원한다 2022.10.21 오에스씨코리아 그렘린, 산업계 IT 장애예측 지원한다 원문보기 오에스씨코리아가 카오스 엔지니어링 솔루션 '그렘린'을 통해 국내 기업의 IT 장애 예측 환경을 지원한다. 21일 업계에 따르면 회사는 글로벌 카오스 엔지니어링 기업 그렘린과 협력해 한국 산업계에 그렘린 솔루션을 지원하고 있다. 솔루션은 클라우드 환경에서 마이크로서비스 아키텍처(MSA)로 구성된 시스템 구성요소에서 발생하는 오류를 시뮬레이션하고 시스템 전체에 끼치는 영향을 시험해 관련 대응책을 지원한다. 장애 상황을 미리 파악하고 선제적으로 대응, 기업 MSA 전환 과정을 보다 원활하게 지원하는 역할을 한다. 이제응 오에스씨코리아 대표는 “카오스 엔지니어링은 백신에 비유할 수 있다”며 “코로나19 상황에서 백신을 맞고 일상생..
OSC코리아, 실무자 대상으로 '그렘린 카오스 엔지니어링' 워크숍 개최 2022.05.03 OSC코리아, 실무자 대상으로 '그렘린 카오스 엔지니어링' 워크숍 개최 원문보기 ‍ ‍ 디지털트 트랜스포메이션 컨설팅 기업인 오에스씨(OSC)코리아는 '그렘린의 카오스 엔지니어링(카오스 몽키)' 워크숍을 강남구 메디톡스 빌딩에서 오는 12일 국내 최초로 개최하고 소개한다고 3일 밝혔다. 오에스씨코리아는 카오스 엔지니어링 플랫폼 기업 그렘린의 국내 파트너이다. 그렘린은 '서비스형 장애(Failure as a Service)' 서비스를 안전하게 지원한다. 카오스 엔지니어링은 시스템이 어떻게 반응하는지 보기 위해 제어 가능한 수준의 장애를 인위적으로 발생시켜 시스템의 취약점을 찾아내는 방법론이다. 작은 하나의 서비스에 발생한 장애가 미치는 영향력을 가늠해 보기 위해, 그리고 시스템이 발생 ..
Gremlin Update 2022.01.24 Gremlin Update 원문보기 ‍ ‍ Status Check는 시나리오 이전, 진행 중, 이후에 시스템 상태를 확인합니다. 시스템이 비정상적이거나 응답하지 않는 경우 시나리오를 자동으로 중지할 수 있죠 ‍ ‍ ‍ End-Point는 Datadog , New Relic , PagerDuty 또는 선호하는 모니터링 도구 와 같은 타사 도구에서 가져올 수 있습니다. 인증여부에 관계없이 서비스 상태에 공개적으로 액세스 할 수 있는 End-Point일 수도 있습니다. 그렇다면 비공개로 호스팅되거나 시스템을 노출하지 못하도록 하는 엄격한 네트워크 보안 정책이 있는 경우는 어떻게 상태를 체크할 수 있을까요? 보안상의 이유로 End-Point를 외부에 노출하기 어려운 경우에는 Integrati..
Chaos Engineering 영역에서 Observability (관측 가능성) National Australia Bank 사례 원문보기 사이트 신뢰성 훈련, 구체적으로 Chaos Engineering이 최근에 대세가 되었으며, Netflix와 Google 엔지니어링팀에서 작은 웹사이트의 SRE 엔지니어에 이르기까지 신뢰성은 성공의 중요한 척도입니다. 신뢰할 만한 서비스와 제품은 관측 가능한 데이터를 요구할 뿐 아니라 분석 및 실행 가능한 통찰력을 필요로 합니다. Chaos Engineering 훈련에 있어 관측 가능성은 중요한 역할을 합니다. 가설에 대한 검증, 정상상태의 동작, 실제 환경의 이벤트에 대한 모의실험, 공격 반경 등이 모두 관측 가능성이 중요한 역할을 하는 실험 단계입니다. 단순히 말하자면, ChaosEngineering – 관측 가능성 = Chaos(혼돈)라고 할 ..
[클라우드 임팩트 2021] 그렘린-OSC, “백신 맞듯 카오스 엔지니어링으로 장애 선제 대응” 2021년 06월 18일 디지털데일리 원문보기 [디지털데일리 백지영기자] “마이크로 서비스 아키텍처(MSA) 등 매우 복잡하게 구축된 시스템에서 전통적인 테스팅은 충분치 않습니다. 엔지니어에게 실제 장애 상황에 대응할 기회를 줘야 합니다, 10년 전 넷플릭스에 ‘카오스 몽키’가 만들어진 이유이기도 합니다.” 17일 디지털데일리 DD튜브에서 개최된 ‘클라우드 임팩트 2021’ 버추얼 컨퍼런스에서 콜튼 앤드러스 그렘린 최고경영자(CEO)는 “마치 코로나 상황에서 백신을 맞고 예전과 비슷한 생활로 돌아갈 수 있듯, 우리가 배포하는 시스템에도 백신을 주입해 장애를 미리 테스트해 대응할 수 있는 방법을 가르치는 것이 필요하다”고 강조했다. 그렘린은 장애를 시뮬레이션하고 이에 대한 취약적을 분석해 대응책을 마련해주..
비대면 디지털 전환과 케이오스 엔지니어링 백신 개발과 보급이 박차를 가하고 있지만, 코로나19 아직도 현재 진행형이다. 크게는 전세계 경제, 교역, 관광등의 산업이 정지되었고 작게는 모든이들의 평범한 일상을 앗아갓다. 지금 이 순간에도 3차 유행이라고 불려질만큼 전세계적으로 확진자가 폭증하고 있고 세계 각국들은 봉쇄령이라는 최후의 카드를 꺼내들고 있다. 우리나라도 코로나19 유행 초기에는 확진자 수 세계 2위를 기록하기도 했지만 검사-추적-치료를 골자로한 소위 말하는 K-방역으로 이동제한이나 의료시스템의 붕괴 없이 코로나 확산을 통제하고 있어 세계적으로 주목 받고 있다. 외신들로부터 모범적이라고 극찬받고 있는 현재 우리나라의 감염병 대응 시스템은 2015년 메르스 방역 실패의 교훈으로 탄생되었다고 볼수있다. 186명이 감염되고 그 중 38명이 ..