본문 바로가기

클라우드 네이티브

(2)
시스템 신뢰성을 측정·개선하기 위한 4가지 테스트 2022.10.25 Four tests to measure and improve reliability 원문보기 ‍ 시스템 관련 사고를 방지하는 가장 좋은 방법은 프로덕션 단계에 들어가기 전에 시스템을 테스트하여 장애 상황에 대비하는 것입니다. 즉, 시스템의 안정성, 다시 말해 이상적인 조건보다 낮은 조건에서도 시스템을 사용할 수 있다는 점을 얼마나 신뢰할 수 있는지 확인하도록 명시적으로 설계된 테스트를 실행하는 것입니다. 문제는 이러한 테스트를 실행하는 방법과 처음에 실행할 테스트를 파악하는 것입니다. Gremlin은 서비스 단계에서 실행할 수 있는 사전에 구축된 안정성 테스트 세트를 제공합니다. 일반적인 장애 모드에 대한 복원력을 검증하고 서비스가 안정성에 대한 모범 사례를 충족하는지 확인하기 위해 이..
사용중인 K8s 시스템, '지금 당장' 안정성 검증해야 하는 이유 [ allshowTV x OSC Korea ] 여러분이 사용하고 계시는 K8s 시스템, 성능은 안정적인지 장애 요소는 없는지, 불필요한 리소스는 없는지 진단해보신 적이 있나요? ‍ 사전에 K8s 시스템의 안정성을 진단하지 않으면 성능 이슈, 장애 발생, 불필요한 비용 발생 등 다양한 문제가 야기될 가능성이 높아집니다. Production 환경 수준의 부하를 자동으로 생성하여 성능 이슈를 사전에 점검해주는 Speedscale 솔루션을 이용해 성능 진단이 가능하고, Chaos Engineering 기법의 Gremlin으로 각종 리소스 장애를 유도하여 구성상 오류를 점검해 대규모 장애요소를 사전에 방지할 수 있습니다. 또, 불필요한 리소스나 과도한 리소스 사용을 진단하고 최적화 방안 제시해주는 Kubecost를 통해 비용을 진단할 수 있습니다. ‍ 이번 ..