KEDB(Known Error DataBase)는 원인과 해결 방안이 알려진 오류를 데이터베이스화한 것으로, IT 인프라 장애를 빠르게 조치하기 위해 활용됩니다. 장애 인지부터 문제 정의, 임시 해결 방안, 영구 해결 방안까지 이력을 쌓아두면 같은 장애가 다시 발생했을 때 원인을 반복해서 찾지 않고 더 신속하게 대응할 수 있습니다.
- KEDB는 원인과 해결 방안이 알려진 오류의 데이터베이스입니다.
- KEDB는 장애 대응 시간을 줄이고 운영 지식을 자산화합니다.
- 와치올은 장애 원인 분석부터 KEDB 관리까지 통합 지원합니다.
KEDB가 장애 관리에서 중요한 이유
IT 인프라 관리자라면 장애 관리를 위한 KEDB(Known Error DataBase) 관리를 빼놓을 수 없습니다.
KEDB는 장애가 발생했을 때 원인과 해결 방안을 빠르게 확인하고, 동일하거나 유사한 장애에 신속하게 대응하기 위해 활용됩니다.
이번 콘텐츠에서는 KEDB가 무엇인지, 어떻게 구축하고 활용해야 하는지 살펴보겠습니다.
Known Error DataBase(KEDB)의 개념과 필요성
KEDB의 사전적인 의미는 Known Error, 즉 알려진 오류의 데이터베이스입니다.
Known Error는 원인과 해결 방안이 알려진 오류를 의미합니다. 다시 말해 KEDB는 오류의 원인과 해결 방안에 대한 DB라고 할 수 있습니다.
KEDB가 있다면 관리자는 오류의 원인을 매번 처음부터 분석하고 해결 방안을 찾을 필요 없이, 기존에 정리된 정보를 바탕으로 바로 조치할 수 있습니다.
이를 통해 IT 인프라 장애 시간을 줄이고, 서비스 중단으로 인한 업무 영향을 최소화할 수 있습니다.
반복되거나 유사한 장애가 발생했을 때 원인과 조치 방법을 빠르게 확인하여 장애 대응 시간을 줄이는 것입니다.
KEDB 구축 과정
KEDB를 만들기 위해서는 IT 장애가 발생하게 된 문제를 정의하고, 문제의 원인과 임시 해결 방안까지 찾아야 합니다.
이 과정을 통해 하나의 Known Error Data를 확보할 수 있습니다.
KEDB가 있으면 장애에 빠르게 대응할 수 있기 때문에, 장애 원인을 찾는 과정에서부터 KEDB 구축은 시작됩니다.
장애의 원인을 찾는 것에서부터 KEDB 구축은 시작됩니다. 출처: KBS
ERP 접속 장애 예시로 보는 KEDB 구축
예를 들어 사내 ERP 접속이 되지 않는 장애가 발생했다고 가정해보겠습니다.
1단계는 장애 인지입니다. 이 단계에서는 사내 ERP 접속이 안 된다는 현상을 확인합니다.
2단계는 장애 원인, 즉 문제를 정의하는 단계입니다. ERP 접속 장애의 원인이 ERP 서비스의 가용 메모리 부족이라면, 이것을 장애의 원인이 되는 문제로 정의합니다.
- 1단계 장애 인지: 사내 ERP 접속이 되지 않는 현상을 확인합니다.
- 2단계 문제 정의: ERP 서비스의 가용 메모리 부족을 장애 원인으로 정의합니다.
- 3단계 임시 해결: 힙(heap) 메모리를 확장해 서비스 장애를 우선 완화합니다.
- 4단계 원인 추적: APM을 통해 메모리 미반환 현상을 확인합니다.
장애는 사내 ERP 접속이 안 되는 현상처럼 사용자가 직접 경험하는 문제 상황을 의미합니다. 장애의 원인을 문제라고 하며, 이 예시에서는 ERP 서비스의 가용 메모리 부족이 문제에 해당합니다.
중요한 것은 장애의 원인이 되는 문제가 무엇인지 정확하게 찾는 것입니다.
임시 해결 방안과 영구 해결 방안
메모리 부족 현상(Out of Memory)은 일반적으로 힙 메모리 영역의 문제인 경우가 많기 때문에, 임시 해결 방안으로 힙 메모리를 확장할 수 있습니다.
하지만 임시 조치만으로는 같은 문제가 다시 발생할 수 있습니다. 따라서 메모리 부족이라는 문제의 원인을 추적해야 합니다.
장애 발생 하루 전 와치올 APM에서 메모리 미반환 경보 알람을 제공했다면, 이를 단서로 메모리 미반환으로 인해 메모리 누수가 발생했고 그 결과 메모리 부족 현상이 발생했다는 점을 추적할 수 있습니다.
이후 와치올 APM의 히스토그램과 힙 덤프 기능을 활용해 메모리 미반환을 일으키는 소스코드를 찾아 수정하면 영구 해결 방안을 수행할 수 있습니다.
장애 인지, 문제 정의, 임시 해결 방안, 원인 추적, 영구 해결 방안이 정리되면 하나의 Known Error Data로 축적할 수 있습니다.
KEDB와 KMDB의 관계
문제의 원인과 해결 방안까지 정리되면 해당 문제는 Known Error, 즉 원인과 임시 해결 방안이 알려진 오류가 됩니다.
이제 KEDB를 구축할 수 있는 한 개의 데이터를 확보한 것입니다.
KEDB를 만들기 위한 Known Error 데이터는 장애 인지, 문제 정의, 문제의 원인 규명 및 임시 해결 방안 도출의 과정을 거쳐 얻을 수 있습니다.
이처럼 KEDB를 구축하고 관리하는 일뿐만 아니라, 장애 발생부터 KEDB 구축까지의 전 과정을 관리하는 것이 중요합니다.
그래서 장애와 관련된 모든 이력 정보를 조직의 지식 자산으로 관리하는 지식 관리, 즉 KMDB(Knowledge Management DataBase) 개념으로 확장해 관리하기도 합니다.
KEDB 구축부터 장애 조치까지 쉽게 하는 방법
KEDB의 목적은 장애를 빠르게 처리하는 것입니다. 따라서 하나의 솔루션에서 장애의 원인을 인지하고, 해결 방안까지 확인할 수 있는 기능은 매우 중요합니다.
EMS(Enterprise Management System)라고도 불리는 IT 통합운영관리 솔루션은 관리자가 장애의 원인을 찾기 쉽도록, 장애의 원인이 되는 문제를 간편하게 찾아주는 역할을 합니다.
예를 들어 서버의 가용 메모리 부족과 같은 문제를 알람을 통해 관리자에게 알려주고, 성능 정보와 이력 데이터를 함께 제공하여 원인 분석에 활용할 수 있도록 지원합니다.
와치올 기반 장애 원인 분석과 KEDB 통합 관리
와치올로 장애 대응도 빠르게
와치올 EMS는 문제 또는 이벤트에 대한 선제적인 인지부터 KEDB까지 통합 관리합니다.
머신러닝을 통해 문제를 사전 감지하고 알람을 제공하기 때문에, 관리자는 문제를 선제적으로 인지하고 조치할 수 있습니다.
문제를 조치한 임시 해결 방안이나 영구 해결 방안을 기록하여 문제 발생 이력부터 조치 이력까지 하나의 데이터로 관리할 수 있습니다.
여러 개의 문제가 장애의 원인인 경우에는 여러 문제를 묶어 하나의 장애 기록으로 관리할 수 있습니다.
와치올 EMS의 문제와 KEDB 연계 장애 대응
와치올은 장애의 원인이 되는 문제 또는 이벤트가 발생하면 알람을 통해 관리자에게 알려주는 동시에, 해당 문제와 연관된 KEDB도 함께 볼 수 있도록 제공합니다.
문제와 KEDB를 통합 관리하기 때문에 관리자가 따로 KEDB를 찾을 필요 없이 바로 조치 정보를 확인하고 장애에 대응할 수 있습니다.
또한 와치올 EMS는 20년간 IT 통합운영관리 전문기업으로 쌓은 노하우를 활용한 자체 KEDB를 함께 제공하여 고객사의 IT 인프라 안정성 강화에 기여합니다.
KEDB는 장애 대응 속도를 높이는 운영 지식입니다
KEDB는 단순한 오류 목록이 아니라, 장애 원인과 조치 방법을 축적한 운영 지식입니다.
장애가 발생할 때마다 같은 분석을 반복하지 않고, 기존의 문제 정의와 조치 이력을 활용하면 장애 대응 시간을 크게 줄일 수 있습니다.
와치올은 장애 원인 분석, 성능 이력, 조치 이력, KEDB 연계를 하나의 솔루션에서 제공하여 IT 운영자가 더 빠르고 안정적으로 장애에 대응할 수 있도록 지원합니다.
KEDB 기반으로 장애 대응 속도를 높이고 싶다면,
와치올 EMS 기능을 확인해보세요.