정교해지는 서비스들로 인해 말씀하신 문제점들이 발생하는데요. 이런한 문제들은 Splunk Singal FX와 VictorOps를 통해 쉽게 원인을 찾고 해결 하실 수 있습니다.
"Observability 해결과정"에서 설명드린 것 처럼, 3가지 요소(Metric, Trace, Log)를 좀 더 세밀하게, 더 짧은 주기로 모니터링해야 합니다.
SignalFX는,
- 특허받은 스트리밍 아키텍처를 이용하여 최소 1 Second 레이턴시의 NoSample 실시간 모니터링을 가능케 합니다.
- Historical Baseline또는 Sudden Change 와 같은 정교한 경보 알고리즘과 20 개 이상의 분석 기능을 통해 경고 스톰없이 정확한 경보가 가능합니다
기술이 좋아서 원이 잘 찾아지면 좋은것이죠. 하지만 연계된 서비스 문제가 발생하면 업체들 마다 자기문제 아니라고 해서 장애 처리 시 너무 힘듭니다. ㅠㅜ
동감합니다. 이는 각 인프라 영역마다 자기만이 보는 뷰를 통해 데이터를 분석하기 때문에 발생하는 현상 중 하나입니다. 그렇기 때문에 전체 인프라에 대한 통합된 관제 솔루션이 필요하고, 기존에 인프라 모니터링 솔루션을 가지고 있어도 splunk 를 도입하는 이유 중 하나입니다.
[질문] 서비스가 마이크로화 된다는 말은 더 세밀하고 다양해지는데요. 그래서 모니터링은 필수겠지만 실제 운영을 하다보면 서비스들이 많이 연계되어 있어 장애 원인 찾기는 더 어려워지는것 아닌지요?