다양한 metric의 필요성
얼마 전 신규 보안 제품 활용 교육 의뢰가 있었다. 엘라스틱 기반으로 개발했다는 설명을 듣고 어렵지 않겠다 싶어 수락. 그런데 제품을 살펴보니 데이터 집계 유형이 'Count' 밖에 없네?
같은 데이터를, 형태를 바꿔가며 다양하게 바라보는 과정을 거치면 자연스럽게 데이터에 대한 이해도를 높일 수 있다.
응답코드 500 상태의 로그 Count와 변수 길이에 대한 Sum 메트릭의 변화는 어떤 차이를 말해주는 것일까?
로그 Count와 접속 IP의 Cardinality(Unique Count) 메트릭 차이를 통해 알 수 있는 것은 무엇일까?
해당 제품으로는 이런 사례 제시가 불가능했다. 뒤늦게 고사하려 했으나, 아는 분 부탁이라 그냥 진행(..) 결국 VIM, 정규표현식과 엑셀을 이용한 데이터 전처리/시각화 교육만 하다 왔다.
특정 제품 교육인데 해당 제품이 등장하지 않는, (그렇다고 엘라스틱을 활용하기도 난처한) 돈 받고 하는 입장에서 매우 매우 어색한 교육. -_-
집계 유형에 'Unique Count'라도 추가할 수 없느냐 물었는데 난색을 보이더라. 개발은 잘 모르지만 집계 유형에 따른 성능 편차가 꽤 있는 모양. 그저 성능 문제일까?
사실은 돈 문제 그리고
사용자의 의지 문제. 연말 예산 소진하느라 급하게 개발된, 예산 규모도 뻔한 상황에서 적극적인 사용 의지 없으면 그 해 실적 하나 보태주고 그렇게 기억에서 사라지고 끝날 확률 99%.
예산 규모가 크다 한들, 사용 의지가 부족하면 상황은 별로 달라지지 않는다. 수년 전 엘라스틱 형님뻘인 solr 기반의 SIEM 구축 과정을 지켜본 적이 있었다. 그때 물 건너온 빅데이터에 대한 열기가 하도 뜨거워서 발주 담당자들이 원서 끼고 다니면서 공부할 정도.
하지만 그렇게 구축된 제품은 그때나 지금이나 Count 집계만 지원하더라. 수단이 목적이 되어버린 흔한 케이스
왜 기능을 추가하지 않을까? 사용자가 요구하지도 않는 기능 때문에 일부러 어려운 길로 갈 필요는 없으니까. 결정적으로 보안 분야에서 개발자의 역할은 의외로 크지 않다.
사용자는 왜 요구하지 않을까? 장비 활용보다는 구축이 훨씬 인정받기 쉬우니까.
자사에는 적합하나 갖추기 어렵고 상급자를 설득하기도 어려운 자체 시스템을 구축하려고 노력하기보다는 그 명성을 의심받지 않을 고급제품을 구입해 쓰려고 하는 성향을 보이게 된다
그렇게 구축된 제품은 사용자의 자극을 받을 일이 없고, 그 상태에서 사용자 역량과 본연의 목적은 영원히 제품 한계에 갇혀버린다. 그래서 사용자 의지가 중요. 좋은 제품도, 나쁜 제품도 결국 사용자가 만든다.
좋은 시나리오는 충분한 분석 경험에서 나온다. 분석 경험은 데이터가 있어야 쌓을 수 있다. 그런데 그 데이터는 어디에 있을까?