%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D

2020-11-16
단순 카운트 변화 추이는 로그의 상태를 정확히 표현하지 못한다. 다양한 상태 정보가 섞여 있는 상태에서 개수의 변화가 어떤 상태를 특정하는지 알기 힘들다는 얘기. count 추이(12~25일) 그래서 강조하는 게 상태별 고유성 확보를 통한 데이터 해상도 변경 및 다양한 Metric 활용. 카운트 추이로는 알 수 없었던 19일의 상태 변화가 해상도 및 Metric 변경을 통해 드러난다. URL 고유 개수 백분위 90% 의 변수 길이 이런 결과를 얻기 위해 데이터를 분류하고, 고유성을 확보하고, 효과적인 지표를 개발하는 데 많은 시간을 투자한다. 그러나 그런 노력을 들이고도 정작 쌓인 데이터를 분석하지 않는다면 모든 노력은 물거품이 되고 만다. 반면 정말 단순하게 로그 개수만 센다 해도 매일, 매 시간, 매 분 데이터의 변화를 궁금해한다면 그 데이터에서 의미를 찾아낼 수 있다....
2019-07-21
구글 트렌드로 미국 인종차별 실체를 밝혔다가 구글에 채용됐다는 세스 스티븐스 다비도위츠의 2017년 저서. 제목에 끌려서 골랐는데 구글 검색 데이터가 사람들 예측에 유용하다는, 그리 새롭지는 않은 내용. 대신 저자 유머 코드가 나랑 좀 맞아서 지루하지 않게 읽을 수 있었다(..) 이 책은 저자가 구글 트렌드로 인종차별 지도를 그리면서 시작한다. 2008년 버락 오바마의 대통령 당선은 유구했던 미국 인종차별주의 퇴색의 방증이라는 의견이 많았었다. 그런데 웬걸, 같은 기대를 했던 저자가 구글 검색어를 뒤져보니...
2017-03-14
본글은 R의 모든 요소를 세세하게 설명하는 것이 아니라 필요한 것만 빠르게 익히는고 다른것들은 나중에 찾아볼 수 있는 능력을 기르는데 목적이 있다. 이유는 데이터마이닝/머신러닝이라는 목적성을 가지고 보통 R을 접할텐데 이분들이 언어를 시간을 쏟기보다는 데이터 모델링 등 보다 중요한 부분에 집중하는게 낫다고 생각한다. 따라서 독자들이 이 관점에서 조금이라도 도움이 되었으면 하기 때문이다....
더보기