Thick data

맥킨지, 구글 등 쟁쟁한 이력을 자랑하는 백영재 문화인류학 박사의 2023년작. thick data라는 낯선 용어가 시선을 끈다. 두꺼워? 데이터가?

뭔 말인가 했더니 인류학에서 뭔가를 관찰할 때 고유 맥락과 상황을 포함시켜 연구 대상을 더 구체적이고 풍부하게 묘사하는 thick description에서 따온 말이라고.

빅데이터는 표면상으로 드러난 데이터, thick data는 표면에서는 보이지 않는 배경과 맥락을 포함한 데이터라는게 저자의 설명.

빅데이터는 '무엇을 얼마나 '에 관해서만 설명할 수 있다면, thick data는 '어떤 맥락에서 왜 '에 관해 말해 준다...

오직 thick data만이 빅데이터가 매끈하게 정규화, 표준화하느라 의도적으로 외면한 인간의 실제 경험, 진짜 얼굴을 보여준다 (14페이지)

그래도 모르겠는데?

구체적으로는 연구 대상 공간에 직접 뛰어들어 관찰하는 '참여관찰'을 통해 얻을 수 있는 데이터가 thick data라는 것. 결국 현장에서 몸빵으로 체득한, 걸러지지 않은 원시 데이터라는 얘기.

저자는 인류학이 사람과 문화를 연구함으로써 인류가 어디쯤 와 있고 어디로 갈지에 대한 통찰력을 제공하는 학문인만큼 기업의 현재를 진단하고 미래를 예측하는 데 효과적이라는 주장과 함께 현장을 외면하는 바람에 실패한 다양한 데이터 분석 사례를 소개한다.

노키아처럼 사람들이 아이폰과 같은 고가의 스마트폰을 구매할지 아닐지 예측하는 데 빅데이터에만 의존하면 잘못된 의사 결정을 내리게 될 위험이 커진다 (62페이지)
­
서브프라임 모기지 상품 대부분 엉터리... 개 이름으로 대출받은 사례까지 마주한 그들은 금융 시스템이 곧 붕괴하리라 직감... 월스트리트도 내다보지 못한 미래를 이들은 어떻게 예측할 수 있었을까. 이들은 현장을 발로 뛰어 스토리를 듣고 thick data를 모았다... 숫자로 채워진 객관적 보고서가 아니라 사람들의 생생한 스토리에서 얻은 직관적 통찰력 (66페이지)

결국 기본이 중요하다, 튜닝의 끝은 순정 뭐 이런 얘기. 스티브 잡스로 대표되는 인문학 열풍 때 나왔으면 좋았겠다 싶은 책인데, 전체적으로 전달하려는 메시지나 구성이 '알고 있다는 착각'과 너무 유사해서 별 하나 깎음(..)

­

데이터 분석과 thick data

저자는 thick data를 통해 데이터 분석 과정에서 직접적인 데이터 경험의 중요성을 강조한다. 그런데 용어만 다를뿐 thick data, 데이터 분석 분야에서 이미 널리 쓰이고 있는 개념인데?

데이터 좀 친다는 분들은 이미 smart data 도출을 위해 필요한 thick data의 중요성, 현장 경험으로만 얻을 수 있는 데이터 이해도의 중요성을 알고 있었던 것. 인문계든 이공계든 목표가 같으면 어떻게든 통하는 모양.

­

thick data 다음엔

데이터에서 통찰력을 얻기 위해 저자는 총체적 시야가 필요하다고 얘기한다. 종합적인 상황 판단이 가능해야 한다는 것. 그리고 제시되는 총체적 시야를 키우기 위해 필요한 세 가지 요소. (48페이지)

첫째는 전문성. 자신의 전문 분야를 단단하게 다져두면 이를 중심으로 다른 분야까지 내다보고 때로는 방향을 전환하는 일도 가능.
 
둘째는 호기심. 내 전문 분야가 어느 분야와 연결되는지... 영향력이 어디까지 미칠 수 있는지 끊임없이 호기심이 일고 궁금해야 한다. 호기심은 완전히 새로운 기회를 만나고, 그 기회를 비즈니스로 연결하는 데도 결정적인 역할을 한다.
 
셋째는 커뮤니케이션. 총체적 시야는 결국 관계를 파악하고 연결하는 능력... 어떤 대상을 세세하고 깊게 들여다볼 줄 알고, 그것이 다른 요소와 어떻게 연결될지 상상하는 힘.

개인적으로는 셋 중 호기심이 가장 중요하다고 생각한다. 저 하기 싫으면 평양감사도 그만인 게 사람인지라 남이 시키는 일에 통찰력을 발휘하기는 쉽지 않다. 물론 돈을 너무나도 많이 주면 얘기가 좀 달라질 수는 있음.

­

하지만 내가 궁금하면

데이터를 잘 모르는 상태에서 다짜고짜 특정 툴(머신러닝이든 뭐든)로 분석을 시도하는 것은 장갑을 끼고 사물을 만지는 것과 같다. 감각이 둔해지는 것은 둘째치고, 왜곡된 질감을 느끼기 십상. VIM과 엑셀을 이용해서 데이터를 직접 만져보기를 권하는 이유.

youtube.com/watch?v=epbqwbbeVgo&t=1538s

 ­

데이터가 궁금하지 않은 이에게 이런 데이터 노가다는 그저 힘들고 지겹고 의미 없는 반복 작업일 뿐이다. 하지만 궁금증을 가진 이는 데이터를 한땀한땀 뜯어보는 과정에서 몰랐던 데이터의 의미를 알게 되고, 호기심이 풀리는 경험을 하게 된다. 재미있을 수밖에 없음.

이런 과정을 통해 데이터를 세세하고 깊게 들여다볼 줄 알게 되면, 즉 데이터 이해도가 높아지면 그 이해도를 바탕으로 다양한 상상력을 발휘하는 게 가능해진다. 데이터를 새로운 관점으로 바라봄으로써 익숙해져서 놓치기 쉬운 데이터의 변화를 찾아낼 가능성이 높아진다는 얘기.

­

결국 모든 지적 활동의 가장 큰 동기는 호기심. 그래서 궁금하지 않은 데이터 분석은 성공하기 어렵다. 현장 몸빵을 감수하면서까지 thick data를 얻어야 하는 동기가 빈약하니까. 기억에 남는 문구를 남긴다.

본사는 컨트롤 타워가 아니라 서포터가 돼야 한다 (35페이지) 
군사 작전을 방불케 하는 경제개발 5개년 계획이 무려 다섯 번, 총 25년간 시행됐다. 인류학에서는 한 세대를 30년으로 잡는다. 속도와 효율성을 최고의 덕목으로 숭배하는 세상을 25년, 즉 한 세대가 경험했으니 수십 년이 흐른 지금도 '빨리빨리 문화 '가 우리 의식 저변을 지배하는 DNA가 돼버린 것 (44페이지)
빅데이터는 전력망, 물류, 유전 암호(DNA 말하는 건가?)처럼 변동 없고 안정적인 체계를 수량화하는 데는 유용하지만, 유동적이고 불안정한 체계, 가령 인간과 관련한 문제에는 그렇지 못하기 때문 (62페이지)
변수를 제거함으로써 패턴을 식별하는 빅데이터는 불확실성이 적을 때 유리하고, 반대로 불확실성이 클 때는 복잡성을 수용하는 thick data가 도움이 된다 (65페이지) 
사람의 뇌는 종종 편안함을 안전함과 혼동한다고 한다. 기업문화도 이와 비슷해서 익숙함을 안전함으로, 혁신과 변화는 위험 요소로 받아들이기 쉽다 (130페이지) 
조직문화는 누가 상을 받고 승진하고 해고되는지에서 여실하게 드러난다 (137페이지)

Popit은 페이스북 댓글만 사용하고 있습니다. 페이스북 로그인 후 글을 보시면 댓글이 나타납니다.