공부하고 기록하는, 경제학과 출신 개발자의 노트

세줄요약 독서

MS 본사 데이터 과학자가 알려주는 헬로 데이터 과학

inspirit941 2017. 11. 28. 17:42
반응형


데이터 분석을 할 때 생각해야 할 것들,목적이 무엇인지 / 어떤 기준으로 데이터를 수집해야 할지 / 분석은 어떻게 진행해야 하는지 / 필요한 지식에는 어떤 것들이 있는지 이정표를 제시하는 1차 안내서

데이터 사이언티스트에게 필요한 역량이 무엇인지 본인의 사례를 들어 소개하는 책. 

소설처럼 쉽게 읽히는 책은 아니지만, 데이터가 무엇이고 어떻게 분석하는지 큰 틀을 보여준다.


171124

책을 읽고 생각이 많아지는 경우가 있고, 반대로 책을 읽고 생각이 수렴하는 경우가 있다. 보통 전자는 삶의 가치관을 돌아보게 하거나 대상을 바라보는 새로운 시각을 접했을 때고, 후자는 책을 통해 필요한 지식을 상당부분 충족했을 때다. 몰랐던 지식이나 정보를 얻었으니, 다음 단계로 나아가기 위해서는 어떤 것들이 필요한지 계획을 세우게 된다. 계획이 점점 형태를 갖춰갈수록 생각의 범위는 한 곳에 집중한다. ‘이 부분을 하면 되는구나’는 확신이 들기 때문이다.
  
짧지만 내용이 알차다. 데이터 분석을 위해 필요한 질문이 무엇인지, 어떤 데이터가 좋은 데이터인지, 데이터 분석의 기본 절차는 어떠한지 나와 있다. 분석 도구로는 가장 접하기 쉬운 엑셀과 통계 프로그램 패키지 R의 사용법을 실제 예제 데이터를 활용해 알려준다. 통계적 추론의 기본이 되는 통계 지식들; 모수적 방법과 중심극한정리, 비모수적 방법과 표본 재추출법, 표본분산과 표본에러, 신뢰구간 검정과 같은 핵심 기초까지도 다룬다. 이 책 내용 하나만으로 지식을 알았다고 하긴 어려워도, 다른 책으로 더 공부하고자 할 때 기본을 다져 놓기에는 충분했다고 생각한다.
  
데이터 분석에 관심이 있어 이것저것 찾아보고 공부하던 입장에서
책의 유용했던 내용을 요약 정리했다.




다른 분야도 비슷하겠지만, 데이터 분석의 모든 절차에서 가장 중요한 것은 “‘왜’ 데이터 분석을 해야 하는가”이다. 이 질문으로 ‘과연 내가 해결하고 싶은 문제가 데이터 분석으로 해결이 가능한지’부터 생각할 수 있다. 무엇을 알고 싶은지 목적이 확고해야 데이터 수집을 위한 설계를 제대로 할 수 있고, 불필요한 데이터를 수집하는 시간낭비를 덜 수 있다.
  
'왜 데이터분석을 해야 하는가'를 정했다면, 데이터를 수집하고 분석하는 단계로 나아가야 한다.

데이터 수집은 이 책에서 크게 다루지는 않았지만, 공공 데이터를 활용하거나 개인이 스스로 데이터를 수집하는 방법 등을 이야기했다.

데이터 분석 단계는 크게 세 가지로 나눌 수 있다.
1. 데이터를 탐색하고, 다양한 패턴을 발견하며 가설을 세우고 수정하는 단계 - 탐색적 데이터분석
2. 가설을 다양한 실험으로 검증하는 단계 - 통계적 추론
3. 현상을 예측하는 단계 - 기계학습 (이 책에서는 다루지 않았다.)
  

먼저 데이터를 잘 이해하고 검정하여 탐구할 가치가 있는 가설을 세우고, 가설을 기반으로 수집한 데이터를 통해 가설을 검증한다.
특정한 결론을 도출하기 위한 것이 아니라, 가설을 검증하는 것 외에도 데이터에서 최대한 많이 이야깃거리를 뽑아낸다. 각 분야마다 데이터 종류와 특징이 다르다보니, 명확한 성공요건이나 절차가 있는 것은 아니다. 단, 거쳐야 할 최소한의 단계는 세 가지다.

- 원본 데이터 자체
- 요약 통계값
- 시각화

데이터 개관하기 - 원본 데이터를 중심으로 거치는 단계. 데이터 자체에 문제는 없는지, 속성 항목은 제대로 되어 있는지, Na값이 어디쯤에 많이 있는지, 속성별 데이터항을 확인하는 단계다. 나무를 들여다보는 단계.
  
개별속성 분석하기 - 통계와 시각화 중심으로 거치는 단계. 각 속성값이 예측 범위 내에 들어가는지, 아니라면 그 이유가 무엇인지. 아웃라이어는 어디 있는지를 확인한다. 단, 통계지표를 활용할 때에는 데이터의 특성에 유의해야 한다. 이를테면 평균값이 유의미한지, 중간값이 유의미한지는 데이터에 따라 다르기 때문이다.
  
속성 간 관계 분석하기 - 의미 있는 상관관계를 갖는 조합을 찾아내는 과정. 가짓수가 매우 많기에, 연구 단계에서 세운 가설을 검증하는 것부터 시작하는 것이 편할 것이다.
  
현상 일반화하기 - 통계적 추론. 사실 통계적 추론이 방법의 전부는 아니겠지만, 책에서 제시한 방법으로는 유일하다. 관찰한 데이터를 바탕으로 그 근간에 있는 현상을 이해하는 과정이다. 부분적인 관찰을 바탕으로 전체에 대한 판단을 내리는 ‘추론’의 영역이기도 하다.




‘데이터 스토리텔링’
데이터 과학자로 살면서, 데이터에 관심이 없거나 이해가 없는 사람들과 협업할 일이 매우 많다. 이들에게 결과를 제대로 전달하고 의미 이해를 돕기 위해 반드시 필요한 과정이다. 문제 해결의 각 단계별 데이터 변화와 착안 과정을 상세히 기록해두는 것을 추천한다.
  
‘데이터 스토리텔링 단계’
  
데이터를 수집, 가공하는 단계: 어떤 경로로 데이터를 입수했고, 분석하기 위해 어떤 식으로 가공했는지가 필요하다. 전체 프로젝트의 타당성과 신뢰도에 중요한 역할을 한다.
데이터 분석 단계: 최대한 직관적으로 전달한다. 수식이 반드시 필요한 경우에조차도 가급적이면 빠르게 이해시킬 수 있도록. 특정 기법이나 라이브러리를 썼을 경우 출처를 밝혀준다.
데이터 분석 결과: 시각화.
“무엇을 했는지” 뿐만이 아니라 “왜” 했는지를 스토리텔링 단계마다 언급해야 한다. 그래야 데이터에 생소한 사람들도 무리없이 이해할 수 있다.
  
  

데이터 분석의 핵심은 결국 ‘문제 해결을 꾸준히 연습하는 것’이다. 통계학이든 프로그래밍이든 지식이 필요하긴 하지만, 최소한의 지식을 습득한 다음부터는 스스로 문제를 포착하고 해결하는 과정에서 지식, 기술, 경험을 쌓아야 한다.




‘생활 데이터 활용’을 주장하면서 ‘엑셀’을 활용한 데이터분석을 예시로 보여주었던 시도가 인상적이었다. 저자가 데이터 분석에서 핵심으로 여기는 가치가 ‘일단 시도하자. 수정하면서 배우는 것’이었고, 그 주장을 가장 효과적으로 보였기 때문이다. 
  
물론 이 책에서도 통계 프로그래밍 언어 R 실습을 제공한다. 하지만 컴퓨터에게 코드로 명령어를 입력하는 일은 프로그래밍을 한 번도 접하지 않았던 사람에게는 꽤나 어렵게 다가온다. 조금만 잘못 입력해도 오류가 나는데, 무엇 때문에 오류가 났는지조차 파악하기 어렵다. 엑셀은 직장인이라면 거의 예외 없이 쓰고 있는 프로그램이고, 학생이라 해도 배우기 쉬워 진입장벽이 낮다. 게다가 일반인이 생활 데이터를 분석하고자 하는 정도라면 데이터의 크기가 그리 크지 않다. 엑셀이라는 쉬운 도구로 ‘일단 시도하라’고 말하는 저자의 목소리가 매우 신빙성 있게 들렸다.
  
  
이 책을 쓸 당시의 저자는 마이크로소프트의 검색엔진 Bing에서 ‘검색결과의 품질 평가 지표 / 평가기법 개발’ 업무를 담당하고 있었다. 검색엔진의 검색 결과가 사람들에게 만족스러운지 아닌지를 데이터만으로 평가하는 건 한계가 있다. 소비자 평가단을 선별해 정성적인 만족도 데이터도 같이 활용하는데, 고객의 관점에서 바라본 제품 품질을 내부 개발팀과 소통하는 것이 저자의 주된 일이었다. 따라서 저자는 고객의 목소리와 내부 개발팀의 이야기를 전달하고 반영해야 했다. 책의 흐름도 자연스럽게 ‘데이터 스토리텔링’의 방법론을 설명하고 필요성을 주장하게 된다.
  

데이터를 통해 의사결정을 해야 하는 회사의 경우 데이터 수집, 데이터 분석, 데이터 활용 단계가 분업으로 이루어진다. 각 과정의 전문성도 중요하지만, 해당 단계의 종사자들이 제대로 소통하는 것이 일의 진행에서 훨씬 더 중요하다고 한다. 따라서 데이터 스토리텔링 능력은 데이터 사이언티스트에게 반드시 필요한 역량이라는 저자의 말에도 수긍할 수 있었다.




스스로 데이터를 수집하건 공개된 데이터를 이용하건
1. 왜 데이터분석을 해야 하는지 확고히 하기
2. 어떤 방법론을 사용해야 할지 파악하기
3. 다른 사람에게 쉽게 전달할 수 있는 방법 고민하기
  
세 가지는 데이터 사이언티스트를 생각하는 사람이라면 반드시 안고 가야 할 숙제라는 걸 알려준 책이다.

반응형