공부하고 기록하는, 경제학과 출신 개발자의 노트

세줄요약 독서

(통계가 빨라지는) 수학력 : 빅데이터 분석에 필요한 기본 수학

inspirit941 2017. 12. 30. 21:16
반응형



‘빅데이터’라는 거창한 말에 현혹되지 말아야 한다. 수학과 통계학의 그야말로 쌩 기초를 알려주는 정도의 책.
중학교, 고등학교 때 배우는 기본적인 수학 개념을 먼저 설명하고, 방금 배운 수학 개념이 통계학에 어떻게 적용되는지 한 눈에 익힐 수 있는 구조.
통계학을 배우다 보니 수학에서 막혔는데, 그렇다고 중ㆍ고등학교 수학책을 다시 펴고 싶지 않을 때 제격인 책. 제목이 내용에 아주 충실하다.



171217


데이터 분석에 관심이 있지만 통계학을 체계적으로 배운 적이 없어서, 시중에 나와 있는 통계학 책을 조금씩은 건드려 보았다. 대학교 교재로 쓰이는 ‘통계학입문’ 원서, ‘빅데이터를 지배하는 통계의 힘’ 기본편과 실무활용 편. 통계학입문 원서가 가장 확실하게 배우는 방법이지만 지루하고 느리다는 문제가 있다면, 교양서 형태의 이런 책들은 쉽게 읽히는 반면 책 한 권 한권의 깊이가 약하다.


교양서가 깊이가 약한 건 어쩔 수 없지만, 때로는 약한 깊이를 보완할 수 있는 독특한 방식으로 책의 가치를 올리기도 한다. 이 책의 경우 ‘데이터 분석에는 통계학이 필요하다 -> 통계학을 배우기 위해서는 기초 수학이 잡혀 있어야 한다’는 접근방식이 효과적이었다. ‘데이터 정리를 위한 기본 수학’, ‘상관관계를 알기 위한 수학’, ‘흩어져 있는 데이터 분석을 위한 수학’, ‘연속 데이터 분석을 위한 수학’ 등으로 목차가 나뉘어 있다. 각 목차마다 필요한 수학 개념이 무엇인지 기초부터 설명하고, 해당 개념이 적용된 통계학 개념까지 설명해 주는 방식이다.


다른 책, 이를테면 ‘빅데이터를 지배하는 통계의 힘’ 책은 수식을 활용한 설명을 아예 배제하고 직관적인 설명을 고수한다. 언뜻 생각하면 수학 없이 말로 이해할 수 있다면 더 좋은 방식이라고 볼 수도 있다. 하지만 직관적인 설명을 가장 잘 이해하는 사람은 수학 지식 없이 통계를 배우려는 사람이 아니라, 통계 개념의 수학적 근거를 정확히 아는 사람이다. 통계학이 처음부터 수학이라는 도구의 힘을 빌려 발전했고, 그 결과가 나온 다음에야 비로소 수학 없이 말로 풀어낼 수 있기 때문이다. 특히나 개념을 ‘이해’하는 정도는 비유하고 예시를 들어서 설명할 수 있지만, 개념을 ‘활용’하기 위해서는 결국 수학이 필요할 수밖에 없다.


중ㆍ고등학교 때 배웠던 수학으로 통계학의 기초를 다질 수 있지만, 너무 오래 전에 배워서 잊어버린 사람에게 유용한 책이다. ‘데이터 정리를 위한 기본 수학’에는 평균과 대푯값의 정의, 나눗셈의 2가지 의미, 히스토그램의 개념을 되짚는다. 분산과 표준편차를 이해하는 데 필요한 제곱근과 다항식의 전개법을 설명한다. 1차함수와 2차함수의 그래프 그리기, 최댓값과 최솟값, 판별식과 그래프의 관계 등을 배운 뒤, 통계학에서 자주 쓰이는 상관계수를 도출하는 방법을 보여준다.


조금 아쉬운 점이라면, 기초 통계학의 핵심인 t분포, F분포 등을 이용한 가설 검정 부분의 안내가 부족했다. 이 책을 열심히 공부해서 기초 수학과 통계의 필수 개념을 잡았다면, 본격적으로 통계학의 진가가 드러나는 첫 단계가 가설 검정이다. 물론 가설 검정까지 다루면 이미 400페이지가 넘어가는 책의 두께가 너무 커져서 질려버릴 것이다. 하지만 이 책으로 통계학에 입문한 독자들에게 ‘지금까지 배운 내용을 바탕으로 통계학의 진가를 볼 수 있는 핵심 개념이 바로 가설 검정이다. 안타깝게도 이 책에서는 다루지 않지만, 이러이러한 사이트나 책을 참고하면 학습에 도움이 될 것이다’라는 맺음말이라도 있으면 어땠을까 싶다. 


개인적으로는 ‘(통계가 빨라지는) 수학력 - 빅데이터 분석에 필요한 기본 수학’을 다 읽었으면 다음 학습서로 ‘빅데이터를 지배하는 통계의 힘 - 실무활용 편’이 도움이 되리라 생각한다. 가설검정과 표준오차, 회귀분석에 대한 설명이 나와 있는데, 같은 시리즈인 ‘기본 편’에서 통계학에 필요한 수학을 거의 다루고 있지 않다. 이 책으로 통계와 수학의 기초를 다졌다면 한결 수월하게 통계학 개념을 따라갈 수 있을 것이다.

반응형