검색창 앞에서는 익명성 보장 / 원하는 정보를 얻을 수 있다는 유인 때문에 사람들이 진실을 털어놓게 된다.
인간의 다양한 모습, 특히 비밀스러운 모습을 연구하는 데에는 구글 데이터가 효과적일 수 있다.
"빅데이터로 무엇을 할 수 있고, 무엇을 할 수 없으며, 무엇을 할 가능성이 있는지"를 지금까지 읽어 본 서적 중에서 가장 선명하게 밝혀 주는 책.


2016년 3월, 바둑 기사 이세돌과 구글 딥마인드가 개발한 인공지능 알파고의 대결이 큰 화제가 되었다. 인공지능에 대한 관심이 폭발했고, 인공지능이 학습하기 위한 다량의 데이터로서의 빅데이터의 가치가 더욱 부각됐다. 이전에도 SNS와 같은 비정형 데이터를 분석해 인사이트를 얻어내려는 시도가 주목받았으나, 빅데이터라는 단어가 본격적으로 유행을 타게 된 계기는 16년 3월 인간과 AI의 대국이었다고 보고 있다. (구글 트렌드에서 검색해봐도, 빅데이터라는 단어 검색이 가장 많았던 시기는 2016년 4월 말로 집계된다.)
  
‘모두 거짓말을 한다’는 구글에서 데이터 사이언티스트로 근무하고 있는 저자가 펴낸 책으로, 구글 트렌드 데이터를 바탕으로 미국 내에 잠재해 있는 인종차별이나 미 대선에서 트럼프 당선 예측을 해내며 주목받았다. 그가 구글에서 접할 수 있는 데이터로 연구하고 있거나 연구 가능성을 확인한 주제들, 데이터로 시도했다가 실패한 사례들이 담겨 있다.
 


저자는 ‘구글 데이터를 통해 거짓말하지 않는, 인간의 솔직한 생각을 파악할 수 있다’는 사실을 여러 연구사례를 통해 보여준다. 수면 위로 올라오기에는 불편한 주제들 - 아동학대, 낙태, 포르노, 인종차별, 편견과 증오 등 -을 사람들이 어떻게 생각하고 있는지 인터넷에서 제공하는 데이터로 들여다본다.
  
예컨대 2015년 12월 2일 캘리포니아에서 발생한 대규모 총기난사 사건의 범인이 이슬람교도로 알려진 후 ‘이슬람교도’ 관련 검색 1위는 ‘이슬람교도를 죽이자’였다. 이 정도 적의는 인터넷에서 예상할 수 있다. 
  
특이한 점은, 사건 발생 나흘 뒤 오바마 대통령이 사건에 관련된 연설(이슬람포비아를 진정시키고, 포용과 관용의 중요성을 설파했다)의 결과였다. 감동적이고 강력한 웅변이라고 평가했던 대부분의 언론사와는 달리, 구글 검색에서는 ‘이슬람교도’와 ‘테러리스트, 나쁜, 폭력적인, 사악한’이 포함된 검색이 두 배 늘어났다. 반면 그들을 어떻게 도울 수 있을지에 관한 검색은 35% 감소했다. 옳은 말을 한 오바마 대통령, 따뜻한 연설에 만족감을 표한 전통적인 언론사와 달리, 구글을 사용한 대다수 사람들에게는 오바마의 연설이 역효과를 불러일으킨 것처럼 보인다.
  
이 상황에서 검색 데이터는 또 하나의 독특한 인사이트를 보여준다. 오바마의 연설 중 적의에 찬 검색이 줄어든 부분이 있었는데, 바로 “이슬람계 미국인들은 우리의 친구이며, 우리의 이웃, 우리의 동료, 우리의 스포츠 영웅입니다. 그들은 제복을 입고 우리나라를 지키기 위해 기꺼이 목숨을 바칠 사람들입니다.”라는 구절이었다. 이 구절 이후, 1년여 만에 처음으로 ‘이슬람’ 에 붙어서 가장 많이 검색된 결과가 ‘테러리스트, 극단주의자, 난민’이 아니라 ‘운동선수, 군인’ 이 되었다. 성난 민중에게 무언가를 가르치려 할 경우 더 큰 반발을 불러올 수 있지만, 교묘하게 호기심을 건드리고 새로운 이미지를 제시할 경우 민중의 생각을 다른 방향으로 전환할 수 있다는 결론이다.
  


이외에도, ‘어린 자녀에 관련된 질문’ 검색에서 여자아이에 관한 암묵적 편견을 발견할 수 있다. 이 편견을 만들어내는 주체는 바로 ‘부모’다. ‘두 살 난 내 아이가....’로 시작하는 질문에서 가장 많은 부분을 차지하는 것은 ‘재능이 있나요?’인데, 이 질문은 여자 아이보다 남자 아이가 약 2.5배 더 많다고 한다. 나이가 어릴 때는 여아들이 더 많은 단어, 더 복잡한 문장을 구사하는 경향이 있음에도 검색 데이터는 정반대의 결과를 보여준다. 물론 ‘뒤처진다, 멍청하다’와 같은 질문도 남자아이가 더 많지만, ‘재능이 있나요?’의 2.5배 차이만큼 크지는 않다고 한다. 
  
부모가 딸아이에게 우선적으로 보여주는 관심사는 바로 ‘외모’다. 실제로는 여아의 과체중 비율보다 남아의 과체중 비율이 더 큰데도 불구하고, ‘내 딸이 과체중인가요’ 라는 질문은 아들이 과체중인지 걱정하는 질문보다 거의 두 배 더 많다. 또한 ‘아들이 잘생겼는지’ 묻는 질문보다 ‘딸이 예쁜지’ 묻는 질문이 1.5배 더 많이 관측된다. 딸이 못생겼느냐는 질문은 아들이 못났는지 묻는 것보다 세 배는 많이 나타난다. 이런 경향성은 진보 / 보수지역 여부와 관계없이 미국 전역에서 비슷한 비율로 관측된다. 저자는 “구글에서 유추할 수 있는 ‘남녀’에 관련된 편견은 생각보다 광범위하고 강력하게 형성돼 있다”는 결론을 맺는다.

 




분명 이 책은 ‘검색 데이터’라는 흥미로운 소재를 분석해 인사이트를 얻어낸 과정을 담고 있지만, 빅데이터의 한계는 이 책에서도 분명히 언급하고 있다. 저자는 ‘주가예측’ 과 같은 문제는 빅데이터로도 해결이 불가능하다고 단언하는데, 그 이유로 두 가지를 언급한다.

1. 빅데이터 분석이 효과를 얻으려면, 그 이전까지 행했던 방법이 낙후되어 있을수록 효과가 좋다. 예컨대 경마장에서 좋은 경주마를 골라내는 방법은 데이터 분석이 들어오기 전까지는 혈통에 의존하는 방식이었다.

2. 차원의 저주(Curse of dimensionality). 복잡계에서 어떤 현상에 영향을 미치는 원인이 너무 많기 때문에 분석이 불가능한 상황을 말한다. 수많은 데이터를 분석하다 보면 어떤 변수가 마치 상관관계가 있는 것처럼 보일 수 있지만, 다른 데이터에 대입해보면 아무 상관관계가 없는 것을 의미한다. 주식시장 분석이나 인간 유전자 분석 등이 해당한다.
  
빅데이터가 유행처럼 쓰이다가 사그라든 이유는 이 책의 구성을 보면 더욱 명확해진다. 목차를 보면 ‘빅데이터의 힘’에서 언급하는 분야는 섹스, 편견, 인터넷, 아동학대와 낙태, 페이스북과 같은 SNS 등 ‘인간의 사회학적 연구 대상’이 많다. ‘알고 보니 인간은 이런 존재였다’와 같은 진실을 드러내는 데엔 효과가 있지만, “비즈니스” 관점에서의 분석은 언급하지 않고 있다. 물론 인간을 더 잘 이해한다면 비즈니스에도 적용할 수 있겠지만, 비즈니스의 관점에서 투자 대비 결과를 즉각적으로 파악할 수 있는 유형의 연구는 아니다. 즉, “인간을 이해하는 데에는 도움이 될 수 있는 진실”을 제공하지만, “비즈니스 모델에 바로 적용 가능한” 결과를 얻기는 쉽지 않다.
  
설령 비즈니스 모델에 적용 가능한 결과라고 해도 윤리적 이슈가 떠오른다. 대출 상환 가능성이 높은 고객과 낮은 고객을 모델링해 분석한 결과 특정 표현이나 단어를 많이 쓰는 사람일수록 대출 상환 가능성이 낮다는 결과를 얻었다고 해 보자. 실제로 이 책에서는 대출 상환 가능성이 높은 사람과 낮은 사람이 쓰는 단어를 분석한 결과를 제공했다. 이 분석이 설명력이 높다는 이유로, 대출 시 불이익을 방지하기 위해 사람들이 SNS에 자기검열해서 글을 써야만 하는 상황이 올 수도 있다면 과연 바람직한 사회라고 볼 수 있을까.
  

‘4차 산업혁명’이라는 희미한 개념에 편승해 장밋빛 미래를 뿌리는 단어들이 몇 개 있다. 그 중에 하나가 빅데이터라고 생각했는데, 이 책은 정확히 ‘현재 할 수 있는 것’과 ‘할 수 없는 것’, 그리고 ‘할 수 있는 가능성이 보이는 것’이 무엇인지 밝혀 주는 책이었다.





저자가 제시한 개념 중 흥미로운 분석 개념이 하나 있었는데, 야구에서 성적을 예측하는 방법 중 하나로 2003년에 제시된 PECOTA라는 분석 기법이었다. 쉽게 말해 ‘도플갱어 찾기’로, 특정 선수의 나이대에 그와 비슷하게 플레이했던 도플갱어를 찾고, 이 도플갱어들의 야구 경력이 어떠했는지를 확인하는 것이다. 기업에서 ‘소비자’ 데이터가 많아지면서 도플갱어 데이터를 바탕으로 상품을 추천하거나 예측하는 식의 분석기법을 사용하곤 한다는 설명이 인상적이었다. ‘당신과 비슷한 사람이 본 영화 - 넷플릭스’, ‘당신과 비슷한 사람이 구매한 물건 - 아마존’이 현재에도 잘 쓰이고 있는 사례라고 하는데, 쉽게 설명해서인지는 몰라도 ‘복잡한 추천알고리즘 시스템의 본질이 도플갱어 찾아내기였나?’ 라는 의문 때문이기도 했다.



+ Recent posts

티스토리 툴바