카카오와 AI를 말하다 - 김병학 다음카카오 AI 총괄부사장

강연

카카오와 AI를 말하다 - 김병학 다음카카오 AI 총괄부사장

inspirit941 2017. 11. 27. 14:25

171123 2:00 - 3:30 성균관대학교 강연

AI. 미래의 핵심 기술이라는 사실에는 아무도 이견을 제시하지 않고, 기술력 좀 있고 미래를 선도하려는 야망을 가진 기업이라면 다들 준비하고 있는 분야다. 스피커 형태의 인공지능 비서인 아마존 에코, 구글 어시스턴스가 등장한 지 2~3년 정도 됐고, 한국에서도 카카오의 카카오미니, KT의 GiGa Genie, SK텔레콤의 누구 등등 홈 어시스턴스 형태로 많이도 출시됐다. 스피커 형태가 아닌 음성인식 기반 인공지능 소프트웨어로 확장하면 삼성의 빅스비, 애플의 시리도 포함될 수 있다. 이 정도면 거의 인공지능 춘추전국시대라고 불러도 좋을 것 같다.

한편으로는 궁금했다. 이 기업들이 왜 인공지능에 이렇게 투자를 하고 있을까. 인간의 음성을 인식한다는 것에서부터 어떤 미래를 그리고 있는 걸까. 운 좋게도 마침 학교에서 김병학 다음카카오 AI 총괄부사장님이 강연하시는 자리가 있어서 가 봤다. AI팀 총괄 부사장이라면 작금의 인공지능 시대를 어떻게 보고 있는지 큰 그림을 그리는 사람일 거라 생각했다. 게다가 성균관대 인사캠에서 진행되는 강연이었는데, 인사캠에는 문과 위주라서 AI의 이론이나 지식을 설명해도 제대로 이해할 사람이 몇 없으리라고 봤다. 그럼 더더욱 AI의 기술적인 측면보다는 삶에 미치는 영향과 의의 쪽을 중점적으로 다루지 않을까 기대했다.

먼저, AI의 역사적 흐름을 간단히 언급했다. 폰 노이만 형태의 컴퓨터와 Neural Network 형태의 컴퓨터 두 종류가 있었고, 처음 등장한 1960~70년대의 Neural Network는 XOR 연산을 처리하지 못해 답보 상태였다. 80년대 back propagation의 등장으로 XOR 연산이 가능해졌지만, 학습 결과가 수렴하지 않는 문제를 해결하지 못해 90년대에 다시 사양화됐다. 2008~9년경 이 문제도 해결됐고, 발전을 거듭해 2012년에는 이미지 인식률이 약 93%로 인간의 수준(약 95%)와 유사한 수준에 이른다.

즉 Neural Network는 오래 전에 시작됐지만, 기술이 계산력을 뒷받침할 수 있는 수준에 이르자 혁신적인 수준으로 발전을 거듭해 새로운 시대의 동력으로까지 부상했다고 한다.

기업의 입장에서 AI는 약간 관점이 다르다. 스마트폰의 등장으로 터치 인터페이스가 보편화된 지 10년 정도 시간이 지났다. 물론 터치 인터페이스는 직관적이고 편리하지만, 만약 인공지능이 음성인식을 할 수 있다면 터치 인터페이스의 절차를 더 간소화할 수 있다는 점에 착안했다. 이를테면 카카오톡으로 메시지를 보내려면 ‘핸드폰 잠금해제 - 카카오톡 앱 터치 - 대화창 터치 - 메시지 전송’의 단계를 거치지만, 음성인식으로 시행할 경우 “OO에게 카톡으로 ‘밥 먹음?’ 이라고 보내줘”라는 식의 1단계만 거치면 된다. 스마트폰의 터치 인터페이스는 인간과 기계의 상호작용 방식을 크게 바꾸어 놓았다. 음성인식 인터페이스가 보편화되면 사람과 기기의 커뮤니케이션 방식이 다시 한 번 크게 변할 것이다. 따라서 다음카카오는 플랫폼 사업에서 AI기술이 뒤처진다면 서비스업체로서의 경쟁력을 상실할 수 있다는 전망을 하고 있었다. 그래서 AI기술에 매진하는 것도 있다고.

음성인식 기술은 기본적으로 One-Depth Interface여야 한다. 사용자가 말을 여러 번 해야 알아들을 수 있으면 의미가 없다. 그러기 위해서는 사용자의 말을 인식하는 음성인식, 인식한 말을 이해하는 자연어 처리 기술, 사용자에게 언어로 반환하는 음성 합성에 더해 대화의 문맥을 이해하는 능력까지 갖춰져야 한다. 이 모든 기술이 통합되어야, 음성인식 인공지능이 원활하게 작동할 수 있다.

구글과 카카오의 음성인식을 비교하자면, 일반적인 검색에서의 음성인식 정도는 비슷하다. 다만 다음 지도의 경우 카카오의 인식률이 더 좋은데, 김병학 부사장님은 ‘구글과 랭귀지 모델이 다르다. 다음 지도의 경우 음성인식 데이터베이스가 지도, 주소 기반이기 때문에, 지도와 주소를 알아듣는 능력에서는 구글보다 낫다’고 덧붙였다.

그 다음부터는 다음카카오가 집중하고 있는 AI분야와 사업에 대한 소개들이 이어졌다.

1. 스피커 AI 카카오미니

- 음성인식

인공지능 스피커에는 사람의 말을 인식할 수 있게 마이크가 내장되어 있다. 아마존은 마이크가 7개, 카카오미니에는 4개가 있고, 보통의 인공지능 스피커에는 2개가 부착돼 있다. 마이크 개수가 많을수록 소리가 어느 방향에서 들리는지 정밀하게 파악할 수 있다. 즉 사용자의 목소리만을 정확히 인식할 수 있게 해 오차율을 낮출 수 있다. 예를 들면 TV소리는 스피커 뒤편에서 들리고 사용자의 목소리는 스피커 앞쪽에서 난다면, 앞쪽 스피커에서 인식하는 사용자 목소리에만 반응하게 만들 수 있기 때문이라고.

- 음성합성

음성 합성에는 고전적 방식과 딥러닝 방식이 있다. 고전적 방식은 지금까지 우리가 알고 있던 기계 목소리를 말한다. 언어의 모든 음절을 잘라서 인식하고, 어떤 문장을 말해야 할 때 인식한 발음을 이어 붙이는 방식이다. 반면 딥러닝으로는 문장 전체를 학습시킬 수 있어서 고전적 방식보다 훨씬 자연스러운 음성을 낼 수 있다. 다음카카오 팀에서는 음성합성을 위해 성우분들의 목소리를 녹음해 학습데이터를 만들었고, 손석희 씨의 목소리를 학습해 음성합성을 시도했다고 한다.

내가 좋아하는 연예인의 목소리가 AI 스피커 비서에서 나오면 좋겠지만, AI 음성합성에 쓰이는 학습데이터에는 여타 노이즈 없이 목소리만 담겨 있어야 한다. 성우의 목소리는 녹음해서 쓸 수 있기에 학습데이터로 활용할 수 있지만, 연예인의 경우 노이즈 없이 순수히 목소리만 쓰는 작업이 어렵다고 한다. 방송이나 라디오 등에는 노이즈가 섞여 있을 거고, 녹음 작업을 하기엔 연예인의 몸값이 비쌀 테니.

- 자연어 처리

인간의 언어가 계속해서 변화한다는 점에서 어려운 영역이고, 영어보다 한글에서 훨씬 어려움을 겪는 부분이다. 영어는 언어의 변형이 제한적이고, 띄어쓰기 기준으로 분절해 학습하게 해도 큰 문제가 되지 않는다. 한글은 조사나 합성명사 등 영어에 비해 언어 변형이 많고 복잡하다. 그래서 한글의 경우 아예 형태소 base로 한글의 구성요소를 모조리 떼내는 작업부터 시작하는데, 영어보다 처리 시간도 오래 걸리고 복잡하기 마련이다.
구문 분석의 경우는 단어의 dependency를 찾아내는 작업이다. 한 문장 안에 여러 문장이 포함돼 있는 복합문장에서 특정 단어의 dependency를 트리 형태로 분류하는 작업이라고.

- 대화 처리

상술한 기술의 통합 + 문맥 이해의 영역이다. 자연어 이해 -> 처리 -> 사용자가 원하는 답 찾기 -> 자연어로 반환하는 기본 구조에 ‘문맥’을 포함한다. 만약 사용자와 인공지능의 대화 Object가 ‘아이유’고 Purpose가 ‘노래’였을 때, 다음에 사용자가 ‘방탄소년단’을 언급할 경우 Purpose를 자동으로 ‘노래’로 설정하는 등의 작업이라고 한다. 사람 사이의 대화에서는 아주 자연스럽게 선행되는 작업이지만 컴퓨터의 경우 문맥을 인지하는 것도 학습의 영역이다.

그 외에도 다음카카오가 딥러닝, AI를 적용한 기술 분야가 몇 가지 더 언급됐다.

검색기술
- 딥러닝 기술 활용중.
추천기술
- 콘텐츠 추천(현재 테스트기간이라고 함)

2. 카카오 번역

자연어 처리 중 가장 성공적인 분야라고 자평했다. 구글 번역의 결과와 비교하며 카카오 번역의 장점을 강조했는데, 카카오번역이 구글 번역에 비해 잘 하는 점으로 ‘맥락’이해를 꼽았다. 슬라이드에 언급된 내용을 옮기자면, ‘I arrived at the bank after crossing the river’라는 문장 번역에서 구글과 카카오가 차이를 보인다. bank라는 단어에는 은행이라는 뜻도 있지만, 강둑이라는 뜻도 있다. 둘 중 어떤 단어를 사용해 번역할지 판단하려면 문장 앞뒤의 맥락을 이해해야 한다. 구글의 경우 'crossing the river'라는 맥락을 읽지 못해 bank를 은행으로 번역했지만, 카카오는 맥락을 반영해 강둑으로 번역할 수 있다는 게 주 내용이다.

다만, ‘어느 기업이 가장 번역을 잘 하는가’를 검증하려면, 번역 대상으로 쓸 기준 문장이 있어야 한다. 번역의 기준으로 쓸 문장이 아직 정해지지 않았기 때문에, ‘우리 회사의 번역이 가장 정확하다’고 주장할 수 있는 객관적인 근거는 없다고 한다. 발표 슬라이드에서 영한번역은 카카오>구글>네이버 순, 한영번역은 구글>카카오>네이버 순이라고 이야기했지만, 카카오가 자체 선정한 문장으로 번역한 거라 객관성은 없다고.

3. 음악 인식기술

음악의 감성을 자동으로 태그하는 기술이라고 한다. 약 1000여개의 노래를 선정하고, 그 노래에서 느껴지는 감성을 사람이 직접 태그한다. 이 데이터를 바탕으로 학습해, 멜론에 있는 1000만여 개의 곡 데이터에 적용하는 것이 목표라고 한다.

4. 이미지 이해 기술

이미지 인식의 다음 단계라고 보면 된다. 현재는 모바일 환경에서도 이미지에서 얼굴을 인식하고 검출하는 수준이 가능한 상태라고 한다. 텍스트검색의 한계를 극복하기 위한 기술로, 이미지에도 태그를 달아 검색의 정확도와 편의성을 높이려는 시도이다.

마지막으로 다음카카오의 AI 인프라를 소개했는데, 문과생이 많아서 깊게 접근하기 어렵다보니 간단히 소개하는 정도로 넘어갔다.
이러이러한 게 있다 - 정도.

강연을 듣고 나서의 내 생각.

다음카카오가 지향하는 길은 ‘Kakao is everywhere’로 요약할 수 있다고 했다. 어디서든 카카오와 연결될 수 있고, 카카오를 통해 모든 것과 연결할 수 있는 세상. 카카오라는 플랫폼 안에서 모든 것이 가능하도록 만드는 것. 즉 카카오는 단순히 AI 하이테크 기업을 꿈꾸는 게 아니라, 플랫폼 기업을 목표로 성장해가는 회사다.
비단 카카오만의 목표가 아니라, 카카오와 비슷한 길을 걷고 있는 기업 대부분의 최종 목적은 거대 플랫폼 사업자다.

사용자의 ‘시간’을 두고 경쟁한다. 어느 플랫폼 안에서 사용자가 더 많은 시간을 보내게 하느냐가 경쟁의 핵심이다.

AI도 결국은 ‘사용자가 더 편하게 플랫폼 안에 상주할 수 있도록 하는’ 도구다. 음성 AI는 터치 인터페이스의 절차를 더욱 간소화할 수 있다. 검색엔진이나 추천 알고리즘, 이미지 인식에 AI를 적용하는 것도 결국 ‘사용자가 원하는 결과를 최대한 빠르고 정확하게 전달할 수 있도록 하는’ 기술이자 도구다.

AI라는 기술은 단지 도구일 뿐이다. 아무리 도구가 좋다고 해도 플랫폼 사업에 들어오는 사용자가 적다면 의미가 없기 때문이다. 그렇다면, AI라는 기술에 앞서 카카오라는 기업이 추구하는 ‘플랫폼 사업’의 현황이 어떠한지 돌아봐야 한다. 다음카카오는 한국을, 아니면 다른 국가의 사람들이 상주할 만한 플랫폼으로 자리잡고 있을까?

AI가 connecting의 측면에서, 플랫폼 유지력을 강화하는 측면에서 어떤 기여를 할 수 있을까?

플랫폼 사업에서 사용자의 시간을 끌어들이는 핵심은 두 가지다. 재미있거나, 없으면 못 살 정도로 편리하거나. 재미의 측면에서는 콘텐츠다. 눈이 즐겁든 귀가 즐겁든, 플랫폼에 들어온 사용자가 나갈 이유를 찾지 못하도록 만들어야 한다. 편의의 측면에서는 여러 가지가 있겠지만, 대화를 위해 꼭 필요한 메신저나 전자상거래, 2014년즈음에 전도유망했었던 O2O 서비스가 하나의 예시일 수 있겠다. 살아가는 데 필요할 법한 서비스를 편리하게 사용할 수 있도록 하면 사람들이 모인다.

이 두 가지를 전부 잡아내고, 모든 사람들을 플랫폼 안에서 시간을 보내게 하는 데 성공한 기업이 있다. 중국의 알리바바와 텐센트다. 알리바바의 경우 전자상거래 업체에서 출발했기에 상품 제공이라는 측면에서 강했던 기업이다. 여기에 O2O를 비롯한 각종 생활편의 서비스를 알리바바 플랫폼에서 이용할 수 있게 했고, 빠르고 쉽게 결제할 수 있는 알리페이 서비스를 만들었다. 한편으로는 중국의 유튜브라고 불리는 ‘유쿠 투도우’를 인수하고, 라이왕이라는 모바일 메신저는 실패했지만 중소기업용 모바일 메신저 ‘딩딩’을 운영한다. 모바일 메신저 스냅챗에 2200억원을 투자하는 등 플랫폼 사용자의 시간을 잡아두기 위해 무진 노력하고 있다. 사람들이 편리하니까 플랫폼을 찾고, 들어온 플랫폼에서 시간을 보내며 굳이 나갈 이유를 찾지 못하게 하기 위해 다양한 방법을 동원하고 있다.

다음카카오는 어떨까. 개인적으로는 많이 아쉽다. 특히나 한국의 메신저 시장을 장악한 기업이기에 더 아쉽다. 사람들이 플랫폼에 유입하는 양으로는 메신저만한 게 없다. 연락하기 위해서 들어오고, 연락이 없어도 상대방은 뭐하고 있을지 궁금해서 들어오는 게 메신저다. 여기에 다음이라는 국내 2위 포털이 더해졌고, 멜론이라는 국내 최대 음원사이트가 우방이다. 메신저와 포털과 음악사이트 세 개면, 유입 경로도 강력하고 플랫폼에서 즐길 수 있는 콘텐츠도 충분한 편이다. 2014년 O2O 시장에 뛰어들었다가 정부의 규제와 소상공인 죽이기 논란이 있긴 했지만, 몇몇 서비스들은 살아남았다. 모바일 게임에서도 꽤나 규모가 크며, 사람의 운송 관련 서비스들 - 카카오택시, 카카오네비, 카카오 대리운전 등에서는 압도적 위치를 점하고 있다.

분명 플랫폼을 구상할 만큼의 재료들이 있는데, 모아놓고 보면 그닥 플랫폼의 힘이 강하지는 않아 보인다.

그런데 정작, 꽤나 괜찮은 플랫폼 구성요소를 가지고 있는 것치고는 플랫폼의 힘이 강하지 않다. 유기적으로 돌아가지 않는 느낌이다. 하나의 플랫폼에 융합된 채 이용한다는 느낌보다는 따로따로 필요할 때만 들어가는 곳이란 인식이 강하다. 메신저는 강력하지만, 메신저와 다른 분야의 연결이 매끄럽지 못했다. 카카오페이는 있지만, 중국의 위챗 / 위챗페이처럼 메신저와 전자상거래가 합일 수준으로 결합하지 못했다. 카카오TV도 아프리카TV의 몰락에서 반사이익을 별반 보지 못했고, 카카오 모바일게임은 여러 복합적인 이유로 플랫폼 사용자들에게 부정적 인식이 박혀 있다. 다음 포털은 여전히 포털로서의 위치만 유지하고 있고, 멜론도 음악 서비스 제공자의 위치에서 별반 달라지지 않았다. 즉, 분명 괜찮은 재료들은 가지고 있는데 요리라는 조합이 제대로 안 되고 있어 보인다.

가장 중요한 건, Business 부분이다. AI 기술력으로 어떻게 하면 서비스를 강화하고 플랫폼의 콘텐츠를 통합할 수 있을까.

AI기술, 필요하다. 하지만 AI기술의 진짜 힘은 플랫폼이 갖춰졌을 때 나온다. 잘 구축된 모바일 플랫폼에서 터치 인터페이스를 음성으로 바꾸는 것은 혁신적인 편의를 줄 수 있지만, 플랫폼 자체가 사람을 끌어들이지 못하면 의미가 없다.

왜 음성인식 AI를 탑재한 스피커 비서가 아마존에서 처음 나왔을까. 아마존은 미국 내에서 사람의 시간을 빨아들이는 플랫폼 기업으로 자리매김하고 있기 때문이다. 아마존 프라임을 결제하면, 아마존에서 제공할 수 있는 최고 수준의 전자상거래 편의를 누릴 수 있다. ‘프라임 채널’ 서비스로 넷플릭스보다도 많은 콘텐츠를 제공할 수 있는 콘텐츠 기업이고, 워싱턴포스트를 인수해 언론사의 목소리도 확보한 기업이다. 이 수많은 콘텐츠를 ‘음성으로’ 편리하게 사용할 수 있도록 하는 입구가 바로 인공지능 스피커 AI ‘알렉사’다.

오히려, 플랫폼이 확고한 기업이 AI기술을 가진 기업 자체를 인수하는 시나리오가 그려질 수 있다. 알리바바나 텐센트 정도의 플랫폼을 가진 기업이라면, 자연어 처리가 완벽한 수준의 AI기술을 가진 업체가 있으면 얼마를 주고서라도 인수할 수 있는 자금력을 가지고 있다. 그 자금력은 탄탄한 플랫폼에서부터 나올 것이다.

즉 플랫폼의 콘텐츠가 전부 연결된 상태에서, 플랫폼에 입장하는 사람에게 최대한의 편의를 제공하는 기술이 바로 AI라고 볼 수 있는 것이다.

카카오는 ‘플랫폼의 콘텐츠가 전부 연결된 상태’가 아직 미약하다고 생각한다. 플랫폼의 힘을 강화해줄 수 있는 콘텐츠의 힘이 약하거나 흩어져 있는 상태다. 사람이 이용할 수 있는 편의성을 극대화한 플랫폼이라고 하기엔 다음 포털이나 카카오 자체의 전자상거래 기능이 미약하다. ‘사람과 사람을 연결하는 플랫폼’기업을 꿈꾸고 있다면, AI기술만큼이나 카카오의 현재 플랫폼 경쟁력이 더 강해져야 할 것 같다.

안타까운 건, 강연이 끝나고 질문시간에 ‘카카오가 플랫폼 기업을 지향한다고 하는데, AI가 어떻게 도움을 줄 수 있는지 정확히 이해되질 않는다. 모든 것을 연결한다는 카카오의 목적은 중국의 알리바바나 텐센트와 같은 플랫폼 기업과 더 비슷해 보이는데, AI가 이들처럼 확고한 지위를 유지하는 데 어떤 기여를 할 수 있는지?’ 요지의 질문을 했었는데, 시간관계상 제대로 된 답변을 듣지 못했다.

카카오의 행보를 보며, 아마존과 알리바바를 보며 스스로 고민하고 AI기술의 향방을 따라가며 해답을 찾아가야겠다. 그게 내 관심사이고, 공부하고 싶은 내용 중 하나이니까.

2018.01.01 수정

https://brunch.co.kr/@brunchjqcb/123

17년 11월 11일에 쓰인, 브런치에서 본 글.

카카오 플랫폼의 핵심 수익원이 부족하며, 플랫폼 사업의 가장 큰 동력인 SNS 카카오톡이 고민해야 할 점이 무엇인지를 담은 글이다.

인공지능도 하나의 수단일 뿐이라는 주장과, 카카오 플랫폼의 핵심 가치가 명확히 드러나지 못하고 있다는 관점에서 비슷한 점이 있어 보였다.

저작자표시 비영리 동일조건 (새창열림)

'강연' 카테고리의 다른 글

카카오 Ground X Social-Impact Summit (1)	2018.06.11
블록체인, 실리콘밸리의 최신 동향과 이슈 by 오태림 '글루와' 대표 (0)	2018.04.17
4차 산업혁명과 데이터의 역할 - (3) 데이터가 ‘원유’가 되려면? (0)	2017.11.07
4차 산업혁명과 데이터의 역할 - (2) 4차 산업혁명과 빅데이터의 역할 (0)	2017.11.07
4차 산업혁명과 데이터의 역할 - (1) 빅데이터 분석의 돌파구는? (0)	2017.11.07

현재글카카오와 AI를 말하다 - 김병학 다음카카오 AI 총괄부사장

관찰과 질문, 그리고 데이터