AI Speakers

현재 다양한 기업에서 만든 AI 스피커들이 존재합니다. 아마존의 알렉사, 구글의 구글 홈 뿐만 아니라 국내 기업들인 카카오, KT, 네이버 등이 AI 스피커들을 내놓고 있습니다. 2016년 9월 SK텔레콤이 AI 스피커 ‘누구’를 국내에서 처음 선보이고 이후 KT의 기가지니(2017년 1월), 네이버의 프렌즈(10월), 카카오의 카카오미니(11월), LG유플러스의 우리집 AI(12월)가 순차적으로 출시되면서 AI 스피커 시장은 급속도로 커졌습니다.

또한, 관련 기업들의 해당 분야에 대한 투자가 커지면서 네이버의 경우에는 작년에 인공지능 스타트업(창업 초기 기업) 컴퍼니 AI와 입체 지도 개발업체 에피폴라를 인수했고, 배달의민족을 서비스하는 우아한형제들에도 350억원을 투자했습니다.

가트너에 따르면 지난해 VPA(Virtual Personal Assistant) 용 무선 스피커 시장의 최종 사용자 소비는 7억2천만달러(약 8136억원)를 기록했으며, 이 소비 규모가 2021년에는 35억2천만달러(약 3조9776억원)로 확대될 것이라 예상했습니다.

이 글에서는 한국어에 좀 더 집중하고 있는 카카오, 네이버의 AI 스피커를 비교해보려 합니다.

Kakao Speaker : Kakao mini

기본적으로 근래에 인수한 멜론과의 연계에 집중하고 있는 모습입니다. 카카오 장은석 파트장의 인터뷰에 따르면 2017년 12월 즈음에 주력하는 부분은 "비슷한 가격대 다른 블루투스 스피커보다는 좋은 소리를 내보자" 는 걸 목표로 잡고 있다고 합니다.

또다른 특징이라고 한다면 항상 콘센트에 꽂고 써야한다는 점인데 이에 대해 인공지능 플랫폼이 믿음을 주려면 동일 위치에서 계속 믿음을 줄 수 있는 상황을 만드는 게 맞다고 생각했다고 합니다.

또한, 카카오톡 보내기 기능과 카카오 택시 기능을 스피커에 추가하면서 사용성을 높이고 있습니다.

카카오 미니 기능들

  • 음악 재생
  • 카카오 택시 호출
  • 카카오톡 메세지 보내기
  • 배달음식 주문하기
  • 버스 및 지하철 시간 체크
  • 어학 단어 뜻 검색
  • 정보검색
  • 라디오 / 팟캐스트
  • 알람 / 타이머
  • 날씨 / 뉴스
  • 심심이 기능

네이버는 AI 플랫폼 클로바를 기반으로 해서 관련 투자를 늘려가고 있습니다. 클로바는 지난 5월 앱으로 처음 출시됐으며 이어서 같은 달 말 클로바의 추천 엔진을 탑재한 콘텐츠 큐레이션 서비스 ‘디스코’가 나왔습니다. 8월에는 클로바를 탑재한 AI 스피커 ‘웨이브’가, 10월에는 라인 프렌즈 캐릭터를 활용한 AI 스피커 ‘프렌즈’가 출시되었고, 클로바 플랫폼은 네이버가 내놓은 제품 외에도 LG전사 AI 스피커 ‘씽크 허브’, 푸르지오 아파트에 들어가는 등 다양한 파트너사들과 협약을 통해 사용자와의 접점을 넓혀가고 있습니다.

기능적인 측면에서는 카카오 미니와 큰 차이를 보이지 않고, 다만 카카오미니가 항상 충전상태여야 하는 것에 반해 이동이 가능하다는 특징이 있습니다.

아래의 그림을 참고하시면 두 기기를 구입할 때에 사용자들이 비중있게 보는 부분들을 약간이나마 알 수 있습니다.

카카오미니 클로바 비교

기반 기술

AI 스피커에 들어가는 기술들은 다양하지만 그 중에서도 각 회사들이 중점을 두고 있는 부분들이 존재합니다. 클로바의 경우 사진을 주고 해당 이미지에 대한 질문을 주면 AI 모델이 답변을 하는 VQA(Visual Question and Answering) 기술과 쇼핑몰 카테고리 작업을 AI 스스로 진행하는 제품 범주화 기술을 개발 및 운용 중입니다.

또한, 음원에서 하이라이트 부분을 자동 추출해주는 모델과 자동으로 DJ 믹싱을 하는 모델을 개발 중입니다. 그 외에도 NSML 이라는 클라우드 기반 머신러닝 플랫폼으로 개발자들에게 도움을 주려 노력하고 있습니다.

카카오의 경우에 카카오 I는 카카오가 보유한 AI 핵심 기술을 결함한 통합 AI 플랫폼입니다. 그간 카카오가 만들어 온 음성 엔진, 시각 엔진, 대화 엔진, 추천 엔진, 번역 엔진 등이 집약 됐고 다음 뉴스와 검색, 카카오맵, 카카오내비와 택시, 카카오페이지, 카카오버스, 카카오TV, 카카오I 번역 등에 사용되었습니다.

카카오 I 오픈빌더라는 플랫폼을 하반기에 런칭할 계획에 있으며, 이를 통해 카카오톡 플러스친구의 텍스트형 챗봇 설계부터 카카오미니에 적용되는 음성형 대화 설계, 향후에는 시각형 기술 설계까지 만드는 것을 도우려 하고 있습니다. 이를 통해 플러스 친구의 활성화를 노리고 있고, 새로운 수익모델 발굴에 활용하려고 하고 있습니다. 이와 관련한 자세한 내용은 다음을 참고하시면 좋을 것 같습니다.

봇을 만드는 데에 있어 고려할 세 가지를 참고로 첨부합니다.

1) 엔티티(Entity)

사용자의 명령(챗봇의 경우 텍스트, 스피커봇은 음성)에서 봇이 액션을 수행하기 위한 값을 추출하여 전달할 수 있도록 규정한 데이터 사전이다.

날짜, 시간, 장소, 주소지 등 패턴 형식이나 인물명, 노래 제목, 앨범명 등 컨텐츠DB 등다양한 형태가 존재한다. 예를 들어, “아이유 노래 틀어줘”라는 명령에서 ‘아이유’가 엔티티에 해당한다.

2) 블록(Block)

유저가 명령한 내용에서 의도를 파악해 봇이 수행할 액션과 응답할 내용을 형식에 맞게 정의하는(구분해주는) 모듈이다.

주로, ‘날씨 알려주기, 메시지 보내기, 지역 검색하기, 음악 재생하기‘와 같이 테스크(task) 단위로 설계한다. 예를들어 “아이유 노래 틀어줘”라는 명령은 ‘음악 재생하기’ 블록이 수행하게 된다. 화행 패턴 입력, 동작 설계, 출력 설계를 마치면 하나의 블록 단위가 설계된다.

화행 패턴 입력은 가수 “아이유의 노래 들려줘”, “아이유의 노래가 듣고 싶어”, “아이유 노래들려줄래” 등 유저들의 다양한 명령어 패턴을 입력하는 것이다.

동작 설계는 노래를 재생해야 할 지, 인물 정보를 줘야 할 지 등을 판단할 수 있도록 설계한다. 만약 명령어가 명확하지 않다면 판단할 수 있을 때까지 되묻기 질문을 하도록 설정할 수 있다.

출력 설계는 유저에게 보낼 응답 형태를 구성하는 것이다. 카톡 플러스 친구 챗봇의 경우 텍스트형, 이미지형, 카드형, 말풍선형 등 여러 형태에서 선택할 수 있다. 스피커봇의 경우에는 답변시 말투나 용어 등이 이에 해당한다.

3) 스킬(Skill)

사용자의 의도에 맞게 봇이 수행하는 실질적인 동작으로, 다양한 API를 호출하여 봇이 수행할 수 있는 영역을 손쉽게 확장할 수도 있다.

“아이유 노래 틀어줘” 명령어를 했을 때 “아이유 노래 틀어드릴게요”라고 반응하고 노래를 재생하는 개념이다.

이 과정에서 단순히 시나리오대로 움직이는 것이 아니라 히스토리를 추적하면서 대화를 이어나가는 것에 대한 고민이 진행 중입니다.