음악 인식->음성 인식.

단어 하나 바꿨는데요.

 

VC 투자를 850억원 넘게 받았습니다.

뿐만 아니라 음악 인식 서비스 시장서

‘샤잠(Shazam)에 묻힐 만년 2인자’라는

프레임을 쓰고 있었는데, 이것도 떨어버렸죠.

 

벌써 12살된 스타트업

사운드하운드 이야깁니다.

 

투자한 회사들은 엔비디아,

삼성전자, 네이버 등 빅네임입니다.

약 200명의 직원이 일하고 있고요.

 

(사진=사운드하운드)

(사진=사운드하운드)

 

세 개 국가에 다섯 개 오피스를 뒀죠.

 

DFzvB1uXoAAvNsr

 

2009년 론칭한 음악 인식 앱

(회사 이름과 동일한) ‘사운드하운드’는

다운로드 수 3억회를 돌파했습니다.

 

다시 이야기해야겠네요.

 

단어 하나 바꾼 것이 아니라,

준비된, 이유있는 자신감 덕분에

투자를 받고 성장했다,고요.

 

(사진=스타트업그라인드)

(케이반 모하저 CEO, 사진=스타트업그라인드)

 

케이반 모하저 창업자 겸 CEO는

첫 10년 동안 약 454억원을 투자받은 뒤

자본잠식하지 않고 회사를 운영하기 위해

애썼다고 밝혔습니다.

 

1년 안에 쓸 수도 있었지만

비용을 통제했고 조금이라도

이익이 나게 운영하려고 한 거죠.

 

모하저 대표는 그 덕분에 빠듯하게나마

인력을 늘리고 기술력을 키웠다고 말합니다.

 

mohajer_1

 

“이제 성장할 시점이 됐다고 봤어요.

우리 회사도, 시장도 준비됐으니까요”

 

모하저 CEO는 이 기회를

기다려왔다는 듯이 말했습니다.

 

회사 내부에선 기술력을 준비했고요.

외부 환경으론 자금이 준비됐습니다.

(스타트업 투자 시장 활성화입니다)

음성인식 서비스 시장도 준비됐죠.

 

threeapps

 

준비된 음성인식, AI 아키텍처 기술로

2015년 두 개의 앱을 론칭했습니다.

애플의 시리 같은 앱 ‘하운드’,

개발자 플랫폼 ‘하운디파이’를 내놨죠.

해서 총 세 개의 서비스를 제공합니다.

 

큰 회사들로부터 거금의

투자를 받을만큼 흐름을 탔고요.

 

(참조 – 맥킨지 AI 보고서

“투자와 기술은 준비완료, 기업은 아직”)

  

인공지능(AI), 딥러닝 기술을

이용한 서비스 시장 중에서도

음성인식이 활발해서 주목받고 있죠.

 

mohajer4

 

2000년부터 2005년까지

스탠포드 대학교에서 박사과정을 밟으면서

두 개의 결론에 도달했습니다”

 

“하나는 ‘음성이 AI를 움직일 것’.

AI가 사람과 기계 사이의 대화 형태

위주로 서비스화될 것이란 결론이고요”

 

“다른 하나는 ‘이 현상이

제가 살아있는 동안 일어날 것’.

그렇다면 내가 이 서비스를

만들어보고 싶다는 것이었습니다”

 

그의 말을 단초삼아

-음성인식 기술과 서비스 트렌드,

-사운드하운드가 도전하는 시장,

-그동안 발전시킨 기술력

좀더 자세히 살펴보겠습니다.

 

웃음_수정

12년 동안 회사를 유지시키고

버티게 한 세 가지 이유이니까요.!

 

1. 트렌드 : 모바일 -> AI 전략

 

AI는 두말할 것 없는 트렌드입니다.

 

얼리어댑터들이 쓸만한

사용 사례들을 만들어왔고요.

 

사운드하운드는 그 중 하나였습니다.

 

mohajer_2

 

“불과 10년 전인 2007년

IT 회사를 비롯한 모든 회사는

모바일 전략을 수립, 실행해야 했죠”

 

“2017년 지금은 AI입니다.

이른 감이 있더라도 지금

AI 도입 전략을 세워야 경쟁력을

미리 확보할 수 있습니다”

 

“저희도 AI로 서비스를 만들었다가,

트렌드를 보고 개발 플랫폼으로 피봇했죠.

서비스 만든 기술력이 있어서 가능했습니다”

 

변하지 않은 것은

음성인식이 AI의 꽃이 될 거라는

모하저 대표의 확신이었죠.

 

(사진=아웃스탠딩)

(사진=아웃스탠딩)

 

그는 음성인식 기술을 중심으로

자율주행차가 구현될 것이고,

가전제품이 연결되며

헬스케어 분야 등에서 혁신이

일어날 것이라고 이야기했습니다.

 

인식, 개인화 기술의 정확도가 높아질수록

수요가 많아져 일상에 스며드는 방식으로요.

 

웃음

삼성전자네이버가 사운드하운드에

투자한 이유도 여기서 찾을 수 있습니다.

어떻게든 AI 기술, 인력을 확보해야 하니까요.

 

(참조 – 삼성-네이버는 왜 사운드하운드에 관심갖나)

 

아마존, 구글보다 중립적이면서도

양질의 기술, 네트워크를 지닌 스타트업에

전략적으로 투자하고 파트너십을 맺습니다.

 

실리콘밸리의 기술 트렌드, 시장흐름을

읽을 수 있는 기회가 되기도 하고요.

 

2. 시장 : 쟁쟁한 회사들과의 경쟁

 

흐름은 이런데, 시장 규모는 어떨까요.

시장조사 기관 이마케터에 따르면

음성인식 시장은 2017년 7조원에서

2023년엔 약 21조원 규모로 성장합니다.

 

대중 시장에서는 음성인식 기기에

기술을 도입하는 경우가 많기 때문에

OEM 업체가 그 성장을 이끌 것이라고요.

 

echodot

 

지금도 아마존 알렉사, 구글 어시스턴트,

애플 시리가 시장의 주요 선수들이죠.

 

짜증_수정

“피봇 전엔 샤잠이라는 대단한 회사와,

후엔 그보다 더 강한 아마존, 구글,

애플 등의 상대를 만난 셈이네요.

산 넘어 더 큰 산이 있는데요ㅠㅠ”

 

이렇게 거대 회사들이 포진한 가운데

사운드하운드는 독립적인 포지션을

유지하는 데 집중하겠다고 밝혔습니다.

 

mohajer3

 

“여러 업체의 시스템을 통합하는

작업은 하지 않습니다. 플랫폼으로 남죠.

대형업체들은 데이터를 점유하려 하지만

저희는 그렇지 않겠다는 이야깁니다”

 

“또 저희는 회사들 서비스를 모아서

마구잡이로 제공하고 싶지 않았어서요.

라이선스 계약을 남발하지 않았습니다.

이것이 다른 AI 회사들과의 차이입니다”

 

앞으로도 개발자들이 자유롭게 올라타고

자율적으로 AI 서비스를 개발,

본인 서비스에 적용할 수 있는

독립적인 플랫폼으로 남고 싶다고 하죠.

 

시장에 독립적인 회사 하나는

남아야하지 않겠냐면서요.

 

 

시장에서의 서비스 성장 속도는

확실히 어느 정도 포기해야 했겠습니다.

 

(버텼기 때문에) 지금은 이것으로

경쟁력을 확보했고, 투자를 받았고,

자동차, 로봇 등 다양한 하드웨어사와

파트너십을 맺는 기회를 얻었지만요.

 

3. 기술력 : 차별화 포인트

 

 

영상은 대표가 하운드 앱의

데모를 보여주는 데부터 시작합니다.

 

놀람_수정

시연이기는 한데, 감탄이 나옵니다.

다시 생각하면 구글 어시스턴트,

애플 시리와는 다른 접근법을

취하기 때문에 덜 익숙한 걸까 싶죠.

 

두 가지 측면에서 차별화됩니다.

‘연동’과 ‘인식’ 기술이죠.

 

대표적으로 아마존 알렉사는 

사용자를 배워가면서 스킬(기능)들을

선형, 순차적으로 늘려가게 됩니다.

그 과정에서 다른 서비스와 제휴를 맺고요.

 

(사진=하운디파이)

(사진=하운디파이)

 

하운드, 하운디파이는 좀 다릅니다.

개발자들이 올린 서비스, 기술을 연동해서요.

스킬을 한꺼번에 확장할 수 있습니다.

 

즉 뒷단에서는 완전히 다른 접근법,

기술, 운영을 하는 건데요.

 

뒹굴

“흠, 뭐 좋아보이는데요.

서비스 사용자들은 특별하게

차이점을 느끼지 못할 거 같아요”

 

“아마존이 알렉사로 개별 회사와

라이선싱 계약을 맺어서 서비스를 제공하든지,

하운디파이에서 개발자들이 크라우드 소싱

방식으로 연동된 서비스를 내놓든지,”

 

“사용자는 모르고, 알 필요도 없으니까요.

그저 하나의 앱에서 편하게

포잉 추천 식당을 찾아서,

우버로 자동차를 불러서 가면 그만이죠”

 

사운드하운드는 대신 인식기술로 사용자에게

조금 다른 경험을 제공하려 합니다.

핵심은 발화-답변의 지연 속도를 줄이는 거죠.

 

모하저 CEO에 따르면 

다른 회사들은 스피치 투 텍스트,

즉 말을 문자로 바꿔서 단어 혹은 문장으로

인식하고 답변하게 만드는 접근법을 씁니다.

 

(사진=구글 어시스턴트)

(사진=구글 어시스턴트)

 

그러니 한번에 하나의 간단한 질문만 해야하고요.

인식 속도가 느려지고 실수 빈도는 높아지죠.

 

사운드하운드는 애초에 일상에서의

복잡한 대화를 구현하고자 했습니다.   

 

(이걸 한꺼번에 묻습니다. 밑에 내용이 나오니 보시죠!, 사진=사운드하운드)

(이 긴 문장을 한꺼번에 묻습니다. 밑에 내용이 나오니 보시죠!, 사진=사운드하운드)

 

‘스피치 투 미닝(meaning)’,

길고 복잡한 조건의 질문을 받아도

의미를 바로 알아듣고 답변을 주도록요.

 

(참조 – 인공지능과 커뮤니케이션

고려해야할 다섯 가지)

 

아까 공유한 영상의 내용을

예시로 보여드립니다.

 

넌뭐냐

“뉴욕에 있는 아시아 식당 중에

중국, 일본 식당 제외하고

별 네 개 이상인 곳이면서

수요일에 9시 이후에도 여는 식당”

 

이렇게 한번에 물어도 지연 시간이

거의 느껴지지 않을만큼 빠르게 답합니다. 

 

다음 질문은 이어서 다른 조건을

제시해서 교집합이 되는 식당을 찾아냅니다.

 

댄스

“여기서 한국 식당도 제외하고

와이파이가 되면서 3~5세 아이들을

데려갈 수 있는 아시아 식당 보여줘”

 

적절한 식당 한 두 곳이 나옵니다.

 

사운드하운드는 이렇게

느린 걸음을 걸어왔습니다.

 

개발자 2만5천명이 하운디파이를 이용하고,

11개 자동차 제조사와 하드웨어 제조사와

파트너십을 맺어서 기술을 제공하고 있는데요.

 

(사진=하운드앱)

(사진=하운드앱)

 

아직 눈에 띄는 성과는 아니죠^^;

기술력만으로 살아남을지도 미지수고요.

 

하지만 지금까지,

저 세 가지 이유로 잘 버티긴 했습니다.

 

음악 인식 앱으로 샤잠과

어려운 경쟁을 하는 가운데,

2010년 이후 투자를 받지 않았음에도

나름의 접근법을 견지하면서 피봇도 했고요.

 

이제 엔비디아, 삼성전자, 네이버 등으로부터

지원받으면서 새로운 도전도 하게 됐네요.

 

웃음_수정

어쨌든 지금까지의 행보를 보면

사운드하운드가 메시지 하나는

확실하게 던졌다는 생각은 듭니다.

 

준비된 자가 기회를 잡는다는 것이죠.!

 

*월 9900원 정기구독을 통해
아웃스탠딩과 함께 하세요!
 

결제하기 (클릭해주세요)

 
*혹시 아웃스탠딩 회원가입을 안하셨다면
회원가입 부탁드립니다. ^^
 

회원가입하기 (클릭해주세요)

 


 *해당 기사는 유료 콘텐츠로서 무단캡쳐 및

불법게재 시 법적 제재를 받을 수 있습니다.


 

댓글 남기기