본문 바로가기

관심분야/HCI

MS의 텔미(Tellme)사 인수에서 본 음성 인터페이스의 바람직한 방향


2007.3.17일 퓨처 워커

(http://www.futurewalker.co.kr)


지난 14일(현지시각)에 MS는 텔미(Tellme.com)이라는 음성인식 솔루션 업체를 인수한다고 발표가 났다. 재미있는 것은 최근에 필자가 아이폰에 대한 인터페이스를 평가한 글인 "아이폰의 인터페이스는 대중적이지는 않다-1"라는 글에서 "투명한 인터페이스"라는 비유를 써서 음성 인터페이스의 중요성에 대해서 언급한 적이 있다. MS는 이미 오래전부터 음성 인터페이스와 필기 인식 인터페이스에 대해서 투자를 해오고 있다. 하지만, MS 내부 연구소의 투자에도 불구하고 아직까지 MS의 음성 인식 솔루션이 상용화된 것은 그리 많지 않다.

필자 의견으로 HCI 기술에서 모든 인터페이스 기술의 꽃은  음성 처리  기술이라고 본다. 음성 처리 기술은 크게 음성 출력과 음성 인식으로 나눠지며, 음성 출력은 우리가 흔히(TTS : Text to Speech)라고 불리는 기술이고, 음성 인식은 잘 알려지다시피 화자 독립과 화자 종속적 인식 기술들이 있다. 하지만, 사실은 하나 더 있는 것이 바로 "언어의 종속성" 이다.

간단히 생각해서 "음성 인식"을 단순히 "Voice"이라는 "Sound" 데이타를 "Text" 데이타로 바꾸는 "변환"으로서의 역활만을 생각한다면 "음성 인식"은 "언어 독립적"으로 개발할 수도 있을 것이다. 즉, "언어"에 관련해서 하나의 알고리즘으로 여러 언어를 동시에 지원이 가능하다는 얘기이다. 하지만, 현실은 그렇지 못하다. 그 이유는 진정한 "음성 인식"은 "단어", "문법"과 "문맥" 그리고 "상황"까지 고려해야 인식률이 좋은 음성 인식이 가능하기 때문이다. 결과적으로 "음성 인식"은 "언어 독립적"이라는 것은 불가능하다고 생각된다.


사용자 삽입 이미지


그럼 이런 완벽한 음성 인식 기술이 구현이 가능할까? 필자 생각에는 쉽지 않다고 판단한다. 이에 대한 대안은 결국 "Domain"을 제한할 수밖에 없다. 즉, 음성 인식이 처리해야 하는 분야에 대한 제한을 함으로써 위에서 처리해야 할 "언어", "단어", "문법", "문맥" 그리고 "사용하는 상황"을 제한하는 솔루션을 만들어야 그 효용성을 높일 수밖에 없는 것이 현실적인 접근방법이다.

MS가 이번에 인수한 "Tellme"사의 솔루션을 자세히 볼 수는 없었지만, 결국 이러한 "도메인 제한"들이 적용된 것을 알 수 있다. "영어" 언어 기반으로 "휴대폰에서 사용할 수 있는 응용 분야"에 대해서 제한된 "단어", "문법", "문맥" 그리고 "휴대폰에서 사용할 만한 상황"등을 제한한 어플리케이션으로 제한 될 것으로 예상된다.

그럼 고객 입장에서는 무엇이 필요한가? 결국은 "인식률"이다. 즉, 고객이 기대하는 "응용 분야"에 대한 서비스에 대해서 제한되기는 하겠지만, 그러한 제한성에도 불구하고 일반인이 만족할 수준의 "화자 독립"의 "인식률"을 제공한다면그 솔루션의 가치는 충분하다고 볼 수 있다.

음성 인식 인터페이스는 미래 지향적인 인터페이스이다. 하지만 "도메인 제한"이라는 적절한 방법론을 적용한다면 미래의 기술이라도 분명히 "현실"로 만들어줄 수 있다. 역시 "현실"을 만드는 것이 우리 엔지니어가 해야 할 일이 아니겠는가?

북한산 자락에서 퓨처 워커가.