박전규 ETRI 음성지능연구그룹 책임연구원
[젊은과학포럼]

최근 인공지능 기술의 중요한 조류인 ‘딥러닝’ 기반 음성인식 기술의 혁신적인 성능 개선에 따라 음성검색을 비롯해 다국어 자동통역, 대화형 음성비서에 이르기까지 다양한 수준의 음성인식 서비스가 현실화되고 있다. 가까운 장래에 사람을 대신해 고객과의 간단한 상담 업무를 수행하거나 원어민 선생님 없이도 외국어 회화연습이 가능해 질 수 있을 전망이다. 또 영화 ‘그녀(Her)’의 주인공 사만다와 같이 인간과 유사한 수준의 상식과 자아를 갖는 인공지능 기반의 새로운 인류가 나타나는 것도 상상속의 이야기는 아닐 것으로 회자된다.

음성은 인간의 가장 자연스런 의사소통 방식으로 1950년대 인공지능이라는 개념이 정립되는 시점을 전후해 꾸준히 인간수준의 음성인식 능력을 실현하고자 하는 시도가 있어왔다. 2010년대 들어 구글 음성검색 및 애플의 시리를 필두로 최근까지 아마존 에코와 구글 홈 등 글로벌 IT 강자들이 보다 인간에 근사한 수준까지 음성인식 기술 개발을 주도하고 있다. 국내서도 삼성전자, 카카오, SKT, 네이버 등이 앞 다투어 음성인식 기술 개발에 많은 투자를 하고 있다.

ETRI 음성지능연구그룹은 1980년대부터 현재까지 30년 넘게 국책사업 기반의 음성인식 기술 개발을 주도하고 있다. 다양한 노력을 통해 많은 사업화 사례를 이루었다. 대표적으로 2008년 당시 세계 최초로 내비게이션 단말기에서 약 50만 개의 행선지를 높은 정확도로 인식하는 기술을 상용화했다. 같은 해 기아자동차의 준중형 신차인 포르테에 국산 음성인식 기술을 최초로 적용함에 따라 외산기술에 의존하는 국내 완성차 업계에 새로운 기술적 교두보를 확보했다. 또한 2010년 6월 구글에 앞서 세계 최초로 한국어 음성검색을 다음커뮤니케이션(현 카카오)과 함께 상용 서비스를 개시했다. 당시 음성인식 기술의 글로벌 최강자인 뉴앙스와의 성능 평가 우위를 바탕으로 채택된 기술적 성과이기도 했다.

또한 인공지능 스피커와 더불어 최근 몇 년간 세계 음성인식 시장에서 가장 뜨거운 기술 사업화 영역 중의 하나가 음성분석(Speech Analytics) 서비스이다. 본 기술은 콜센터 상담원과 고객과의 통화 녹음 데이터를 자동으로 음성인식 하는 기술로 자연어 대화체 음성인식 기술의 대표적 상용화 사례로 꼽히고 있다. ETRI의 누적된 기술력을 바탕으로 현재까지 본 기술은 국내 10개 기관에 기술이전 했다. 국내외 대기업의 주요 콜센터를 대상으로 하는 사업화 사이트만 해도 30개 이상에 이른다. 지난해 9월에는 북미지역에 본 기술이 진출해 사업화 사례를 만드는 쾌거를 이루기도 했다. 이러한 사업화 실적을 근거로 필자는 2015년 12월에 당시 SW 분야에서는 유일하게 기초원천기술사업화 유공자 표창을, 올해 2월에는 본 기술이 출자된 연구소기업과 함께 연구개발특구 기술사업화 부문 대상을 공동 수상하는 등 2년 연속 기술 사업화 관련 수상의 영예를 안았다.

인공지능과 음성인식 기술은 여전히 기술적인 한계가 매우 많지만 그 미래는 어느 때보다도 밝고 투자가치도 무한하다. 필자가 속한 연구그룹도 제4차 산업혁명의 도래와 함께 세계적 기술 주도권 확보를 위해 끊임없이 노력중이다. 맨 앞에 서서 기술을 선도하는 ‘퍼스트 무버(First Mover)’로서 연구개발 하는 연구진에게는 무엇보다 국민들의 관심과 성원이 절실히 필요하다.
저작권자 © 충청투데이 무단전재 및 재배포 금지