말레이어 등 국내 최초 제공
음성인식·번역SW개발 지원

?
▲ 한국전자통신연구원이 국내에서 처음으로 태국어, 말레이어, 인도네시아어의 음성 데이터베이스(DB)와 영어대역문장 DB를 일반에 배포한다. 한국전자통신연구원 제공
[충청투데이 최윤서 기자] 한국전자통신연구원(이하 ETRI)이 국내에서 처음으로 태국어, 말레이어, 인도네시아어의 음성 데이터베이스(DB)와 영어대역문장 DB를 일반에 배포한다.

아랍어 및 베트남어도 함께 배포하는데 기존보다 데이터양을 대폭 늘렸다. 이로써 음성인식 및 번역엔진 해외 의존도를 줄이고 해당 언어를 활용한 다양한 서비스 개발에 큰 도움이 될 것으로 예상된다.

음성 DB는 최근 인기 있는 인공지능(AI) 스피커, 내비게이션, 사물인터넷(IoT) 등 음성인식 및 번역 SW개발에 기초가 되는 자료다. 따라서 가능한 품질이 좋고 많은 언어의 DB를 구축하는 것이 서비스 다양화와 고부가가치 서비스기술 창출의 핵심이라 할 수 있다.

ETRI는 △태국어 △말레이어 △인도네시아어 △아랍어 △베트남어 ‘대화체 음성DB 200만 발화(發話)’ △영어·태국어 △영어·말레이어 △영어·인도네시아어 △영어·아랍어 △영어·베트남어 ‘대화체 대역(對譯) 문장 DB 300만 문장’을 배포한다.

태국어, 말레이어, 인도네시아어 자료는 국내 최초로 제공되며 아랍어 및 베트남어는 ETRI 기존 자료에 데이터양을 늘려 배포한다. 국내 관련 업체들은 ETRI가 제공하는 자료를 받아 DB구축 비용을 대폭 절감할 수 있다.

ETRI 음성지능연구그룹 윤승 박사는 “DB를 활용해 언어음성기술을 개발할 경우, 다양한 외국 신규시장 진출 및 국가 경쟁력 강화에 큰 기여를 할 것으로 예측한다”고 설명했다.

최윤서 기자 cys@cctoday.co.kr
저작권자 © 충청투데이 무단전재 및 재배포 금지