박수영 ETRI 미디어부호화연구실 연구원

우리는 인공지능(AI)의 시대에 살고 있다.

2012년 캐나다 토론토대의 제프리 힌턴교수가 만든 알렉스넷(AlexNet)이 이미지넷(ImageNet) 이미지 분류 대회에서 우승을 하면서 많은 관심을 받기 시작했다.

2016년 알파고 대 이세돌 딥마인드 챌린지 매치에서 알파고가 승리하면서 대중들에게 인공신경망 기반의 AI 기술이 널리 알려지는 계기가 됐다.

필자는 학부 수업에서 인공신경망이란 단어를 수업에서 처음 접했다. 그 당시 AI란 분야는 대부분 학생들이 나의 전공과는 크게 상관없는 분야로 생각을 했다.

막연한 대중들이 바라보는 정도의 수준에서 AI란 분야를 바라보고 있었던 셈이다. AI는 무한한 가능성을 가지지만 활용하기 어려워 보이는 분야 정도로 생각을 했기 때문인 점도 있었다.

하지만 시간이 지난 지금 AI는 활용되지 않는 연구 분야를 찾기 힘들 정도로 많은 곳에서 쓰이고 있다. 이에 따라 이를 활용하기 위한 도구들도 많이 보편화가 돼 접근성이 용이해졌다. 필자는 연구원에 입사해 통신미디어연구소 미디어부호화연구실에서 음향 이벤트 및 장면 인식 관련해 처음 인공신경망 기반의 AI를 사용하게 됐다. 약 1년 8개월 동안 선배 연구원들과 과제를 수행하며 과제의 알고리즘 검증을 위해 ‘음향 이벤트와 장면 인식 경진대회(DCASE)’에 매년 참가했다.

2016년도 해당 경진대회에서 인공신경망을 사용한 방법론이 좋은 성능을 보이면서 최근 대부분의 참가자들이 인공신경망을 활용을 하고 있다.

인공신경망은 이미지 데이터를 학습하는 것에 특화된 알고리즘이지만 최근 음성 등 다양한 데이터를 학습하는 것에도 좋은 성능을 보이고 있다. 처음엔 본 기술이 무한한 가능성을 보일 것으로 생각됐지만 기대에 미치지 못해 아쉬움도 있었다.

인공신경망의 성능은 연구진이 사용하는 음향 데이터에서 기대치에 못 미쳤던 것이다.

이미지/음성 데이터와 달리 음향 데이터의 경우 음향 인식 인공신경망 학습에는 충분한 음향 데이터가 확보가 관건이다.

그래서 이에 대한 해결이 충족돼야 좋은 결과도 예측가능한 것이다. 비록 올해 참가한 음향 이벤트와 장면 인식 경진대회에서 선배 연구원들과 세계 1위라는 좋은 성과를 만들었으나 음성이 아닌 일반적인 소리에 대한 인식 성능은 인간이 수행할 수 있는 수준과 비슷하거나 아직까지는 그보다 못한 수준에 머물고 있다.

하지만 이미지 데이터를 활용한 AI 기술은 점점 많은 관심을 받고 있어 빠른 속도로 발전하고 있다. 또 단순 이미지 인식을 넘어 무인자율주행차의 자율주행으로 이어지면서 무한한 가능성도 보여주고 있다. 소리 데이터에서 정보 추출이 쉬운 음성 데이터의 경우 최근 음성 인식 기술 및 변조 기술 등 다양하게 발전 중이다. 이처럼 기술의 발전은 아직 AI가 활발히 활용되지 않은 분야에서 AI를 통한 새로운 미래가 곧 펼쳐질 것처럼 생각하게 만들기도 한다. 연구진이 현재, 활용하고 있는 음향 데이터에서의 AI는 이제 막 걸음마를 뗀 수준이다. 아마 음향 데이터뿐만 아니라 AI의 성능이 충분히 나오지 않고 있는 분야도 많을 것이다.

‘AI가 다 해주지 않을까’란 맹목적인 시각을 잠시 내려두고 아직 발전 가능성이 남아있는 분야에서의 도약을 시간을 갖고 기다려주는 작은 인내가 필요하다는 생각이다.

저작권자 © 충청투데이 무단전재 및 재배포 금지