김나연 ETRI 미디어지능화연구실 연구원

스마트폰으로 찍은 사진 한 장, TV에서 방영되는 드라마 한 편, 유튜브의 짧은 동영상 하나에도 셀 수 없이 많은 정보가 담겨있다. 필자는 이러한 미디어 속 정보들을 자동으로 분석하고 재창조해 새로운 가치를 만들어내는 일에 매료되어 있다.

‘미디어의 지능화’는 다양한 미디어에서 메타데이터, 에셋, 시점 등 정보를 자동으로 추출하고, 이를 바탕으로 새로운 미디어를 제작, 합성, 변환하는 혁신적인 기술이다. 이 기술은 우리의 일상적인 미디어를 귀중한 자원으로 변화시키고 있다.

영상 속 등장인물의 표정에서 감정을, 손동작에서 의미를, 전체적인 장면에서 맥락을 읽어내는 일은 인간에게는 자연스러운 과정이다. 하지만, 기계에게는 아직 첫걸음마를 배우는 아이와 같은 복잡한 과제다. 필자가 속한 미디어지능화연구실에서는 이러한 ‘이해’의 과정을 인공지능(AI)으로 구현하는 연구를 진행하고 있다. 먼저, 인물샷 세그멘테이션 기술은 영상 속 인물의 윤곽선을 정교하게 분리해내고 그들의 포즈와 행동, 표정을 분석한다. 이는 단순한 이미지 분할을 넘어, 장면의 맥락과 의미를 이해하는 시맨틱 분석으로 이어져 더 깊은 차원의 미디어 이해를 가능하게 한다.

아울러 여러 각도에서 찍은 2차원 이미지들로 3차원 객체를 만들어내는 기술도 개발 중이다. 이러한 기술은 인기 드라마에 등장하는 소품이나 의상을 여러 장면의 이미지로부터 3D 모델로 만들어내 시청자들이 상호작용할 수 있는 콘텐츠로 재탄생시킬 수 있다. 이는 마치 퍼즐의 조각들이 하나둘 모여 완전한 그림을 이루듯 다시점 이미지들에서 깊이 정보를 추출하고 이를 바탕으로 현실적인 3D 모델을 구축한다. 이러한 기술은 미디어 콘텐츠를 더욱 풍부하고 실감나게 만드는 데 기여한다.

오래된 영상을 선명하게 만드는 초해상화 기술은 흐릿한 과거의 창문을 닦아내듯 우리의 추억을 선명하게 되살린다. 추억이 담긴 애니메이션이나 드라마도 선명하게 복원할 수 있다. AI로 수많은 고화질 영상을 학습해 원본 미디어의 특성을 분석하고 복원하듯 초해상화 하기도 하고, 흐릿한 부분에 어떤 디테일이 있었을지 ‘상상’하여 이를 자연스럽게 채워 넣기도 한다.

이렇게 만든 기술의 성과는 공공분야에서도 하나, 둘 나타나고 있다. 영상자료의 풍부한 메타데이터는 정확하고 섬세한 자료를 찾아준다. 또한 청각장애인을 위한 수어 통역 서비스는 의료현장의 의사소통 장벽을 허물어 준다. 아울러 재난정보인지 취약계층을 위한 맞춤형 서비스는 위기 상황에서 소외된 이들에게 안전망을 제공한다. 또한 불법 촬영물 탐지 시스템은 디지털 범죄의 사슬을 끊어내는 강력한 방패가 되어 주기도 한다. 고도화된 언어 분석 시스템으로 대화의 맥락과 패턴을 분석하면 아동을 노리는 위험한 대화를 조기에 감지해 온라인 그루밍 위험을 탐지할 수 있다. 이처럼 미디어 지능화 첨단 기술은 우리 사회의 현실적인 문제를 해결하는 데 직·간접적으로 도움을 주고 있다.

미디어 지능화 기술의 발전 가능성은 끝없는 우주와도 같다. 실시간 처리 능력의 향상, 더 정교한 AI 모델의 개발, 새로운 응용 분야의 발굴 등 도전과제는 여전히 많이 남아있다. 필자는 미디어 지능화 기술이 우리 사회에 실질적인 변화를 가져올 것이라 믿는다. 미디어 속에 숨겨진 가치 있는 정보들을 발견하고, 이를 우리 시대의 새로운 가치 창출로 이어가는 것. 그것이 바로 내가 꿈꾸는 미디어 지능화 연구의 미래이다.

저작권자 © 충청투데이 무단전재 및 재배포 금지