▲ 심주용 ETRI 의료정보연구실 선임연구원.

심주용 ETRI 의료정보연구실 선임연구원

지난 10여 년간 바이오 의료 ICT 분야의 연구를 하면서 점점 인공지능(AI)의 역할이 커지는 것을 실감하고 있다.

국가 정책 사업으로 굵직한 의료 AI 사업들이 진행되고 있으며 병원 중심의 연구가 진행되는 것 외에도 서비스 개발자를 중심으로 AI 기반 의료기기가 속속 허가를 받고 있다.

이제는 AI 기반 의료 서비스들이 의료 데이터의 해석을 보조하는 역할뿐만 아니라 질병 진단과 의료영상 해석과 같이 전문적인 의료영역에 이르고 있다.

심지어 일부 영역에서는 의료인력보다 더 높은 능력을 보여주기도 한다.

최근 이러한 변화는 다양한 분야의 AI 중에서도 의료 AI의 급격한 발전을 환기시켜 준다.

AI의 발전에는 AI 알고리즘뿐만 아니라 이를 뒷받침하기 위한 데이터확보가 무엇보다 중요하다.

필자도 AI 알고리즘 연구를 위해 투자하는 시간보다도 학습에 필요한 데이터를 모으고 가공하는 데 대부분의 시간을 보내고 있다.

그중에서도 의료 분야의 학습데이터는 다양한 이유로 AI를 개발하는데 가장 큰 도전이자 어려움이라고 할 수 있다.

AI 연구를 위해 다양한 분야에서 벤치마크(Benchmark)라고 불리는 데이터셋들이 공개되면서 AI 발전에 밑거름이 됐다.

영상 분야에서 유명한 이미지넷(Imagenet) 데이터셋부터 영상 속 사물을 인식하거나 얼굴, 문자를 인식하기 위한 데이터셋, 그리고 음성이나 언어의 이해를 위한 질의응답 혹은 음성인식 데이터셋 등이 공개되면서 급속하게 기술이 발전됐고 특히 기술의 발전 정도를 한눈에 알아볼 수 있게 됐다.

또 얼바인 캘리포니아 주립대(UCI)의 기계학습용 데이터 저장소나 캐글(Kaggle)과 같이 공개데이터를 기반으로 한 커뮤니티들이 생겨나면서 연구자들이 경쟁과 협력을 통해 AI를 발전시키고 있다.

하지만, 의료 분야 데이터는 개인정보보호 및 의료정보보호의 문제가 있다. 특히나 의료정보는 민감한 개인정보이기 때문에 데이터를 한곳에 모아서 협력하거나 경쟁하면서 연구를 하기에 어려운 구조다.

또 질병의 특성 때문에 데이터 자체가 희귀하거나 데이터가 특정 그룹에 편향되어 있기도 하며 전문적인 해석이 어려워 대량의 고품질 학습데이터가 부족한 문제가 존재한다.

이러한 문제를 해결하기 위해 정보 암호화를 통해 보안을 강화하거나 개인정보를 비식별화하는 기술이 사용되고 있으며 최근에는 데이터를 한곳에 모으지 않고 분산적으로 AI를 학습시키는 방안이 제시되고 있다.

최근에는 학습하는 방법을 학습하는 메타학습(Meta Learning)으로 관심 데이터의 수가 적더라도 성능을 올릴 수 있는 연구가 진행 중이다.

하지만, 정보 암호화나 개인정보 비식별화가 되더라도 여전히 의료정보보호 문제가 완전히 해결되지 않으며 전이학습이나 메타학습도 결국 관심 데이터가 아니더라도 학습을 위한 데이터가 필요하거나 그 성능을 보장할 수 있는지는 의문이 남는다.

개인정보를 보호하면서 동시에 데이터 부족 문제를 해결할 수 있는 기술적인 노력이 더욱 필요한 시점이다.

앞으로 연구자들이 협력 연구할 수 있는 연구생태계가 마련되고 AI 기반의 의료 서비스가 구현되어 많은 사람들이 낮은 비용으로 양질의 의료 서비스를 받을 수 있는 복지 의료 시스템의 발전을 기대해 본다.

저작권자 © 충청투데이 무단전재 및 재배포 금지