[충청투데이 최윤서 기자] 과학기술정보통신부와 정보통신기획평가원(IITP)의 혁신성장동력 프로젝트로 추진 중인 엑소브레인 사업에서 최첨단 한국어 언어모델을 공개했다.

10일 한국전자통신연구원(이하 ETRI)은 최첨단 한국어 언어모델 ‘코버트(KorBERT)’를 홈페이지를 통해 공개했다.

연구진이 공개한 모델은 두 종류다. 구글의 언어표현 방법을 기반으로 더 많은 한국어 데이터를 넣어 만든 언어모델과 한국어의 ‘교착어’ 특성까지 반영해 만든 언어모델이다. 하반기에는 ETRI의 언어모델을 활용한 ‘법령분야 질의응답 API’를 추가 공개하고 ‘유사 특허 지능형 분석 기술’도 출시를 목표하고 있다.

이번 한국어에 최적화된 언어모델이 △전처리 과정에서 형태소를 분석한 언어모델 △한국어에 최적화된 학습 파라미터 △방대한 데이터 기반 등이 구글과 차별성 있는 특징이다.

개발된 언어모델은 성능을 확인하는 5가지 기준에서 구글이 배포한 한국어 모델보다 성능이 평균 4.5% 가량 우수하다.

최윤서 기자 cys@cctoday.co.kr

저작권자 © 충청투데이 무단전재 및 재배포 금지