충청권 유력후보 분석 보도

[충청투데이 심형식 기자] 충청투데이는 6월 1일 치러질 제8회 전국동시지방선거를 앞두고 충청권 각 선거구 유력 후보들을 대상으로 SNS 빅데이터 분석을 보도한다.

빅데이터 분석은 ‘공직선거법’의 선거에 관한 여론조사 및 그 결과와 다르다. 언급량이 많다고 그 후보의 지지율이 높은 것은 아니며 따라서 당선가능성을 예측할 수 있는 것도 아니다. 다만 후보들의 언급량, 연관어, 긍·부정어 비교를 통해 온라인 상에서의 흐름을 참고할 수 있다. 이번 빅데이터 분석은 ‘썸트렌드(https://some.co.kr/)’를 활용했다. 커뮤니티, 인스타그램, 블로그, 뉴스, 트위터(리트윗포함)가 분석 대상이다. 분석의 공정성을 위해 분석 조건은 최대한 단순화했다. 분석 단어는 후보자 이름, 포함어는 각 후보의 정당명을 사용했다. 포함어에 정당명을 사용했기 때문에 동명이인으로 인한 오류(예 국민의힘 대전시장 예비후보 이장우와 탤런트 이장우)는 보정됐다. 다만 같은당의 다른 지역구에서 동명이인이 있는 경우 오류가 나올 수 있기 때문에 충청권이 아닌 지역구의 명칭을 제외어에 포함시켰다. 검색기간은 분석하는 날로부터 한달로 설정했다.

분석결과 중 언급량은 SNS채널에서 검색한 분석 단어가 포함된 문서의 개수를 의미한다. 언급량이 높을수록 현재 SNS에서 활발히 거론된다는 뜻이다. 연관어는 검색한 분석 단어가 포함된 문서 분석 결과 분석 단어 즉 후보와 관련 있다고 판별된 단어다. 연관어 변화를 분석하면 분석 단어의 평판 및 이미지에 대해 알 수 있다. 연관어 그래픽의 동그라미가 클수록 연관도가 높다. 긍·부정은 검색한 분석 단어가 포함된 문서 분석 결과 분석 단어에 대한 감성을 의미한다. 긍·부정어 분석은 본인이 다른 후보를 비판해도 본인과 다른 후보의 부정어가 동시에 늘어난다는 특징이 있다. 즉, 네거티브 선거의 효과는 상대와 본인에게 같이 작용한다.

충청투데이의 빅데이터 분석은 선거 기간 다수 진행된다. 첫 빅데이터 분석은 후보 선정 과정이었기 때문에 언급량도 많지 않고, 대부분 경선과 관련된 연관어가 많았다. 향후 진행될 빅데이터를 참고하면 선거 이슈의 변화를 이해하는데 도움이 될 수 있다.

심형식 기자 letsgohs@cctoday.co.kr

저작권자 © 충청투데이 무단전재 및 재배포 금지