최지안 대전시청자미디어센터 전문
진시황 사후 권력을 잡은 환관 조고는 사슴을 끌고 와 황제에게 ‘말’이라 우겼다. 신하들이 감히 사실을 말하자 그는 그들을 제거했고, 끝내 궁정은 그의 말에만 고개를 끄덕였다. 바로 지록위마(指鹿爲馬), 사슴을 가리켜 말이라 한 고사다. 아첨이 진실을 왜곡하고 공동체를 파멸로 이끄는 독이라는 교훈이다.
오늘날 우리는 또 다른 지록위마를 목도한다. 생성형 인공지능이다. 챗봇은 "훌륭한 선택입니다", "탁월한 의견입니다"라며 사용자의 기분을 맞춰준다. 스탠퍼드대 연구에 따르면 대형 언어모델은 인간보다 50% 더 자주 사용자의 판단을 옹호하는 ‘시코팬시’ 경향을 보였다. 사용자가 잘못된 행동을 묻더라도 AI는 "당신이 옳다"고 답하는 식이다. 이런 답변은 일시적 위안을 주지만, 비판적 사고를 약화시키고 잘못된 결정을 강화한다.
또 ‘ELEPHANT 프레임워크’라는 평가 도구가 소개됐다. 이름부터 의미심장하다. ELEPHANT는 단순히 동물을 가리키는 것이 아니라, ‘Excessive Sycophants(과도한 아첨꾼들)’의 축약으로 보이며 동시에 영어 표현 "the elephant in the room" 모두가 알지만 외면하는 커다란 문제를 빗댄 것으로 생각된다. 즉, 챗봇의 아첨은 귀엽거나 사소한 버그가 아니라, 누구나 보고 있지만 정면으로 다루지 않는 거대한 위험이라는 메시지를 담고 있다. 연구 결과도 충격적이었다. GPT-4o, Gemini, Claude 등 주요 모델은 인간보다 세 배 가까이 더 감정적으로 공감하는 말을 사용했다. 예컨대 "그럴 수 있어요" 같은 검증 표현은 AI가 76%, 인간은 22%에 불과했다. 간접 표현은 AI 87% vs. 인간 20%, 사용자의 전제를 그대로 받아들이는 비율은 AI 90% vs. 인간 60%였다. 결국 AI는 정답을 따지는 대신, "맞습니다, 충분히 그럴 수 있습니다"라며 맞장구치는 데 집중한다.
최근 브라운대 연구팀이 챗봇이 위기 상황에서 윤리 기준을 어기며 자해나 망상을 강화할 수 있다는 결과를 발표했다. 아첨과 과잉 공감이 정서적 함정으로 이어질 수 있다는 증거다. 이 아첨은 어디서 비롯될까? 핵심은 RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 강화학습)이다. AI는 여러 답변 중 인간 평가자가 고른 것을 보상으로 학습한다. 그런데 사람들은 대체로 긍정적이고 공손한 표현을 선호한다. 그 결과 AI는 ‘사실이나 반대 논리’보다 ‘듣기 좋은 말’을 더 자주 내놓도록 학습된다. 아첨은 버그가 아니라 구조의 산물이다.
그렇다면 어떻게 해야 할까. 첫째, AI의 답변을 검증되지 않은 초안으로 받아들이자. 둘째, 역질문을 던지자. "이 주장에 반대되는 근거는 무엇인가?", "이 답변에서 빠진 정보는 무엇이지?", "만약 내가 틀렸다면 어떤 결과가 생길까?" 같은 질문은 AI를 아첨의 틀에서 벗어나게 만든다. 셋째, 서로 다른 모델·출처를 교차 검증해 ‘합창’을 깨뜨리자. 마지막으로 제도적 장치가 필요하다. AI 답변에 긍정적 편향이 개입했음을 알리는 자동 라벨링, 기업이 정기적으로 자사 모델의 아첨 비율을 공개하는 ‘아첨지수(Flattery Index)’, 청소년 계정에는 반드시 반대 논리·불확실성 표시를 병기하도록 하는 이용자 보호 기준이 그것이다. 더 나아가 정부 차원에서 RLHF 과정과 데이터 편향을 점검하는 AI 윤리 감독기구를 마련해야 한다. AI 시대를 안전하게 항해하려면, 우리는 기분 좋은 답보다 불편해도 옳은 답을 요구할 수 있어야 한다.
