LLM 모델은 하루가 다르게 그 성능이 업데이트되고 있습니다. AI가 멀티모달이 가능해지면서 기존 텍스트 뿐만 아니라 이미지, 오디오, 비디오 등 다양한 종류의 데이터를 이해하고 생성할 수 있는 수준이 되었구요. 학습과 추론 성능도 좋아져서 복잡한 대화의 맥락을 더 정확히 이해하고 대답할 수 있게 되었습니다. 단계별 사고(CoT), 검색증강생성 (RAG) 등의 기법들로 추론 능력을 높혀서 더 정확한 답변을 낼 수 있는 AI로 발전되어 가고 있기도 합니다. 최근에는 단순한 답변을 넘어서 AI 스스로 자율적으로 계획을 세우고, 외부 도구들을 연결해 실제로 미션을 수행할 수 있는 Agentic AI로의 진화도 가속화되고 있는 중이죠.
하지만 이렇게 놀라운 향상에도 불구하고 언어 모델이 완전히 해결하기 어려운 과제 중 하나가 바로 할루시네이션 Hallucination 입니다. AI 모델들이 업데이트됨에 따라 할루시네이션 증상이 확실히 개선된 것은 맞습니다. 하지만 그럼에도 불구하고 최신의 모델에서도 할루시네이션은 여전히 발생하고 있고, 가장 정확한 답변을 요구하는 분야에 있어서도 할루시네이션을 완전히 막아내지는 못하고 있습니다. 왜 그럴까요?
언어 모델이 할루시네이션 증상을 겪는 이유는 언어 모델의 기술적인 이유 뿐 아니라 학습 및 평가 방법 때문이라는 논문이 발표되었습니다. 오픈AI가 발표한 내용인데요. 언어 모델에 대한 학습 및 평가가 불확실성을 인정하는 쪽보다는 추측을 오히려 장려하는 쪽으로 바이어스되어 있기 때문에 할루시네이션이 근절되지 못하고 있다고 지적하고 있어요. 잘 모르겠다고 답변하는 것보다는 뭐라도 답변하는 쪽이 더 낫다고 교육을 받았기 때문에 근본적으로 할루시네이션이 발생할 수 밖에 없다는 주장입니다. 흥미롭지 않나요?
이번 <수요 레터>에서는 할루시네이션에 대한 진실과 오해, 한번 살펴보도록 하겠습니다.
먼저 언어 모델에서 할루시네이션이 무엇인지를 간단히 정리하면 좋겠습니다.
할루시네이션은 언어 모델에 의해 생성되는 그럴듯해 보이지만 사실은 잘못된 (혹은 거짓의) 응답을 하는 현상을 의미합니다. 언어 모델은 사람이 보기엔 너무 상식적인 질문에 대해서도 엉뚱한 답변을 내놓기도 합니다. “세종대왕이 맥북을 던진 사건에 대해 알려줘” 라는 질문에 대해 예전 모델은 말도 안되는 대답을 내놓기도 했죠. 누가 봐도 말이 안되는 질문인데 말이죠. 최근 언어 모델에도 이런 증상들이 사라지지 않고 있습니다. 이번 보고서에 따르면 이 논문의 저자인 아담 타우만 칼라이의 박사의 학위 논문 제목을 물었을 때 세 가지 다른 답변을 제시했는데, 모두 정답이 아니었습니다. 생일을 물었을 때도 역시 오답을 냈구요. 모르면 모른다고 얘기해야 하는데, 엉뚱한 답변을 마치 진짜처럼 답변하는 것이 ‘할루시네이션’의 문제 입니다. 단순히 오답을 낸다는 것이 할루시네이션 문제의 핵심이 아닙니다. 잘못된 답을 정답인 것처럼 속이는 것이 할루시네이션의 본질입니다.
할루시네이션에 대한 정의를 다시 한번 정리해 봤다면, 이제 본격적으로 할루시네이션의 오해와 진실을 체크해 보겠습니다.
오해 : 정확한 모델은 할루시네이션을 일으키지 않는다.
진실 : 정확도를 높힌다고 해서 할루시네이션이 반드시 사라지지 않는다.
정확한 모델이 할루시네이션을 줄인다는 말은 틀린 얘기는 아닙니다. 초기 언어 모델의 경우 학습 기법, 모델의 사이즈와 성능, 학습 데이터의 규모 등의 한계로 인해서 결과의 정확도가 매우 낮았습니다. 당연히 할루시네이션 증상도 빈번하게 일어났구요. 그래서 언어 모델이 발전함에 따라서 할루시네이션 증상도 많이 개선된 것은 사실입니다. 하지만 정확도를 올리는 것만으로는 할루시네이션을 없앨 수는 없습니다.
언어 모델은 방대한 양의 텍스트을 학습해서 다음 단어를 예측하는 과정을 통해 추론하게 됩니다. 그런데 기계 학습과는 달리, 언어 모델의 학습에 사용된 텍스트에는 "참/거짓" 이라는 라벨은 붙어 있지 않습니다. 언어 모델은 학습된 데이터의 내용만을 근거로 질문에 대한 확률적인 답변을 내놓게 되는데, 데이터에 옳고 그름에 대한 표시가 없는 경우는 답변의 진실과 거짓을 구분해 내는 것이 매우 어려운 일이 되어 버리는 겁니다.
그리고 어떤 레이블이 있는 데이터로 학습했다 하더라도 일부 오류는 불가피한 면이 있습니다. 예를 들어 이미지 인식에서 수백만 장의 고양이와 개 사진에 "고양이" 또는 "개"라는 레이블이 지정되면 알고리즘은 이를 안정적으로 분류하는 법을 학습할 수 있습니다. 하지만 각 반려동물 사진에 반려동물의 생일을 레이블로 지정하는 경우를 상상해 본다면, 생일은 본질적으로 무작위이기 때문에 알고리즘이 아무리 발전했더라도 이 작업은 항상 오류를 발생시킬 것입니다.
결국 완벽한 정확도를 가진 언어 모델은 불가능하고, 정확도를 놓인다고해서 할루시네이션을 근본적으로 없앨 수 있다는 접근은 잘못된 것입니다.
오해 : 할루시네이션은 불가피하다.
진실 : 언어 모델이 불확실성을 회피할 수 있기 때문에 할루시네이션은 불가피하지 않다.
할루시네이션에 불가피한 측면이 있는 것도 사실입니다. 실제로 언어 모델이 발전된다 하더라도 앞선 오해에서처럼 100% 정확도를 이룬다는 것은 불가능하고, 따라서 할루시네이션도 불가피하게 발생할 수 밖에 없다는 거죠. 하지만, 이번 보고서에서 얘기하는 핵심 내용은 할루시네이션이 지속되는 발생하는 이유 중 하나는 현재의 평가 방법이 잘못된 인센티브로 작동하기 때문이라는 점입니다. 물론 언어 모델 평가 자체가 할루시네이션을 직접적으로 유발하는 것은 아닙니다. 하지만 대부분의 평가는 불확실성에 대해 정직하게 답변하는 것보다는 추측을 하도록 부추기는 방식에 더 높은 점수를 주기 때문에 언어 모델은 기본적으로 할루시네이션에 대한 유혹을 받을 수 밖에 없습니다. 유혹이란 표헌이 왠지 좀 어색해 보이기도 하지만, 아무튼 언어 모델은 할루시네이션을 유도하는 쪽으로 바이어스될 동기를 충분히 가질 수 밖에 없다는 점이죠.
학교에서 시험을 본다고 생각해 보죠. 답을 정확히는 모르지만 나름대로 알고 있는 내용을 기반으로 최대한 추측해서 답변을 썼다고 하면 그래도 어느 정도 점수는 받을 수 있을 겁니다. 그런데 만약 잘 모르겠다고 시험지에 그냥 빈칸으로 두면 여기엔 점수를 전혀 받을 수는 없겠죠. 언어 모델의 평가도 마찬가지 입니다. 언어 모델이 "모르겠습니다"라고 답하기보다는 뭐든 나름대로 유사한 답변을 내는 경우 더 좋은 점수를 받게 되는 구조인 겁니다. 그래서 언어 모델의 학습과 평가의 기준을 조정함으로써, 즉 언어 모델의 교육 방식을 바꿈으로써 할루시네이션을 제거해 갈 수 있습니다.
오해 : 할루시네이션을 피하려면 더 큰 모델에서만 달성 가능한 수준의 지능이 필요하다.
진실 : 작은 모델일수록 자신의 한계를 알기 쉬울 수 있다.
더 큰 언어 모델일 수록 할루시네이션은 더 적을 것이라는 믿음이 있죠. 더 많은 내용으로 학습되었으니 더 똑똑한 답변을 낼 수 있으리라는 것인데, 사실이죠. 하지만 반드시 그럴까요? 예를 들어, 마오리족 질문에 답하라는 요청을 받았다고 해보죠. 마오리족을 전혀 모르는 작은 모델의 경우는 단순히 "모르겠습니다"라고 쉽게 답할 수 있을 것입니다. 하지만 마오리족을 어느 정도 아는 모델의 경우는 나름대로 가지고 있는 정보를 바탕으로 마오리족에 대한 정보를 내놓겠죠. 하지만 이 경우, 그 대답의 정확도를 판단해야 합니다. 큰 언어 모델은 할루시네이션에 대해 자유로울 수 없게 됩니다. 결국 할루시네이션이란 측면에서 봤을 때는 언어 모델의 성능과 사이즈는 별개의 문제가 됩니다.
최근 온디바이스 AI에 대한 논의가 늘고 있습니다. 작지만 주어진 정보 내에서 최대한 정확하게 필요한 답변을 내놓을 수 있는 언어 모델의 유용성이 높아지는 거죠. 또한 Agentic AI는 어떤 하나의 분야에 전문적인 AI들을 서로 연결해서 전체적인 미션에 대한 대답을 내놓는 방향을 진화하고 있습니다. 이 역시 작은 AI에 대한 가능성의 탐구라고 볼 수 있을 것입니다.
오해 : 좋은 평가 기준으로 할루시네이션 개선이 가능하다
진실 : 평가 기준만으로는 할루시네이션을 개선하기 어렵다
다양한 언어 모델 평가 기준들이 있습니다. 최근에는 언어 모델 뿐 아니라, 이미지, 오디오, 영상 등에 대한 평가 기준들로 확대되어 가고 있죠. 평가 기준들이 하나의 브랜딩이 되어 비즈니스 모델이 될 정도입니다. 그래서 당연히 할루시네이션에 대한 평가 기준들도 다양하게 존재합니다. 하지만 기존의 할루시네이션에 평가법은 제한적일 수 밖에 없습니다. 어떤 평가 방법으로도 할루시네이션을 완벽하게 체크할 수는 없습니다. 샘플링으로 제한적인 테스트를 통해 통계적인 기법으로 할루시네이션 점수를 낼 수 밖에 없는 것이 기존 할루시네이션 평가 기준의 한계입니다.
따라서 단순히 평가 기준만으로 할루시네이션을 제거할 수 있다는 기대는 접는 것이 좋습니다. 오히려 학습 과정에서의 보상 체계에 변화를 주는 것이 더 설득력을 얻고 있습니다. 언어 모델의 학습 과정에서 불확실성보다 자신감 있는 오류에 더 큰 패널티를 주고, 불확실성을 적절하게 표현한 부분에 오히려 높은 점수를 부여하는 것입니다. 좋은 방법이죠. 이런 형태의 연구도 많이 진행되고 있고 최근의 언어 모델에도 상당 부분 이런 학습 방법이 반영이 되고 있다고 합니다.
하지만, 이번 오픈AI의 보고서에는 이것만으로는 불충분하다는 의견을 제시하고 있습니다. 불확실성을 고려한 몇 가지 패널티를 학습 과정에 추가하는 것만으로는 만족할 만한 결과를 얻을 수 없고, 근본적으로는 정확도 기반 평가의 채점 방식에서 모델의 추측하는 의도 자체를 배제하도록 개선되어야 한다고 말하고 있습니다. 학습 과정의 바이어스가 계속해서 운 좋은 추측에 보상을 주는 방향으로 진행된다면 모델은 계속해서 추측하는 법을 배우게 될 것입니다.
아래는 오픈AI의 최근 모델인 GPT-5 Thinking-mini 과 이전의 o4-mini 모델과의 비교 테이블입니다.
측정 방법 | gpt-5-씽킹-미니 | OpenAI o4-mini |
---|---|---|
기권율 (구체적인 답변 없음) | 52% | 1% |
정확도 비율 (정답일수록 높음) | 22% | 24% |
오류율 (잘못된 답변, 낮을수록 좋음) | 26% | 75% |
총점 | 100% | 100% |
전체 총점 100% 기준으로 봤을 때, 정확도 면에서는 오히려 기존 o4-mini 모델이 더 좋습니다. 하지만, 할루시네이션 점수는 큰 차이가 나는 것을 볼 수 있습니다. GPT-5 Thinking-mini가 훨신 좋아졌죠. 이는 아마도 기권율에서 그 이유를 찾을 수 있을 것입니다. o4-mini 모델의 경우는 잘 모르겠다고 답변하는 비율이 1%에 불과한 반면, GPT-5 Thinking-mini 의 경우는 기권 응답률이 무려 52%에 이릅니다. 정확히 모르는 것은 모른다고 답변하도록 학습된 모델이 할루시네이션을 획기적으로 줄일 수 있었다는 결과입니다.
이번 오픈AI의 할루시네이션에 대한 리포트는 할루시네이션에 대한 근본적인 이유를 다시 한번 들여다 보고, 개선 방향에 대한 가이드를 제시해 주었다는 측면에서 꽤나 유용한 자료라고 보여집니다. 많은 분야에 AI를 적극적으로 사용하다보면 자연스럽게 AI의 답변을 있는 그대로 믿는 경향이 만들어지게 됩니다. 관련된 답변에 할루시네이션이 있는지 없는지 세부적으로 체크하는 것이 번거럽기도 하고, 어느 정도 다 맞겠지 싶은 관성도 생기게 되죠. 여기에 큰 문제점이 있습니다. 전적으로 AI의 답변에 의지하게 되면 AI가 잘못된 정보를 주는 것에도 무감각하게 되고, 어쩌면 알게 모르게 어떤 방향으로 스스로가 바이어스될 수도 있습니다. 빅테크 소셜 네트워크 서비스들이 우리를 하나의 방향으로만 갇혀 있게 만드는 것처럼 말이죠.
완벽한 것은 없습니다. 끊임없이 의심하고 질문해야 합니다.
AI에 대해서도 그러합니다.
촌장 드림