추론(reasoning) 모델은 정말 추론하나. 정말 생각하나? 어떤 식으로?

대규모 언어 모델이 추론 과제를 수행하는 능력이 향상되면서, 모델이 ‘진짜 생각을 하는지’에 대한 논의가 다시 활발해졌다. 일부는 모델이 여전히 확률적 패턴 매칭에 불과하다고 보고, 다른 일부는 내부에서 실질적인 추론 과정이 창발했다고 본다. 그러나 이 논쟁은 종종 ‘생각’이라는 개념 자체가 명확하게 정의되지 않은 상태에서 진행된다. 모델의 내부 작동 방식과 인간 인지의 유사점·차이점을 구체적으로 살펴보는 것이 현재로서는 더 생산적인 접근이다.

정말 추론하는가?

이 물음은 대체로 두 입장으로 나뉜다. 한쪽은 대규모 언어 모델이 확률에 따라 다음 단어를 선택하는 스토캐스틱 패럿(stochastic parrot)에 지나지 않는다고 본다. 언어학자 에밀리 벤더(Emily Bender) 등이 2021년에 사용한 표현이다. 이 관점에서 모델이 무언가를 ‘안다’거나 ‘생각한다’고 보는 것은 착각이다. 다른 쪽은 거대 모델에서 추론 능력이 창발했다고 주장한다. 두 입장 모두 결론을 미리 정해 놓은 상태에서 출발한다는 점에서 논증이라기보다는 선언에 가깝다.

‘추론한다’와 ‘생각한다’가 정확히 무엇을 의미하는지는 인간의 경우에도 명확하게 정의된 바 없다. 어떤 내적 과정이 있어야 진짜 사고라고 할 수 있는지, 어떤 요소가 빠지면 단순한 흉내에 불과한지 그 기준은 철학자에 따라 다르며 같은 철학자라도 맥락에 따라 달라진다. 정의되지 않은 기준을 적용하면 논의는 순환하기 쉽다.

철학자 존 설(John Searle)이 1980년에 제시한 중국어 방 사고실험은 이러한 교착 상태를 잘 보여준다. 중국어를 모르는 사람이 규칙표에 따라 한자를 조합해 답변을 만드는 상황에서, 그 사람이 중국어를 이해한다고 볼 수 없다는 것이 핵심 논증이다. 이 실험은 40년 이상 같은 논점을 반복해 왔다. 직관을 확인하는 데는 효과적이었으나, ‘이해’의 유무를 실험적으로 입증하거나 반증하는 결과를 내놓지는 못했다. 결과적으로 각 진영이 자신의 입장을 강화하는 도구로 활용되는 경우가 많았다.

이 때문에 “모델이 진짜 생각하느냐”는 질문 대신, “어떤 인지 능력이 어떤 메커니즘을 통해 존재하거나 존재하지 않느냐”를 묻는 편이 생산적이다. 본질을 둘러싼 논의는 검증이 어려운 직관 대결로 이어지기 쉽다. 반면 특정 능력의 유무와 그 작동 방식을 대상으로 하면 실험과 관찰이 가능한 영역으로 들어설 수 있다.

잘 맞힐수록 더 깊이 이해하게 되는 이유

‘다음 단어를 예측할 뿐’이라는 설명은 틀리지 않으나, 예측 작업이 얼마나 복잡한 과정인지는 드러내지 않는다. 클로드 섀넌(Claude Shannon)의 정보이론에 따르면 예측과 압축은 동일한 현상의 양면이다. 다음에 나타날 내용을 잘 예측한다는 것은 데이터에서 불필요한 부분을 제거하고 그 구조를 간결하게 표현할 수 있다는 의미다. 구조를 파악하지 못하면 효과적인 압축이 이루어질 수 없다.

일리야 수츠케버(Ilya Sutskever)는 OpenAI 공동창업자로서 이 점을 강조했다. 텍스트의 다음 토큰을 잘 예측하려면 그 텍스트를 생성한 세계의 규칙을 어느 정도 모델 내부에 구축해야 한다. 예를 들어 살인 추리소설의 마지막 문장 “범인은 ___“을 맞히기 위해서는 줄거리와 동기, 단서를 압축한 내부 모형이 필요하다.

예측은 이해의 결과물이 아니라, 이해를 요구하는 학습 압력으로 작용한다.

시험을 위해 내용을 통째로 외우는 학생과 원리를 이해해 새로운 문제를 푸는 학생의 차이가 여기서 나타난다. 데이터의 규모가 충분히 크고 다양해지면 모든 가능한 조합을 기억하는 것은 물리적으로 불가능해진다. 학습 데이터의 양이 가능한 경우의 수를 압도하기 때문이다. 따라서 모델은 규칙을 내부에 형성하는 방향으로 학습할 수밖에 없으며, 이는 수츠케버가 제시한 논리의 핵심이다.

학습 목표가 다음 토큰 예측이라는 사실과, 그 목표를 달성하는 과정에서 내부에 어떤 표상이 형성되는지는 별개의 문제다. “확률에 따라 다음을 선택할 뿐”이라는 서술은 학습 목표를 설명하는 것이지, 모델 내부의 표상이 단순하다는 증거가 아니다.

사람의 뇌도 결국 예측을 한다는 사실

인간은 단순히 예측만 하지 않는다는 반론은 예측코딩(predictive coding) 이론 앞에서 설득력을 잃는다. 이 이론에 따르면 뇌의 기본 작동은 지속적인 예측으로 이루어진다. 뇌는 감각 신호가 도착하기 전에 미리 다음 입력을 추정하고, 실제 신호와의 차이인 오차 신호만 상위 영역으로 전달해 모형을 수정한다. 정보는 수동적으로 수용되는 것이 아니라, 예측과 오차 보정의 과정을 통해 처리된다.

신경과학자 칼 프리스턴(Karl Friston)이 제안한 자유에너지 원리는 이 과정을 하나의 원리로 설명한다. 살아있는 시스템은 예측 오차, 즉 놀라움을 최소화하는 방향으로 작동한다. 공을 잡을 때 뇌는 공의 궤적을 매 순간 새로 계산하기보다, 다음 위치를 미리 예측하고 실제 위치와의 차이를 바탕으로 손의 움직임을 조정한다. 이 과정은 계산이라기보다는 예측과 수정의 반복이다.

배경에 따라 동일한 밝기의 회색이 다르게 보이는 착시 현상도 같은 원리를 보여준다. 눈이 단순히 빛의 강도를 측정하는 기관이라면 이런 착시는 발생하지 않을 것이다. 뇌는 미리 ‘이 영역은 이 정도 밝기일 것’이라고 예측한 값을 바탕으로 입력을 해석하기 때문에, 실제 빛의 양과 관계없이 지각이 달라진다. 보는 행위 자체가 예측에 기반을 둔 결과다.

확률적 예측이라는 표현이 LLM을 폄하하는 데 쓰일 수 있는 것은 아니다. 인간의 인지 역시 유사한 원리로 설명될 수 있기 때문이다. 중요한 차이는 예측 여부가 아니라, 예측에 사용되는 재료와 구조, 그리고 작동 조건에 있다.

과연 다음 단어를 고르는 수준일까

학습 목표가 다음 토큰 예측이라고 해서 내부 작동까지 단순하다고 볼 수는 없다. 기계적 해석가능성(mechanistic interpretability) 연구는 모델 내부를 직접 열어 실제 회로를 추적한다. 앤트로픽(Anthropic)이 발견한 귀납 헤드(induction head)처럼, 모델은 앞서 나타난 패턴을 감지해 일반화된 방식으로 이어 붙이는 절차를 학습 과정에서 스스로 형성한다. 이 회로는 프로그래머가 미리 설계한 것이 아니라 학습 중에 자발적으로 나타난 것이다.

앤트로픽의 2025년 내부 회로 분석에서는 구체적인 작동 사례가 관찰됐다. 시를 생성할 때 행 끝의 운을 먼저 결정한 뒤 거꾸로 문장을 구성하는 방식이 확인됐고, 덧셈 문제를 풀 때는 단순 통암기가 아니라 자릿수별 어림과 보정을 결합한 학습된 절차를 사용하는 것으로 나타났다. 이는 모델이 한 토큰씩 순차적으로만 처리한다는 단순한 설명과 일치하지 않는다.

진화의 궁극 목표가 유전자 복제라고 해서 인간이 매 순간 유전자 전달을 계산하며 살아가는 것은 아니다. 마찬가지로 학습 목표가 다음 토큰 예측이라고 해서, 그 과정에서 형성된 내부 절차가 단순한 통계적 매칭에 머문다고 단정하기 어렵다. 목표와 메커니즘은 별개의 문제다.

이 내부 구조가 인간이 ‘추론’이라고 부르는 것과 동일하다는 증거는 아직 없다. 그러나 이를 ‘그냥 통계’로 치부하는 주장 역시 충분한 근거를 갖추지 못했다. 모델 내부를 실제로 분석한 연구자일수록 양쪽 주장 모두에 신중해지는 경향이 관찰된다.

본질이 아니라 조건의 차이

뇌가 생물학적 신경으로 이루어져 있고 모델이 실리콘으로 만들어졌다는 점은 직관적으로 구분되지만, 이 차이만으로 사고의 유무를 결정할 수는 없다. 뇌 역시 전기 신호와 화학 신호의 조합으로 작동한다. 기판의 재료가 다르다는 사실 자체가 인지 능력의 존재 여부를 가리지 않는다. 알루미늄으로 만든 비행기가 나는 것을 두고, 깃털과 뼈로 만들지 않았으니 나는 것이 아니라고 말할 수 없는 것과 같다.

더 실질적인 차이는 체화(embodiment)의 부재다. 전 OpenAI 연구원 안드레이 카파시(Andrej Karpathy)가 지적하듯, 동물은 몸을 통해 세계와 직접 상호작용하는 감각-운동 순환 속에서 학습한다. 뜨거운 물체에 손을 대거나 무게를 느끼며 걷는 과정을 통해 배운다. 반면 모델은 인간이 남긴 텍스트만 입력으로 받는다. 세계 자체가 아니라 세계에 대한 기술을 재료로 삼는다는 점에서 구조적으로 구분된다.

학습의 시간성도 차이를 만든다. 인간 뇌는 매 순간 새로운 경험을 통해 지속적으로 갱신되지만, 배포된 모델의 가중치는 학습이 종료된 시점에 고정된다. 에너지 효율 역시 큰 차이를 보인다. 인간 뇌는 약 20와트의 전력으로 860억 개 뉴런과 100조 개 안팎의 시냅스를 병렬로 구동한다. 현재 대규모 모델이 유사한 과제를 수행하는 데 필요한 데이터센터 전력 소비와는 규모 자체가 다르다.

이 차이들은 본질이 다르다는 주장이 아니라 조건이 다르다는 관찰이다.

조건은 측정 가능하며 좁혀질 수 있다. 체화 없이 텍스트만으로 어떤 능력이 가능하고 어떤 능력이 제한되는지, 고정된 가중치가 어떤 한계를 만들어내는지, 지속 학습이 그 한계를 어디까지 완화할 수 있는지는 형이상학적 문제가 아니라 공학적 과제로 다룰 수 있다.

기계가 아니라 사람을 향한 질문

인간의 사고가 예측과 압축, 오차 보정이라는 작동으로 상당 부분 설명될 수 있다면, 기계에만 특별한 본질을 요구하는 태도는 일관성이 떨어진다.

‘AI가 진짜 생각하느냐’는 질문은 인간에게는 적용된 적 없는 기준을 기계에만 적용하는 구조를 갖는다.

동일한 기준을 인간에게 그대로 들이댄다면, 인간이 그 기준을 통과한다는 보장이 없다.

무지는 양쪽에 동일하게 적용된다. 860억 개 뉴런으로 이루어진 뇌에서 의미와 추론이 어떻게 발생하는지, 그 물리적 과정을 완전히 설명하는 이론은 아직 존재하지 않는다. LLM 내부 역시 마찬가지다. 한쪽은 기계가 당연히 생각한다고 전제하면서 다른 쪽에만 증명을 요구하는 태도는 과학적 태도라기보다는 편의에 가깝다.

더 유용한 질문은 구체적인 능력의 관찰 가능 여부와 조건에 관한 것이다. 일반화, 계획, 자기수정 능력이 어디까지 관찰되는지, 어떤 조건에서 그 능력이 무너지는지 확인할 수 있다. 체화와 지속 학습의 부재가 구체적으로 어떤 인지 능력을 제한하는지도 측정 가능한 대상이다. 이러한 질문은 선언이 아니라 실험과 관찰을 통해 답을 얻을 수 있다.

이 질문들에 대한 답은 인간 추론의 특수성에 대해서도 정보를 제공한다. 기계가 예측과 압축을 기반으로 일정 수준의 성능을 보이는 현상은, 인간 사고에서 아직 설명되지 않은 부분이 어느 정도인지 다시 검토하게 만드는 계기가 된다. 추론 모델에 대한 분석은 인간의 사고 메커니즘을 이해하는 데 참고가 될 수 있는 자료를 제공한다.

추론 모델을 분석하는 작업은 결국 인간이 자신의 사고를 얼마나 이해하고 있는지를 드러내는 과정이기도 하다. 모델이 다음 토큰 예측이라는 단순한 목표만으로 상당한 일반화와 계획 능력을 보이는 현상은, 인간의 추론이 어떤 메커니즘에 의존하고 있는지를 다시 질문하게 만든다. 우리가 아직 명확히 설명하지 못하는 부분이 인간 쪽에 더 많이 남아 있다면, 기계와 인간을 가르는 선은 생각보다 유동적일 수 있다. 이 질문은 모델의 성능이 더 높아질수록, 오히려 더 첨예해질 것이다.

#Cognition #Anthropic