텍스트·이미지·음성 생성 모델을 평가하는 대부분의 체계에서 자연스러움은 최상위 지표로 자리 잡고 있다. 상위 모델의 점수는 사람 수준에 근접했고, 일부 조건에서는 구분 자체가 어려워졌다는 결과도 보고된다. 그러나 이 점수를 산출하는 산업 어디에도 자연스러움이 구체적으로 무엇을 가리키는지에 대한 조작적 정의는 존재하지 않는다. 청자에게 전체 인상을 물어 평균을 내는 방식이 여전히 표준이다. 이 글은 그 정의의 부재가 단순한 측정의 미비가 아니라, 인간 지각과 생성 모델의 구조적 특성에서 비롯된 것임을 차례로 살핀다.
자연스럽다는 것은 정의할 수 없다
텍스트와 이미지, 음성을 만드는 생성 모델을 평가하는 지표 체계에서 자연스러움은 거의 예외 없이 가장 상위에 놓인다. 2026년 기준 상위권 음성 합성 모델은 평균 의견 점수에서 4.4–4.5점 수준에 도달했고, 사람 음성의 4.5–4.8점에 근접했다. 블라인드 테스트에서 최상위 모델의 음성을 사람 목소리로 착각하는 비율도 2023년 12%에서 2026년 38%로 높아졌다. 그런데 이 점수를 만드는 산업 표준 어디에도 자연스러움을 구성하는 요소를 분해한 조작적 정의는 존재하지 않는다. 청자에게 전체 인상을 1점에서 5점 사이로 물은 뒤 평균을 내는 방식이 전부다.
객관적 음성 품질 지표인 PESQ나 STOI는 사람의 지각과 상관관계가 낮은 것으로 오래 전부터 지적되어 왔다. 최근에는 신경망 기반 자동 평가 모델이 인간 평가자의 주관적 변동을 줄이고 일관성을 높이는 방향으로 발전하고 있다. 이 모델들은 인간이 매긴 점수를 예측하는 데 상당한 정확도를 보이지만, 여전히 어떤 음성적 특성이 자연스러움을 높이거나 낮추는지를 명시적으로 분해하지는 않는다. 결과적으로 측정 대상 자체를 정의하지 않은 채 수치만을 끌어올리는 구조가 유지된다.
판단은 빠르고 강하지만, 판단의 근거를 설명하는 언어는 그 속도를 따라오지 못한다.
소비자 인식에서는 다른 신호가 나타난다. 실제 콘텐츠와 AI가 만든 콘텐츠를 구분하기 어렵다는 응답이 60%에 가까운 수준으로 집계되고 있다. 동시에 “AI 슬롭”이라는 표현의 언급량은 1년 사이 9배 이상 증가했으며, 그중 82%가 부정적 맥락이었다. 사람은 얼굴 영상이나 문장, 음성을 접했을 때 즉각적으로 위화감을 느끼는 경우가 잦다. 그러나 그 위화감이 구체적으로 어떤 요소에서 비롯되었는지를 언어로 정확히 지목하는 데는 자주 실패한다. 판단은 빠르고 강하지만, 판단의 근거를 설명하는 언어는 그 속도를 따라오지 못한다.
이 두 간극은 서로 다른 층위에서 발생한다. 한쪽은 기술적 평가 체계가 자연스러움의 실체를 정의하지 않은 채 최적화만 반복하는 문제다. 다른 한쪽은 인간의 지각이 미세한 부조화를 빠르게 포착하면서도 그 원인을 명시적으로 언어화하지 못하는 한계다. 두 현상이 동시에 진행되면서, 측정 점수는 계속 상승하는데도 실제 사용 환경에서는 불쾌감과 피로가 누적되는 결과가 나타난다.
생각하기 전에 이미 편안한 마음
인지심리학자 롤프 레버, 노르베르트 슈워츠, 표트르 빙키엘만이 제시한 처리 유창성 이론은 미적 판단의 원천을 대상의 내재적 속성이 아니라 지각 과정 자체의 매끄러움에서 찾는다. 대칭 구조, 반복 노출, 전경과 배경의 명확한 대비처럼 뇌가 자극을 처리하기 쉽게 만드는 조건이 충족될수록 긍정적 반응이 강해진다. 이 관점은 판단이 세부 분석을 마친 뒤에 내려지는 사후 평가라는 통상적 이해를 뒤집는다. 뇌가 대상을 처리하는 속도 자체가 이미 호오 판단을 포함한다. 무언가가 자연스럽게 느껴지는 순간은 처리의 결과가 아니라 그 처리 과정에서 즉각적으로 발생하는 신호다.
이 이론에 따르면 자연스러움 판단에는 별도의 근거 수집 단계가 필요하지 않다. 지각 시스템이 자극을 얼마나 수월하게 소화하느냐가 곧 선호나 쾌감으로 이어진다. 대칭이 높은 얼굴이나 규칙적인 리듬의 음성은 처리 부하가 낮아 즉각적으로 긍정적 반응을 유발한다. 반대로 미세한 비대칭이나 비정상적인 운율은 처리 지연을 일으키고, 그 지연이 부정적 신호로 전환된다. 판단의 근거가 사전에 조립되는 것이 아니라 처리 과정에서 동시에 산출되는 셈이다.
엘리너 로쉬가 1975년 수행한 원형 이론 실험은 이러한 처리 속도가 왜 사람들 사이에서 비교적 일관되게 나타나는지를 보여준다. 대학생들에게 가구 범주에 속하는 항목 중 좋은 예시를 평가하게 했을 때 의자와 소파는 상위에, 전화기는 60위권으로 밀렸다. 범주는 명확한 경계로 나뉘는 것이 아니라 원형 주변에 밀도가 높고 가장자리로 갈수록 희박해지는 구름 형태를 띠었다. 전형적인 구성원은 빠르게 확인되고, 비전형적인 구성원은 더 많은 인지 자원을 요구했다.
두 이론을 함께 보면 자연스러움은 대상이 가진 고정된 속성이 아니라, 그 대상이 개인의 누적된 경험 속 원형과 얼마나 가깝게 일치하느냐에 따라 결정되는 상대적 값이다. 뇌는 이 일치도를 처리 속도로 환산하고, 그 속도가 곧 쾌감이나 위화감으로 드러난다. 절대적 기준이 존재하지 않기 때문에 자연스러움을 단일한 정의로 포착하기 어려운 구조가 생겨난다. 경험 분포가 달라지면 같은 대상이라도 처리 유창성이 달라지고, 따라서 자연스럽다는 판단도 달라진다.
불쾌한 골짜기
로봇공학자 모리 마사히로가 1970년 제시한 불쾌한 골짜기 가설은 인간형 로봇이나 아바타에 대한 호감도가 유사도에 따라 어떻게 변하는지를 곡선으로 설명한다. 사람과 닮은 정도가 높아질수록 호감도도 상승하다가, 거의 사람에 가까워졌으나 완전히 일치하지 않는 구간에서 호감이 급격히 떨어진다. 완벽한 인간 재현에 이르면 호감은 다시 회복된다. 이 곡선의 핵심은 호감 변화가 유사도의 선형적 증가에 비례하지 않는다는 점이다. 어느 특정 구간을 넘는 순간 반응의 방향 자체가 뒤집힌다.
이 구조는 자연스러움 판단이 누적된 점수의 합이 아니라 문턱값을 넘는 순간 발생하는 전환 반응임을 보여준다. 유사도가 조금씩 올라갈 때 호감도도 조금씩 올라가는 것이 아니라, 기대와 실제 사이의 미세한 불일치가 특정 수준을 넘는 즉시 부정적 신호가 압도한다. 그 경계는 미리 함수로 계산할 수 있는 고정값이 아니다. 실제로 그 지점을 통과한 뒤에야 반응의 급변을 확인할 수 있다.
현재 AI가 생성하는 얼굴과 음성은 이 곡선 위에서 움직인다. 정지된 이미지나 단일 프레임 수준에서는 사람의 구분 능력이 크게 떨어지지만, 표정이 움직이거나 억양과 호흡이 붙는 순간 위화감이 급격히 증가한다는 보고가 반복된다. 정적 유사도와 동적 자연스러움은 서로 다른 평가 기준을 적용받는다는 뜻이다. 동작이 들어가면서 기대되는 미세한 타이밍과 근육 움직임의 일관성이 깨지고, 그 깨짐이 처리 유창성을 급격히 저하시킨다.
아이에게 가짜 인형과 실제 사람을 구분하는 방법을 가르칠 필요가 없는 이유가 여기에 있다. 인형이 갑자기 눈을 깜빡이거나 미세하게 움직이는 순간, 아이는 설명 없이도 즉각적으로 위화감을 느끼고 반응한다. 이 반응은 학습된 분석이 아니라, 문턱을 넘는 순간 작동하는 지각 회로에 가깝다. 불쾌한 골짜기의 바닥은 평균 점수로 포착되지 않는, 특정 조건에서만 드러나는 급격한 전환 구간이다.
규칙이 없어도 연결은 된다
언어철학자 루트비히 비트겐슈타인은 『철학적 탐구』에서 “게임”이라는 단어가 어떻게 작동하는지를 분석한다. 보드게임, 카드게임, 구기 종목, 혼자 하는 놀이를 모두 게임이라고 부르지만, 이들을 하나로 묶는 단일한 공통 속성은 존재하지 않는다. 대신 서로 부분적으로 겹치고 교차하는 유사성들의 그물, 가족 유사성이 그 단어를 지탱한다. 자연스럽다는 판단도 같은 방식으로 유지된다. 잘 다듬어진 문장, 위화감 없는 얼굴 표정, 자연스러운 발화 사이에 모든 사례를 포괄하는 필수 조건을 세우려 하면 언제나 예외가 나타난다. 그런데도 일상 언어는 이 단어를 아무런 문제 없이 계속 사용한다. 엄밀한 정의 대신 겹쳐진 사례들의 네트워크가 판단을 가능하게 하기 때문이다.
정의를 세우지 못하는 것과 판단을 수행하지 못하는 것은 별개의 문제다.
언어학자 놈 촘스키가 제시한 능력과 수행의 구분은 이 구조가 왜 결함이 아닌지를 드러낸다. 원어민 화자는 문법 이론을 한 줄도 외우지 못해도 비문법적인 문장을 즉시 알아차린다. 명시적으로 규칙을 진술할 수 있는 능력과, 실제로 그 규칙에 어긋나는 사례를 걸러내는 암묵적 역량은 서로 다른 층에서 작동한다. 정의를 세우지 못하는 것과 판단을 수행하지 못하는 것은 별개의 문제다. 사람은 평생 자연스러움을 명제 형태로 정의한 적 없이도 매 순간 그 판단을 정확하게 내려왔다.
이 차이는 AI 평가 체계가 직면한 핵심을 보여준다. 인간의 자연스러움 판단은 명시적 정의가 없어도 가족 유사성의 그물과 암묵적 역량으로 충분히 작동한다. 반면 현재 대부분의 평가 지표는 평균 점수나 객관적 유사도처럼 명시적으로 측정 가능한 값에 의존한다. 그 값들이 가족 유사성의 그물을 포착하지 못할 때, 점수는 상승하는데도 실제 지각에서는 위화감이 남는 현상이 발생한다. 남은 질문은 AI 시스템이 인간과 유사한 암묵적 판단 역량을 갖추고 있는지, 아니면 여전히 명시적 지표의 한계 안에 머물러 있는지다.
생성하는 자아와 식별하는 자아
2014년 이언 굿펠로가 제시한 생성적 적대 신경망은 데이터를 생성하는 생성자와, 생성된 결과가 진짜인지 가짜인지 판별하는 식별자를 분리해 서로 경쟁시키는 구조다. 생성자는 식별자를 속이려 하고 식별자는 속지 않으려 하면서 양쪽 모두 정교해진다. 현재 널리 쓰이는 생성형 언어·이미지·음성 모델은 이 구조에서 생성자 쪽에 가깝다. 학습 데이터의 통계적 분포에 가까운 출력을 만드는 데 최적화되어 있을 뿐, 자기 자신이 만든 결과물을 부자연스럽다고 판정하는 독립된 식별 기능은 내부에 따로 존재하지 않는다. 그래서 이 모델들이 말하는 자연스러움은 통계적 근접도의 재현이지, 판단 행위의 모방조차 아니다.
생성과 판별은 같은 결과물을 낳을 수 있지만, 완전히 다른 기능에서 나온다. 생성자는 주어진 분포를 따라 출력을 만들어내는 데 특화되어 있다. 식별자는 그 출력이 분포 안에서 자연스러운지, 아니면 기대에서 벗어나는지를 가려내는 데 특화되어 있다. 현재 대부분의 생성 모델은 전자만을 수행한다. 후자의 기능이 없기 때문에, 모델은 자신이 만든 결과에 대해 “이건 부자연스럽다”는 내부적 신호를 생성할 수 없다. 평균 점수나 유사도 지표가 높아도 실제 지각에서 위화감이 남는 현상은 이 구조적 비대칭에서 비롯된다.
정의 없이도 판단이 가능하다는 점은 앞서 살펴본 대로 인간의 정상적인 인지 구조다. 암묵적 역량과 명시적 정의 사이의 간극은 모순이 아니라, 가족 유사성과 처리 유창성, 원형 매칭이 작동하는 방식이다. 사람은 이 간극 위에서 평생 자연스러움을 판별해왔다. AI가 현재 겪는 한계는 그 간극 자체가 아니라, 간극을 메우는 암묵적 판별 역량이 생성 기능과 구조적으로 분리되어 있지 않다는 데 있다.
자기 결과를 만들어내는 자아와, 그 결과를 의심하고 비판하는 자아가 구조적으로 분리되는 것이다.
남는 질문은 AI가 스스로 “이건 부자연스럽다”고 말할 수 있게 되는 순간 무엇이 달라지느냐는 것이다. 그 변화는 더 큰 생성자나 더 많은 학습 데이터로 환원되지 않는다. 생성 기능과 독립적으로 작동하는 식별 기능이 내부에 자리 잡는 것이다. 자기 결과를 만들어내는 자아와, 그 결과를 의심하고 비판하는 자아가 구조적으로 분리되는 것이다. 그날 AI가 얻는 것은 더 정교한 흉내가 아니라, 비로소 비평의 자리를 갖게 되는 일이다.
생성 기능과 구조적으로 분리된 식별 기능이 내부에 자리 잡는 순간, AI는 더 이상 결과물만을 생산하는 주체에 머무르지 않게 된다. 그 변화는 규모나 데이터의 양으로 환원되지 않는, 판단의 자리 자체를 얻는 일이다. 인간이 정의 없이도 평생 작동시켜온 암묵적 비평 능력이, 비로소 기계 내부에 독립된 형태로 생기는 것이다. 그날 이후 AI가 만들어내는 것은 기술적으로 더 정교한 모방이 아니라, 스스로를 의심하고 교정하는 흔적을 남기는 결과물이 될 것이다. 과연 현재의 평가 체계가 추구하는 자연스러움은 그 비평의 자리가 등장한 이후에도 여전히 유효한 기준으로 남을까.
