작년부터 Suno AI로 음악을 만들곤 했는데, ChatGPT로 가사를 짓고(가사류는 ChatGPT가 좀 잘하는 듯) Suno용 재사용 프롬프트를 만들어 들어보면 상당히 좋아서 혼자 듣곤 했다. 하지만 가족에게 물어보면 아무 반응이 없다는 것. 단순한 나르시즘이었을까?

나도 사실 유튜브나 뮤직에서 남이 AI로 만든 노래들은 어떤 건 그냥 백그라운드로 lo-fi같이 틀어놓기에 부담 없이 들어놔도 좋은 것들이 있긴 한데, 무언가 그 가사에 감동을 받거나 심취해 본 적은 없는 것 같다.

단지 완성도의 차이는 아닌 것이라 생각해서 글을 써본다.

와인의 맛

2001년 보르도에서 이런 실험이 있었다. 연구자들은 같은 화이트 와인에 무색·무취의 붉은 색소를 타서 패널들에게 제시했다. 패널들은 그 와인을 레드 와인으로 인식하고, 전형적인 레드 와인에서 나올 법한 표현으로 설명했다. 떫은맛이 강하다, 구조가 깊다, 어두운 과일 향이 난다. 실제로는 동일한 액체였는데, 시각 정보가 후각과 미각 해석을 완전히 덮어쓴 것이다.

조금 오래된 일이지만 2008년 플라스만 연구팀은 fMRI로 뇌를 직접 들여다봤다.

참가자들에게 같은 와인을 마시게 하되, 한 번은 “5달러짜리”라고, 다른 한 번은 “45달러짜리”라고 속였다. 가격 라벨이 높을 때 주관적 쾌감 보고가 올라갔을 뿐 아니라, 실제로 안와전두피질의 혈중 산소 농도 의존 신호(BOLD)가 증가했다. 기대가 감각 신호를 재해석하는 수준을 넘어, 쾌감 자체를 구성하는 뇌 활동까지 바꾼 것이다.

이 실험들은 라벨이 단순한 정보가 아니라 다른 차원의 경험의 재료임을 보여준다. 와인을 마시는 사람은 혀끝의 화학 물질만 느끼는 것이 아니라, 그 순간 자신이 어디에 서 있는지, 무엇을 기대하는지를 동시에 계산한다. 라벨이 달라지면 계산의 결과가 달라진다. 초보자만의 문제가 아니다. 전문가조차 시각적 또는 가격적 맥락에 쉽게 영향을 받는다.

예측 이탈에서 피어나는 꽃

음악은 사실 우리 사람의 생존에 직접적인 도움이 되지 않는 소리 패턴이다. 그럼에도 불구하고 강한 도파민 보상을 일으킨다. 2011년 살림푸어 팀은 PET 스캔을 이용해, 음악의 절정 순간에 선조체(striatum)에서 도파민이 방출된다는 것을 포착했다. 기대가 쌓이는 단계에서는 미상핵(caudate nucleus)이, 실제로 절정이 터지는 순간에는 측좌핵(nucleus accumbens)이 더 강하게 반응했다. 추상적인 소리가 구체적인 보상 회로를 자극하는 경로가 발견된 것이다.

또한 2019년 청 연구팀은 미국 빌보드 팝 히트곡 745곡의 화음 진행 8만 개를 기계학습 모델로 정량화하고, 청취자 fMRI와 결합해 쾌감이 불확실성과 놀라움(예측 오차)의 상호작용에서 최대값을 찍는다는 것을 확인했다. 너무 뻔한 진행도, 너무 낯선 진행도 쾌감이 떨어지고, 적절한 이탈이 발생할 때 가장 높은 보상이 나타났다. 불확실성이 높을 때는 익숙한 해결이, 불확실성이 낮을 때는 뜻밖의 해결이 더 큰 즐거움을 준다.

벌린이 정리한 분트 곡선에서도, 인간은 중간 정도의 복잡성과 신기성을 선호한다. 너무 단순하면 지루하고, 너무 복잡하면 피로하다. 데이비드 휴런의 기대 이론(ITPRA) 역시 상상-긴장-예측-반응-평가의 순환에서 쾌감이 발생한다고 본다.

음악이 주는 즐거움은 소리 자체의 ‘질’이 아니라, 청자가 이미 가지고 있던 기대와 실제 소리 사이에 생기는 틈의 크기와 방향에서 나온다.

평균적인 소리 패턴은 그 틈을 최소화하는 방향으로 움직인다.

AI는 평균으로 최적화된다

생성 모델의 학습 목표는 가능도(likelihood)를 최대화하는 것이다. 주어진 데이터 분포 안에서 다음 순간이 가장 그럴듯할 확률을 높이는 방향으로 파라미터가 움직인다. 이 과정은 자연스럽게 통계적 평균, 즉 분포의 중심부로 수렴하게 만든다. ‘듣기 좋은’ 소리는 많아지지만, 극단적이고 날카로운 감정의 결, 희귀한 구조적 선택, 개인적인 비틀림은 상대적으로 희미해진다.

재귀 학습에서는 이 경향이 더 강화될 수밖에 없다. 모델이 생성한 데이터를 다시 학습 데이터로 삼으면, 원본 데이터의 분포 꼬리, 곧 강한 인상을 남기는 희귀한 요소가 점점 사라진다. 2024년 슈마일로프 팀이 네이처에 발표한 연구에서, 합성 데이터로 반복 학습한 모델은 다양성을 잃고 평균적인 출력으로 수렴하는 ‘모델 붕괴’ 현상이 확인됐다.

결국 Suno나 Udio로 만들어진 곡들이 비슷비슷하다는 평가는 이 최적화 방향과 무관치 않다. 모델은 인간 청자가 가장 강한 보상을 느끼는 ‘예측 이탈’ 지대에서 멀어지는 방향으로 학습을 반복한다. AI가 만들어 내는 곡은 능숙하지만, 누구의 뇌에도 깊게 각인되지 않는 소리에 가깝다. 인간의 미적 보상이 살아나는 곳과 생성 모델이 향하는 곳이 구조적으로 어긋나는 것이다.

만든 사람에게 주는 보상은?

그렇다면 내가 만든 곡이 나한테는 더 좋게 들리는 이유는 무엇일까. 여기에는 청자 상대성이라는 메커니즘이 작동한다.

첫째, 보상은 절대적 신호가 아니라 청자의 사전 기대(prior) 대비 계산된다. 많은 노력을 들이지 않았다 하더라도 작게나마 곡을 만드는 과정에서 여러 번 반복 청취하며 기대를 재형성한다. 단순 노출 효과만으로도 호감이 올라가고, 가사와 프롬프트를 직접 다듬은 노력은 결과물에 대한 애착을 키운다. 무엇을 의도했는지 아는 맥락까지 더해지면, 같은 음파라도 내 뇌가 계산하는 예측 오차의 크기와 방향이 달라진다.

둘째, ‘AI’라는 라벨 자체가 청자의 해석 작업을 줄여버린다. 2026년 헌 연구팀은 악기 음악을 들려주며 작곡자를 ‘인간’ 또는 ‘AI’로 라벨링하는 실험을 했다. AI 라벨이 붙은 곡은 실제 작곡자가 누구든 상관없이, 청자들이 상상하는 서사가 상대적으로 덜 생성되었다. 즉, 감정 공명과 이야기 생성이 줄어드는 효과가 관찰됐다는 것이다.

그러니 곡의 퀄리티만 따져본다면, 라벨을 떼고 들려준 블라인드 테스트에서는, 2025년 디저와 입소스가 8개국 9,000명을 대상으로 진행한 조사에서 완전 AI 생성곡과 인간 곡을 구분하지 못한 비율이 97%에 달했다. 신호 자체가 못나서가 아니라, 신호만으로는 청자의 예측과 상상 작업이 제대로 시작되지 않기 때문이다.

AI가 잘하는 일은 ‘평균적으로 좋은 소리’를 빠르게 만드는 것이다.

그 소리가 특정한 누군가에게 특별한 의미를 갖게 하려면 소리 바깥의 맥락을 설계해야 한다. 파일을 건네는 대신, 그 곡이 탄생한 순간과 의도, 함께 들을 때 의미가 생길 작은 서사를 함께 건네는 일이다.

예술 작품의 아우라는 뭘까

독일 비평가 발터 벤야민은 기계 복제 시대에 예술 작품의 아우라가 소멸한다고 썼다. AI는 그보다 더 급진적인 조건을 만들고 있다. 무한히 복제되고, 생성 비용이 거의 0에 가까워지는 신호가 범람할수록 희소해지는 것은 그 신호를 해석할 수 있는 개인적·문화적 맥락이다. 취향은 단순한 선호가 아니라, 사회적 위치와 문화 자본이 교차하는 지점이기도 하다.

예를 들어 밥 딜런의 음악을 들을 때 우리는 단순한 포크 멜로디를 듣는 것이 아니다. 그 목소리와 가사 뒤에는 1960년대 미국의 민권 운동과 반전 여론, 한 시대가 겪었던 혼란과 이상이 겹쳐져 있다. 핑크 플로이드의 음악 역시 시드 배럿의 정신적 붕괴와 그를 잃은 동료들의 오랜 죄책감, 성공이 가져온 고립과 소외를 배경으로 하지 않으면 그 무게감을 온전히 이해하기 어렵다. 케데헌도 마찬가지다. 그 곡은 화려한 사운드 뒤에, 실제 보컬이자 작곡가인 이재가 연습생 시절 겪었던 보이지 않는 존재감과 좌절, 그리고 스스로를 다시 일으켜 세운 여정이 배어 있다. 강하게 남는 음악은 대개 소리 자체가 아니라 그 소리를 둘러싼 인간의 이야기와 시대의 공기가 함께 쌓여 있기 때문이다.

와인 한 잔의 맛이 라벨과 잔의 색, 마시는 상황에 따라 달라지듯, 음악도 결국 ‘들리는 소리’가 아니라 ‘그 소리를 듣는 사람의 공명’에서 완성된다. AI가 평균을 완벽하게 재현할수록, 우리는 그 평균 바깥에서 가치를 찾아야 하는 위치에 서게 되었다. 내 곡이 내게만 좋게 들리는 것은 흠이 아니라, 내가 그 곡에 부여한 라벨을 가장 많이 가진 유일한 사람이라는 증거다.

#Taste#Authenticity