학원 숙제를 AI가 계속해도 될까?

AI가 학생의 과제를 대신 작성하는 현상은 더 이상 예외가 아니다. 미국에서 10대가 ChatGPT로 숙제를 하는 비율은 2023년 13%에서 2024년 26%로 1년 만에 두 배가 됐고, 고등학생의 69%가 생성형 AI를 과제에 활용한다는 조사도 있다. 이제 문제는 학생들이 AI를 쓰느냐 마느냐가 아니라, 그 사용이 성적과 실력 사이의 연결을 어떻게 끊고, 교육이 보증하는 신호의 가치를 어떻게 바꾸고 있는가 하는 점이다. 이 변화는 개별 선택의 합이 아니라, 부모와 학교, 제도가 함께 만들어내는 구조적 결과다.

남들도 쓰는데

미국에서 숙제에 ChatGPT를 쓰는 10대 비율은 2023년 13%에서 2024년 26%로 1년 만에 두 배가 됐다. 고등학생의 69%가 과제에 생성형 AI를 쓴다는 조사 결과도 있다. 이제 AI 사용은 예외적인 행동이 아니라, 사실상의 기본 전제가 된 셈이다.

그런데 이 상황이 유지되는 건 어느 한쪽이 방조해서가 아니다. 세 주체가 각자의 계산으로 눈을 감고 있기 때문이다. 부모는 성적표에 점수가 찍히면 한밤의 과제를 챗봇이 몇 분 만에 끝냈는지 묻지 않는다. 성적과 시간을 동시에 얻을 수 있다면, 굳이 캐묻는 쪽이 비합리적이다. 학원은 AI 답안을 제대로 적발할 수단이 마땅치 않다. 적발에 나섰다가 수강생이 빠져나가면 매출이 줄어든다. 묵인이 사업적으로는 가장 안전한 선택이 된다. 학생 입장에서도 옆자리가 AI를 쓰는데 혼자 손으로 풀면 시간과 점수 모두에서 손해다.

결국 세 주체가 각자 ‘손해를 최소화하는’ 선택을 반복하면서, 아무도 원하지 않았던 결과가 만들어진다.

무엇을 아는지 누구도 보증할 수 없는 성적표.

교실 안에 죄수의 딜레마가 작동하고 있는 것이다. 단독으로 멈출 동기를 가진 주체가 없다. 죄수의 딜레마라는 말로 정리하면 논리는 깔끔한데, 그 깔끔함이 조금 미심쩍다.

성적 인플레이션

경제학자 마이클 스펜스(Michael Spence)는 1973년, 학력과 성적은 능력 자체가 아니라 ‘능력을 대신 알리는 신호’라고 정리했다. 그 공로로 2001년 노벨 경제학상을 받았다. 고용하는 쪽은 지원자의 머릿속을 직접 볼 수 없기 때문에, 따기 어려운 성적과 학위를 통해 능력을 간접적으로 추정한다는 것이다.

신호가 제대로 작동하려면 한 가지 조건이 필수적이다. 실력 있는 사람은 비교적 쉽게 얻고, 실력 없는 사람은 어렵게 얻는 ‘비용의 차등’이 존재해야 한다. 그런데 생성형 AI는 이 비용 차이를 거의 0에 가깝게 만든다. AI가 과제를 대신 써주면, 공부를 많이 한 학생과 그렇지 않은 학생이 내는 결과물이 비슷해진다. 성적과 실제 실력 사이의 연결이 끊어지는 것이다.

역사적으로 비슷한 일이 있었다. 대학 졸업장이 흔해지자 학위의 신호 가치는 떨어졌고, 경쟁은 석사·박사, 전문 자격증, 해외 학위 등 더 높은 신호로 옮겨갔다. AI 숙제는 이 ‘신호 인플레이션’을 몇 년이 아니라 몇 달 단위로 압축한다. 신호가 신뢰를 잃으면, 받는 쪽(대학·기업)은 더 비싸고 위조하기 어려운 신호를 요구하게 된다.

실제로 미국 대학에서는 이미 그 변화가 나타나고 있다. 생성형 AI 이후 손글씨 시험용 블루북(blue book) 판매량이 플로리다대학교에서 약 50%, UC 버클리에서 80% 가까이 급증했다. 검증이 더 원시적이고 비용이 많이 드는 형태로 후퇴하고 있다는, 아주 구체적인 숫자다.

레몬 마켓

경제학자 조지 애컬로프(George Akerlof)는 1970년, 중고차 시장에서 구매자가 좋은 차와 불량차(레몬)를 구분할 수 없으면 어떤 일이 벌어지는지 분석했다. 구매자는 평균적인 품질만 믿고 값을 치르려 하고, 결국 좋은 차를 가진 판매자는 시장을 떠난다. 나쁜 차만 남게 되는 ‘레몬 마켓’ 모델이다. 정보가 비대칭적일 때 시장은 낮은 품질 쪽으로 수렴한다는 것이다.

교실에서도 같은 구조가 작동한다.

실력으로 푼 학생과 AI가 대신 푼 학생이 같은 성적표 뒤에 섞이면, 평가자는 둘을 구분할 수 없다. 진짜 실력자가 받아야 할 신뢰가 전체 평균으로 깎인다. 손해는 정직하게 공부한 학생에게 집중된다. 그 학생은 좋은 성적을 받아도 “AI를 쓰지 않았다는 것”을 별도로 증명해야 하는 부담까지 떠안는다.

하지 않은 일을 증명해야 하는 상황 — 의심이 기본값이 된 시장의 전형적인 특징이다.

이 현상은 채용 시장으로도 빠르게 번지고 있다. 포트폴리오와 코딩 테스트 결과물만으로는 지원자의 실력을 보증할 수 없게 되자, 기업들은 그 신뢰를 거두고 있다. 대신 현장 라이브 과제, 실시간 코딩 테스트, 대면 면접 비중을 높이고 있다. 한 번 무너진 신뢰는 회복이 매우 느리다.

탐지와 회피의 군비경쟁

숙제가 사라지느냐는 질문은 본질을 비껴간다. 숙제는 사라지지 않는다. 다만 ‘무엇을 확인하던 장치’가 다른 자리로 옮겨갈 뿐이다. 집에서 결과물만 확인하던 검증이, 통제된 환경 안으로 들어간다.

한 교수는 400명 규모 수업에서 ChatGPT 로고가 그대로 붙은 답안지를 40~50장 받고, 결국 손글씨 시험으로 돌아섰다. 검증을 옮기는 길은 대체로 둘이다. 풀이 과정을 영상·구술·현장 작성처럼 별도의 산출물로 요구하거나, 검증 자체를 감독이 있는 시험장 안으로 당기는 것이다. 둘 다 검증에 들어가는 비용과 시간을 크게 늘리는 방향이다.

그러나 과정까지 위조할 수 있다는 점이 문제다. AI가 단계별로 풀이를 불러주면 영상도 연출이 가능하다. 그러면 검증은 다시 더 안쪽으로 후퇴한다. 감독이 지켜보는 손글씨 시험과 즉석 구두 문답으로. 기술적 해결책도 믿기 어렵다. AI 표절 탐지기는 오탐률이 높아 밴더빌트, 코넬 등 여러 대학이 사용을 중단했다.

결국 탐지와 회피의 군비경쟁만 남는다. 검증은 기술로 발전하는 게 아니라, 사람의 감독과 물리적 현장으로 역행하고 있다. 역행이라는 말이 적확한 것인지는 아직 잘 모르겠다. 어쩌면 사람이 직접 보는 방식이 처음부터 유일하게 신뢰할 수 있는 방법이었을지도 모른다.

무시할 수 없는 검증 비용

검증이 정교하고 비싸질수록, 그 비용을 감당할 수 있는 쪽과 없는 쪽이 갈린다. 현장 검증, 반복 면접, 고비용 실기 평가는 시간과 돈에 여유 있는 가정에 유리하다. AI 묵인의 청구서는 평등하게 도착하지 않는다.

검증의 오류조차 약한 쪽에 집중된다. AI 탐지기는 영어가 모국어가 아닌 학생을 2~3배 더 자주 오탐한다. 한 영국 학생은 누명을 벗기 위해 변호와 언어 감정에 2,500파운드를 써야 했다. 가장 방어할 자원이 적은 쪽이 가장 비싼 의심을 떠안는 구조다.

묵인한 부모가 단기적으로 유리한 선택을 했는지는 시점에 따라 다르다. 성적표에서는 이득이었지만, 검증이 안쪽으로 옮겨간 면접장과 실기장에서는 손실이 된다. 문제는 이득과 손실의 수령자가 같은 아이라는 점이다.

지금의 구조를 그대로 둘 수 없는 이유는 단순히 부정행위 때문이 아니다. 검증의 비용과 오류를 키워 그것을 가장 약한 아이에게 떠넘기기 때문이다. 계속 묵인할 수 있는 단 하나의 조건은, 과정과 역량을 확인하는 검증을 개인이 아니라 제도가 설계하고 그 비용을 공평하게 나누는 것이다. 그 설계 없이 묵인만 이어진다면, 성적표와 졸업장이 보증할 수 있는 범위는 계속 좁아질 수밖에 없다.

세 갈래의 미래

가장 어두운 갈래는 군비경쟁이 끝까지 이어지는 길이다. 탐지와 회피가 서로를 부추겨 검증이 손글씨·구술·감독 시험장으로 계속 후퇴하고, 그 고비용을 감당하지 못하는 학생부터 밀려난다. 신호는 더 무너지고, 졸업장이 보증하는 범위는 계속 좁아진다.

중간 갈래는 부분 통제로 봉합하는 길이다. 학교가 AI를 써도 되는 영역과 안 되는 영역을 명확히 나누고, 일부 평가만 구술·현장으로 옮긴다. 갈등은 어느 정도 줄지만, ‘AI 허용 경계’를 둘러싼 실랑이가 일상이 된다. 기술이 발전할 때마다 그 경계를 재협상해야 하고, 그 비용은 만만치 않다.

가장 밝은 갈래는 검증 자체가 근본적으로 재설계되는 길이다. OECD는 거대언어모델과 심리측정을 결합해 글뿐 아니라 구술 답변까지 신뢰성 있게 평가하는 국제 AI 평가 모델을 개발 중이며, AI 기반 구술·개인화 평가가 차세대 표준으로 거론된다. 검증이 결과물 중심에서 과정과 이해 중심으로 옮겨가면, 신호는 다시 살아날 수 있다. 아직 이것이 희망에 가까운 예측인지, 예측에 가까운 기대인지는 구분이 잘 안 된다.

어느 갈래로 갈지는 기술이 결정하지 않는다. 검증 비용을 누가, 어떻게 설계하느냐가 가른다.

학생의 가드레일

교사는 AI를 써도 되는 때와 안 되는 때를 구체적인 예시로 명확히 그어야 한다. 여러 교육 가이드가 강조하는 핵심은 ‘AI가 학생의 사고를 대신하는 인지적 외주’와 ‘AI가 더 깊이 파고들게 돕는 인지적 증강’을 구분하는 것이다. 어디까지가 허용되고 어디서부터가 허용되지 않는지 경계를 구체적으로 제시하지 않으면, 학생도 교사도 어디서 멈춰야 하는지 알 수 없다.

부모는 성적표가 아니라 과정을 묻는 쪽으로 시선을 옮겨야 한다. Stanford HAI는 AI를 ‘우회 수단’이 아니라 ‘학습 보조 도구’로 사용하도록 열린 대화를 나누고, 담임교사의 AI 방침부터 파악하라고 조언한다. 성적이 아니라 “네가 무엇을 직접 이해했는지”를 묻는 대화가, 결국 검증이 후퇴한 면접장과 실기장에서의 손실을 줄이는 길이다.

학생은 AI를 썼다는 사실을 숨기기보다, 왜 쓰는지 스스로 이해하는 것이 자기 보호다. AI로 숙제를 하는 학생이 늘수록, 그것이 자신의 비판적 사고를 해친다고 느끼는 학생도 함께 늘고 있다. 도구를 쓰되 손을 놓지 않는 균형을, 정작 당사자인 학생들이 가장 절실하게 느끼는 셈이다.

결국 세 주체 모두가 직면한 문제는 ‘AI를 막을 것이냐’가 아니라, AI를 쓰는 상황에서 학생이 무엇을 직접 익히고 이해하게 할 것이냐를 정하는 일이다.

우리가 결국 물어야 하는 것은 기술이 아니라 제도와 의지의 문제다. AI는 학습을 더 깊게 만들 수도, 더 얕게 만들 수도 있다. 그 차이를 가르는 것은 누가 검증 비용을 설계하고, 학생이 무엇을 끝까지 직접 익히게 할 것인가를 결정하는 일이다. 지금처럼 비용과 의심을 가장 약한 쪽에 떠넘기며 묵인만 이어간다면, 성적표와 졸업장은 점점 더 좁은 범위만을 보증하게 될 것이다. 반대로 그 비용을 제도가 공정하게 나누고, 검증을 결과가 아닌 이해로 재설계한다면, AI는 오히려 신호를 회복하는 도구가 될 수도 있다. 어느 쪽을 선택할지는 아직 우리에게 달려 있다.

#Education #Inequality #Economics