기업 소프트웨어 시장에서 AI 에이전트의 역할에 대한 의견은 크게 두 갈래로 나뉜다. 한쪽에서는 LLM 기반 에이전트가 아직 복잡한 운영 문제를 풀어내지 못한다고 보고, 다른 쪽에서는 이미 실무 여러 영역에서 에이전트가 활용되고 있다고 본다. 이 대립은 단순한 기술 찬반을 넘어선다.

문제의 핵심은 에이전트가 ‘일을 대신할 수 있는가’가 아니라, 그 일이 실제로 어떤 요소들로 구성되어 있는가에 있다.

‘일’이라는 이름의 두 얼굴

알렉스 카프는 수년 전부터 LLM이 산업 현장의 복잡한 운영 문제를 아직 해결하지 못한다고 반복해서 지적해왔다. 그에 따르면 그러한 비전은 아직 이상적인 미래 단계에 가깝다. 반면 일부에서는 AI 에이전트가 이미 개발 업무를 보조하고, 영업 파이프라인을 처리하며, 계약서 검토를 수행하는 사례가 실무에서 나타나고 있다고 본다. 후자의 관점에서는 에이전트가 이미 현실에 투입되고 있다는 점을 강조한다.

두 주장은 서로 다른 대상을 동일한 단어 ‘일’로 지칭하면서 논쟁을 이어간다. 카프가 말하는 ‘일’은 운영 판단과 책임 소재가 복잡하게 얽혀 있는 영역이다. 반대로 에이전트가 이미 수행한다고 보는 쪽에서 말하는 ‘일’은 패턴이 비교적 명확하고 결과 검증이 용이한 반복 작업에 해당한다. 이 차이를 놓치면 양측 주장이 서로 다른 층위를 놓고 충돌하는 양상이 반복된다.

에이전트 코딩 도구가 개발자 생산성을 높였다는 관찰과, 국방이나 대규모 운영 체계에서 에이전트가 기존 시스템을 대체할 수 있다는 주장은 본질적으로 다른 수준의 주장이다. 기업용 버티컬 솔루션이 실제로 제공하는 가치가 어떤 요소들로 구성되어 있는지를 먼저 규명해야 한다. 그다음에 에이전트가 해당 작업을 수행할 수 있는지를 논하는 순서가 적절하다. 카프가 지적한 대로, 가공되지 않은 LLM 자체는 비싼 화학 실험에 가깝고 실질적인 가치는 그 위에 얹히는 구조에서 나온다.

반대 쪽에서는 이 구조마저 에이전트가 흡수할 수 있다고 본다. 논의는 결국 구조의 어느 부분이 에이전트에 의해 대체되고 어느 부분이 그렇지 않은지에 집중된다.

기업 소프트웨어 3대 가치 계층

기업이 구매하는 버티컬 소프트웨어의 가치는 표면적으로 워크플로우 자동화로 드러난다. 실제로는 세 층으로 구성된다. 첫째는 실행층으로, 워크플로우 수행과 데이터 입출력이 여기에 속한다. 둘째는 지식 모델층으로, 사업 운영 논리를 인코딩한 온톨로지와 도메인 규칙이 포함된다. 셋째는 신뢰층으로, 보안·감사 추적·결정론적 검증·책임 소재가 자리 잡는다. 이 층들은 변화 속도와 저항 방식이 서로 다르다.

물론 현실의 제품에서 이 세 층이 늘 이렇게 깔끔하게 갈라져 있는 것은 아니다.

사티아 나델라는 비즈니스 애플리케이션이 결국 CRUD 데이터베이스와 비즈니스 로직으로 구성되며, 에이전트 시대에 그 개념 자체가 붕괴될 것이라고 진단했다. 그가 주로 지목한 부분은 실행층이다. 반복적이고 패턴이 뚜렷한 이 영역에서는 에이전트가 기존 소프트웨어를 빠르게 대체하는 움직임이 나타난다. 이 진단은 실행층에 한정할 경우 타당성을 갖는다. 다만 분석을 솔루션 전체로 확장할 때 문제가 발생한다.

알렉스 카프가 온톨로지 없이는 LLM이 환각만 일으키며 실제 운영에서 작동하지 않는다고 말할 때 염두에 둔 것은 지식 모델층과 신뢰층이다. 이 두 층은 단순한 데이터가 아니라 조직이 자신의 사업을 어떻게 이해하고 해석하는지를 담고 있다. 어떤 조건에서 어떤 결정을 내리는지, 예외 상황이 어떤 승인 절차를 거치는지, 특정 신호가 어떤 대응을 유발하는지와 같은 내용이 여기에 해당한다. 이러한 지식은 공개된 데이터나 일반 코퍼스에 존재하지 않으며, 범용 모델이 사전 학습으로 습득하기 어렵다.

쉬운 자동화 vs 어려운 자동화

코드 작성, 문서 초안 작성, 표준 데이터 처리 파이프라인처럼 검증 비용이 낮고 패턴이 공개된 작업에서는 에이전트가 이미 실운영 수준에서 작동한다. Y Combinator나 가트너 같은 기관에서 수직형 AI가 기존 SaaS의 상당 부분을 대체할 것이라는 전망을 내놓을 때 주로 이 층을 염두에 둔다. 실제로 법률 분야에서 계약서 조항 자동 추출, 금융권에서 보고서 초안 생성, 소프트웨어 개발에서 단위 테스트 코드 자동 작성 등의 사례가 축적되고 있다.

이 층에서 자동화가 상대적으로 수월한 이유는 몇 가지 공통 조건 때문이다. 목표가 명확하게 정의되어 있고, 결과에 대한 기계적 채점이 가능하며, 실패 비용이 낮다. 코드는 컴파일 성공 여부로 즉시 검증할 수 있다. 계약서 검토 항목은 사전에 기준을 정해 놓으면 통과 여부를 자동으로 판단할 수 있다. 실패가 조직에 치명적이지 않기 때문에 반복 실험이 가능하고, 이를 통해 에이전트의 자율성을 점진적으로 높일 수 있다. 이러한 조건이 충족되지 않는 영역에서는 동일한 접근 방식이 효과를 내기 어렵다.

따라서 에이전트가 이미 실무에서 활용된다는 주장은 실행층에 적용할 경우 타당하다. 이 층을 넘어 솔루션 전체로 일반화하는 순간 과도한 확장이 시작된다.

그런데 이 과장이 아주 틀린 말도 아니어서, 오히려 더 헷갈린다.

운영 지식의 난공불락 요새

진짜 해자는 수십 년에 걸친 운영 지식을 인코딩한 양방향 온톨로지다. Palantir가 국방·정보 기관에서 구축해온 것이 이 부분이다. 스타트업이 단기간에 복제하기 어려운 이유는 기술적 난이도 때문이 아니다. 플랫폼을 교체하는 비용이 기술적 데이터 이전이 아니라 인식론적이기 때문이다. 새 플랫폼으로 데이터를 옮기더라도, 그 데이터를 해석하는 논리 체계가 함께 옮겨가지 않으면 운영은 다시 초기 단계부터 시작해야 한다.

라스트마일 문제도 기술 탓으로만 돌리기 어렵다. ERP 도입 사례에서 반복적으로 확인되었듯이, 지능을 시스템에 넣더라도 ‘결정을 누가 어떻게 내리고 책임지는가’를 재설계하지 않으면 가치가 마지막 단계에서 유실된다. 문서화되지 않은 API, 수백 개 필드를 가진 드롭다운 메뉴, 중복된 비즈니스 로직 앞에 선 에이전트는 문서 없이 서버실 열쇠만 받은 신입과 다르지 않다. 열쇠는 있지만 어떤 서버에 무엇이 있는지 알지 못하는 상태다.

거버넌스 층도 마찬가지다. 비결정적인 LLM 위에 결정론적 검증을 올리는 작업은 모델 성능 향상만으로 자동 해결되지 않는다. 안전이 중요한 환경의 실배포 사례에서 관찰되는 일관된 패턴은 부분적 성공과 지속적인 인간 개입이다. 완전 자동화가 아니라 설계된 제약과 감독 아래에서 작동하는 형태다.

이 패턴이 모델이 더 좋아진 뒤에도 유지될지는, 솔직히 아직 단정하기 이르다.

실행에서 구조로, 가치 중심의 이동

에이전트가 목표 지향적으로 더 정교해질수록 명시적 구조인 온톨로지의 필요성은 줄어들지 않고 커진다. 자율성이 높은 행위자는 명확한 가드레일과 공유된 판단 기준이 없으면 예측하기 어려운 방향으로 움직일 수 있다. 에이전트가 더 유능해진다는 것은 잘못된 목표를 더 효율적으로 달성할 위험도 함께 커진다는 의미다. 온톨로지는 에이전트에게 이 세계에서 무엇이 유효한 목표인지를 알려주는 좌표계 역할을 한다.

이 때문에 “에이전트가 SaaS를 대체한다”는 명제의 현실적 결과는 SaaS의 소멸이 아닐 가능성이 크다. 오히려 SaaS가 에이전트를 위한 신뢰 계층으로 재편되는 방향이 나타날 수 있다. 워크플로우 실행은 에이전트가 처리하되, 온톨로지와 거버넌스 레이어는 강화되는 형태다. 버티컬 솔루션이 파는 것의 무게중심이 실행에서 구조로 이동하는 것이다.

한편으로는 고정된 온톨로지 자체가 미래 에이전트의 적응성을 가로막는 기술 부채가 될 수 있다는 관점도 존재한다. 에이전트가 스스로 온톨로지를 학습하고 진화시키는 방향이 현실화된다면, 고정된 운영 논리를 인코딩했다는 점이 차별점이 아니라 제약이 될 수 있다. 다만 그 가능성이 실현되더라도 구조를 만드는 방식이 바뀌는 것이지, 구조 자체의 필요성이 사라지는 것은 아니다. 에이전트가 온톨로지를 생성하더라도 그것이 무엇을 반영해야 하는지는 여전히 사람이 정의해야 한다.

우리 일의 방향성, 에이전트가 정하는가?

에이전트가 실행을 가져갈수록 사람의 역할은 ‘무엇을 향해 나아갈 것인지, 무엇을 옳다고 볼 것인지’를 정하는 쪽으로 이동한다. 사라지는 것이 아니라 더 선명해지는 역할이다. 목표 설정, 평가 기준, 도메인 암묵지는 과거 데이터 어디에도 없어서 모델이 제공할 수 없다. 지금까지는 판단과 실행이 뒤섞여 있어서 어디서 사람이 중요한지 불분명했다면, 에이전트가 실행을 처리하면서 그 경계가 더 명확해진다.

경영진이 던질 질문은 “에이전트가 우리 일을 대체하는가”가 아니다. “우리 일의 운영 지식 모델과 판단 기준이 지금 어디에 있는가—에이전트가 읽을 수 있는 형태로 인코딩돼 있는가, 아니면 특정 베테랑의 머릿속에만 있는가”가 더 유효한 질문이다. 인코딩돼 있지 않다면 에이전트를 도입해도 그 지식은 전달되지 않는다. 에이전트는 실행층을 빠르게 처리하지만, 운영 논리가 없으면 그 실행이 향하는 방향도 없다.

알렉스 카프가 옳은 부분과 에이전트 맥시멀리스트가 옳은 부분은 시간이 가르는 것이 아니라 층이 가른다. 실행층은 이미 에이전트가 처리하고 있고, 지식 모델층과 신뢰층은 그렇지 않다.

두 층을 구분하지 않고 논의하면 같은 형태의 공회전이 반복된다. 에이전트가 실행층을 빠르게 흡수해 가는 상황에서 조직이 직면한 진짜 과제는 기술 도입 자체가 아니라, 자신의 운영 지식을 어떻게 구조화하고 유지할 것인가 하는 점이다. 이 구조화 작업을 소홀히 한다면 에이전트는 빠른 실행만을 제공할 뿐, 조직이 원하는 방향으로 움직이게 하는 힘은 여전히 부족할 수 있다. 결국 기술의 발전 속도와 관계없이, 기업이 스스로를 얼마나 명확하게 이해하고 있는지가 에이전트 시대의 실질적인 경쟁력을 결정짓는 요소로 남는다.

#Agent#Palantir#Ontology#Enterprise Software