Anthropic Fable 5·Mythos 5, 수출통제 해제… 18일 만에 글로벌 재개
미국 상무부가 Anthropic의 Claude Fable 5와 Mythos 5에 대한 수출 통제를 해제했다. 6월 12일 상무부가 jailbreak 취약성을 이유로 외국인 접근 차단을 명령한 지 18일 만이다. 하워드 러트닉 상무장관은 Anthropic이 보안 위험을 선제적으로 탐지·해소하고 향후 배포 프로토콜을 정부와 협의하기로 했다고 밝혔다.
Fable 5는 수요일부터 Claude 플랫폼, Claude.ai, Claude Code에서 글로벌로 다시 제공된다. 7월 7일까지 Pro·Max·Team 플랜과 일부 엔터프라이즈 플랜에서 주간 사용량의 최대 50%까지 이용할 수 있다. 재배포판에는 사이버보안 작업을 더 강하게 차단하는 새로운 분류기가 적용됐다. 일부 일상 코딩 작업은 당분간 다른 모델로 우회해야 할 수 있다.
Anthropic, Claude Sonnet 5 출시… 에이전트 기능을 중형 가격에
Anthropic이 중형 모델 Claude Sonnet 5를 출시했다. 계획 수립, 브라우저·터미널 도구 사용, 자율 실행 등에서 이전 대형 모델(Opus급) 수준의 에이전트 성능을 중형 가격으로 제공한다는 점을 강조했다.
가격은 8월 31일까지 100만 토큰당 입력 2달러, 출력 10달러로 적용되며 이후 3달러·15달러로 인상된다. 표준 가격 기준으로 Opus 4.8보다 토큰당 약 60% 저렴하다. 무료·Pro 플랜의 기본 모델로 지정됐다. 다만 8월 말까지라는 단서가 붙은 도입가여서, 이 셈법이 언제까지 유효할지는 따로 지켜볼 일이다.
X, AI 에이전트용 호스티드 MCP 서버 출시… 종량제 비용 논란 확산
X가 AI 에이전트용 호스티드 MCP 서버를 공식 출시했다. Grok·Cursor·Claude·VS Code 등 MCP 호환 도구가 별도 설정 없이 200개 이상의 X API 엔드포인트(포스트 검색, 타임라인, 북마크 등)에 접근할 수 있게 됐다. 과금은 월 구독 없는 순수 종량제 방식이다.
출시 다음 날 개발자 사이에서는 “MCP 연결은 무료지만 실제 X API 호출은 유료”라는 비용 구조에 대한 논쟁이 커지고 있다. 일부 분석에서는 이를 에이전트 배포를 사용자 성장보다 우선하는 전략으로 해석하고 있다. 무료라고 내세우는 서비스일수록 청구서는 대개 다른 칸에서 날아온다.
OpenAI, GeneBench-Pro 벤치마크 공개… 생물학 연구 판단력 측정
OpenAI가 계산생물학 연구용 GeneBench-Pro 벤치마크를 공개했다. 유전체·정량생물학·중개의학 3개 축, 10개 도메인에 걸친 129개 문제로 구성됐다. 단순 사실 회상이 아니라 데이터셋과 실험 맥락, 연구 질문을 주고 분석 경로를 스스로 선택해 결론을 내도록 설계됐다.
OpenAI는 이 능력을 “research taste”로 설명했다. 129문제 중 82개는 대학원생·박사후연구원·산업과학자·교수 등 외부 전문가 검수를 거쳤다.
인간 전문가가 전형적인 문제 하나를 푸는 데 20~40시간이 걸릴 것으로 추정된다.
GPT-5.6 Sol 모델은 최대 추론 수준에서 28.7% 통과율을 기록했다.
Google Gemma 4 31B, Cerebras에서 초고속 멀티모달 프리뷰 제공
Google DeepMind의 오픈 웨이트 모델 Gemma 4 31B가 Cerebras 추론 플랫폼에서 퍼블릭 프리뷰로 제공된다. 텍스트와 이미지를 네이티브로 처리하는 멀티모달 모델이며, Cerebras에서 초당 1,800토큰 이상(일부 보도 1,500토큰대)의 속도를 낸다. Cerebras가 호스팅하는 첫 멀티모달 모델이자 첫 Google DeepMind 모델이다.
Anthropic, AI jailbreak 심각도 평가 프레임워크 초안 발표
Anthropic이 Amazon·Microsoft·Google 등 Glasswing 파트너와 함께 AI jailbreak의 심각도를 객관적으로 평가하는 산업 컨센서스 프레임워크 초안을 공개했다. Fable 5 재배포 발표와 함께 나왔으며, 다른 모델 제공사의 참여를 공개 초청했다.
프레임워크는 추가되는 능력의 크기, 열리는 작업 범위, 무기화 용이성, 발견 용이성 등을 기준으로 점수화하고, 최고 심각도 등급에는 즉시 예비 완화책을 배포하도록 한다.
현재 업계에는 jailbreak 심각도를 객관적 언어로 기술하는 합의가 없는 상태다.
Claude Code 메타데이터 전송 논란… 은밀 지문 주입 의혹 제기
Claude Code가 세션 시작 시 기기 식별자·OS·감지된 프레임워크·CLI 버전 등 메타데이터를 명시적 동의 없이 전송한다는 지적이 나왔다. 실행된 bash 명령 문자열이 그대로 전송돼 파일 경로와 환경변수가 노출될 수 있다는 분석도 제기됐다.
일부에서는 Claude Code가 시스템 프롬프트에 중국 프록시 지문 등 메타데이터를 은밀히 인코딩한다는 의혹을 제기했다. 이는 아직 검증되지 않은 주장으로 Anthropic의 공식 반박과 1차 코드 검증이 필요하다. Fable 5 복귀 발표와 시기가 겹쳐 주의 분산이라는 해석도 있으나 정황적 추론에 불과하다.
AI 에이전트 개발, 오케스트레이션·검증이 핵심으로 부상
최근 오픈 모델 발전과 함께 AI 에이전트 개발에서 단일 모델의 raw 성능보다 루프·서브에이전트·검증(verification)이 진짜 차별화 요소라는 인식이 확산되고 있다. Z.ai의 GLM-5.2와 Google Gemma 4 등이 가격·성능 경쟁력을 더하며 이러한 추세를 뒷받침한다.
모델 자체가 상향 평준화되면서 차별화가 모델을 어떻게 조합하고 결과를 어떻게 검증하느냐는 엔지니어링 레이어로 이동하고 있다는 분석이다.
다만 ‘엔지니어링이 승부처’라는 진단은 몇 해째 되풀이돼 온 이야기라, 이번이 얼마나 실질적인 전환인지는 조금 더 지켜볼 일이다. GLM-5.2의 경우 출시 시점 공식 벤치마크가 없어 일부 수치가 미확인 상태로 남아 있다.