분기 단위 업무가 며칠 안에 끝... 앤트로픽 ‘다이내믹 워크플로’의 의미
[에이전틱AI시대] 앤트로픽, 오퍼스 4.8 모델, 신기능 공개
클로드 코드에서 수백 개 AI 에이전트 병렬 가동
핵심은 오케스트레이션 자동화... 수개월 작업 11일 만에 완료
클로드 오퍼스 4.8, 코딩·정직성 동시에 높여
‘킬러 기능’은 정직성… 정렬 평가 미토스 수준 근접
더밀크의 시각: 일하는 방식 바꾸는 변화의 시작
AI 스타트업 앤트로픽이 AI 에이전트(agent, 대리인) 작업을 위한 기능과 새로운 최상위 모델을 선보였다. 인간과 함께 ‘독립적으로 일하는 파트너’로서 AI가 가속화될 전망이다.
앤트로픽은 28일(현지시각) 수십 개에서 수백 개의 AI 에이전트를 병렬로 가동할 수 있는 클로드 코드의 신기능 ‘다이내믹 워크플로(Dynamic Workflows)’와 기존 최상위 모델 오퍼스 4.7을 개선한 ‘클로드 오퍼스 4.8(Claude Opus 4.8)’을 선보였다.
업계에서는 특히 클로드 코드의 신기능에 주목하는 분위기다. AI가 특정 작업 실행 계획까지 수립, 작업 시간 축소 및 생산성 극대화가 가능해지기 때문이다. 다이내믹 워크플로에 대해 “첨단 AI 모델 공개보다 더 큰 뉴스”라는 평가도 나왔다.
다이내믹 워크플로… 핵심은 오케스트레이션 자동화
앤트로픽은 이날 공식 블로그를 통해 다이내믹 워크플로를 공개했다. 앤트로픽은 “평소라면 분기 단위로 계획해야 했던 업무를 이제 며칠 안에 끝낼 수 있다. 클로드가 단일 세션에서 수십, 수백 개의 서브에이전트를 병렬로 실행하는 오케스트레이션 스크립트를 동적으로 작성하고, 결과물이 사용자에게 전달되기 전에 검증까지 수행한다”고 설명했다.
다이내믹 워크플로의 핵심은 ‘오케스트레이션(orchestration, 조율)의 자동화’다. 사용자가 프롬프트(promt, 작업 요청)에 ‘워크플로(workflow)’라는 단어를 포함하거나, 클로드 코드의 새 설정인 울트라코드를 활성화하면 클로드가 스스로 작업을 하위 과제로 분해, 수백 개의 서브에이전트에 병렬로 분배한 뒤 최종 결과를 통합한다.
진행 상황은 실행 도중에 저장되기 때문에 작업이 중단되더라도 처음부터 다시 시작하지 않고 중단된 지점에서 재개할 수 있다.
캐서린 우 앤트로픽 클로드 코드 제품 총괄은 X를 통해 “다이내믹 워크플로는 지금까지 클로드 코드의 기능 중 가장 강력하다”며 “프롬프트에 워크플로를 언급하기만 하면 클로드가 동적으로 오케스트레이션 계획을 세우고 이를 엄격하게 따른다. 수백 개의 에이전트에 걸쳐 모든 단계가 올바른 순서로 진행된다”고 강조했다.
구체적인 활용 사례도 공유했다. 우 총괄은 “최근 수백 개의 A/B 테스트 플래그를 모두 카탈로그화하고, 0%나 100%로 설정된 낡은 플래그를 빠르게 찾아내는 데 다이내믹 워크플로를 사용했다”며 “클로드 코드가 하나씩 순차적으로 조사하기를 기다리는 대신 다이내믹 워크플로를 통해 모든 플래그를 10분 안에 병렬로 처리할 수 있었다"고 했다.
무엇을 할 수 있나… 75만 줄 코드 11일 만에 전환
다이내믹 워크플로의 위력을 가장 극명하게 보여주는 사례는 자바스크립트 런타임 ‘번(Bun)’의 코드 전환이다. 번의 개발자 재러드 섬너는 다이내믹 워크플로를 활용해 Bun을 지그(Zig, 프로그래밍 언어)에서 러스트(Rust)로 포팅(porting, 이식)하는 작업을 수행했다.
그 결과 기존 테스트 스위트를 99.8% 통과했고, 약 75만 줄의 러스트 코드로 변환이 완료됐다. 첫 번째 커밋(commit, 관리 시스템에 기록해 확정)부터 통합(merge)까지 11일이 걸렸다. 통상적으로 수개월이 걸릴 대규모 코드 마이그레이션(migration, 이전)을 열흘 남짓에 해낸 것이다.
작업 방식도 주목할 만하다. 하나의 워크플로가 지그 코드베이스의 모든 구조체(struct) 필드에 대해 올바른 러스트 라이프타임을 매핑했고, 다음 워크플로가 수백 개의 에이전트를 병렬로 가동해 각 지그 파일의 동작과 동일한 러스트 파일을 작성했다. 각 파일에는 두 명의 리뷰어가 붙었고, 이후 수정 루프가 빌드와 테스트 스위트를 통과할 때까지 반복됐다. 코드 작동 확인까지 에이전트가 스스로 끝낸 것이다.
어디에 쓸까?... 주요 활용 분야
앤트로픽은 다이내믹 워크플로의 대표 활용 분야를 세 가지로 제시했다.
첫째, 코드베이스 전반에 걸친 오류(bug) 탐색, 프로파일러 기반 최적화 감사, 보안 감사다. 클로드가 서비스나 리포지토리(repository, 코드 저장 공간)를 병렬로 검색하고, 모든 발견 사항에 대해 독립적인 검증을 수행해 보고서에 실제 문제만 노출한다.
둘째, 대규모 마이그레이션과 현대화 작업이다. 프레임워크 교체, API(애플리케이선 프로그래밍 인터페이스) 폐기, 수천 개 파일에 걸친 언어 포팅 작업을 처음부터 끝까지 처리할 수 있다.
셋째, 이중 검증이 필요한 중요 업무다. 오답의 대가가 클 때, 워크플로가 문제에 독립적으로 접근하고 적대적 에이전트가 결과를 검증하는 과정을 거쳐 사용자에게 전달할 수 있다.
글로벌 핀테크 기업 클라르나(Klarna)의 시니어 엔지니어링 매니저 알레시오 발레로는 다이내믹 워크플로에 대해 “대형 코드베이스에서 코드 탐색과 검토 작업에 특히 유용했다”며 “전통적인 정적 분석이 놓친 데드 코드와 정리 기회를 발견해 엔지니어들의 유지보수 속도를 높였다”고 평가했다.
일본 사이버에이전트(CyberAgent) 수석 시스템 엔지니어 켄 타카오는 “다이내믹 워크플로는 단일 서브에이전트 실행과 완전한 에이전트 팀 구축 사이의 공백을 채워준다”며 “계획에서 구현까지 흐름이 자연스럽게 이어져 가시성을 잃지 않으면서도 더 긴 작업을 실행할 수 있다”고 했다.
다이내믹 워크플로는 현재 연구 미리보기(research preview) 단계로, 클로드 코드 CLI·데스크톱·VS 코드 익스텐션에서 유료 맥스 요금제, 팀 요금제, 엔터프라이즈 요금제 사용자가 사용할 수 있다.
클로드 오퍼스 4.8, 더 강해지고 더 솔직해졌다
앤트로픽은 이날 전작인 클로드 오퍼스 4.7 출시 후 불과 41일 만에 선보인 새로운 모델 ‘클로드 오퍼스 4.8’도 공개했다. 통상적인 업그레이드 주기보다 훨씬 빠른 공개로, 오퍼스 4.7이 일부 사용자들로부터 실망스럽다는 반응을 받았던 것이 빠른 출시 배경 중 하나로 꼽힌다.
코딩·추론·컴퓨터 사용 성능 개선
앤트로픽이 공개한 벤치마크에 따르면 오퍼스 4.8의 핵심 개선 영역은 ‘에이전틱 코딩’이었다. 에이전틱 코딩 벤치마크 점수가 64.3%에서 69.2%로 올랐고, 도구를 활용한 다학제적 추론은 54.7%에서 57.9%로 향상됐다.
수학 분야에서의 도약도 두드러진다. USAMO 2026 수학 벤치마크에서 오퍼스 4.7(69.3%) 대비 수직 상승한 96.7%를 기록했다. 100만 토큰 기준 장문 컨텍스트 처리 능력(GraphWalks F1)도 40.3%에서 68.1%로 크게 뛰었다.
에이전트 기능 중 하나인 컴퓨터 사용 분야에서도 ‘Online-Mind2Web’ 벤치마크에서 84%의 높은 점수를 기록하며 오퍼스 4.7과 GPT-5.5를 모두 제쳤다.
‘킬러 기능’은 정직성… 정렬 평가 미토스 수준 근접
‘정직성(Honesty)’도 이번 모델 업그레이드에서 주목받은 개선 사항이다. 앤트로픽은 오퍼스 4.8이 자신이 진행한 작업에서 불확실한 부분을 더 적극적으로 사용자에게 알리고, 근거 없는 주장을 덜 하게 됐다고 밝혔다.
예컨대 오퍼스 4.8은 직접 작성한 코드의 결함을 그냥 넘길 가능성이 전작 대비 약 4배 낮다.
이 변화의 의미는 실제 사용자 피드백에서 더욱 선명하게 드러난다. 마이클 란 브리지워터 시니어 투자 어소시에이트는 “오퍼스 4.8의 가장 큰 차별점은 분석의 입력과 출력에서 문제를 선제적으로 알리는 경향”이라며 “다른 모델들이 놓치고 사용자가 스스로 발견해야 했던 것을 오퍼스 4.8은 알아서 짚어냈다”고 평가했다.
법률 AI 스타트업 하비(Harvey)의 니코 그루펜 응용연구 총괄은 “오퍼스 4.8은 법률 에이전트 벤치마크에서 역대 최고 점수를 기록했다”며 “전체 통과 기준에서 처음으로 10%를 넘은 모델이다. 실질적인 법률 업무에서 이 정도의 정확도 향상은 고객들이 변호사 업무를 AI에 맡기는 데 직접 영향을 미친다”고 밝혔다.
정렬(Alignment) 평가에서도 오퍼스 4.8은 주목할 만한 성과를 거뒀다. 앤트로픽은 오퍼스 4.8이 “사용자 자율성 지지 및 사용자 이익 추구와 같은 친사회적 특성 측정에서 새로운 최고치를 달성했다”고 밝혔다.
기만이나 오용을 돕는 행동 등 비정렬 행동 비율이 오퍼스 4.7보다 크게 낮아져 가장 정렬이 잘 된 자체 모델 ‘클로드 미토스 프리뷰(Claude Mythos Preview)’와 유사한 수준으로 개선됐다는 설명이다.
앤트로픽은 오퍼스 4.8의 가격을 오퍼스 4.7과 동일하게 유지한다고 밝혔다. 표준 요금은 입력 토큰 100만 개당 5달러, 출력 100만 개당 25달러다. 빠른 응답이 필요한 ‘패스트 모드(Fast Mode)’는 입력 100만 개당 10달러, 출력 100만 개당 50달러로 책정됐다. 패스트 모드는 2.5배 빠른 속도를 제공하며 이전 모델 대비 3배 저렴해졌다.
‘에포트 컨트롤(Effort Control)’기능도 추가됐다. 사용자가 클로드가 응답에 쏟는 노력의 수준을 직접 조절할 수 있는 기능이다.
더밀크의 시각: 일하는 방식 바꾸는 변화의 시작
앤트로픽의 이번 발표는 최근 격화된 AI 경쟁 맥락에서 해석될 필요가 있다. 오픈AI의 코덱스(Codex) 업데이트와 구글의 제미나이 3.5 플래시(Gemini Flash) 발표 등 경쟁이 치열해지고 있기 때문이다. 단기간에 두 번의 업그레이드를 단행, IPO를 기다리는 시장의 요구에 빠르게 응답한 셈이다.
AI 비용에 민감해진 기업 고객들에 ‘사용량 맞춤화’ 옵션을 제공해 각 고객사들이 예산에 맞춰 클로드 코드를 사용할 수 있게 했고, AI를 도입하려는 기업들의 ROI(투자대비수익률) 계산을 유연하게 만들었다.
가장 중요한 변화는 다이내믹 워크플로가 대표하는 ‘에이전트 군집(Agent Swarm)’ 아키텍처로의 빠른 이동이다. 단일 AI 에이전트의 성능이 아니라 다수의 에이전트가 얼마나 효율적으로 협력해 복잡한 문제를 해결하는가로 경쟁의 축이 이동하고 있는 것이다.
‘독립 검증 에이전트(결과를 반박하려는 적대적 에이전트)’를 포함하는 구조는, 단순한 병렬 처리를 넘어 AI 시스템이 스스로 품질을 통제하는 자기 검증 메커니즘을 내장했다는 점에서도 그 의미가 크다.
다이내믹 워크플로가 보여주는 방향은 명확하다. 사람이 업무를 잘게 쪼개어 AI에 하나씩 지시하던 방식에서 AI가 스스로 큰 목표를 해석하고 수백 개의 에이전트를 자율적으로 조율해 결과를 만들어내는 방식으로의 전환이다.
분기 단위 계획이 필요했던 대규모 코드 마이그레이션·보안 감사·시스템 현대화 업무가 며칠 단위의 AI 작업으로 전환되는 사례는 그 가능성을 직접적으로 입증한다. 단순한 신기능, 신모델 출시가 아니라 소프트웨어 개발과 지식 노동의 구조적 변화를 가속하는 신호로 해석해야 하는 이유다.
오퍼스 4.8의 정직성 강화 역시 같은 방향을 가리킨다. AI가 장시간 자율적으로 일하려면 스스로의 실수를 인지하고 알리는 능력이 필수적이다. 오류를 묻어두는 AI는 장기 자율 실행 환경에서 치명적 결함이 되기 때문이다.
오퍼스 4.8이 코드 결함을 스스로 지적할 가능성을 4배 높인 것은 단순한 품질 개선이 아니라, AI의 자율성 확장을 위한 신뢰 기반 구축으로 봐야 한다.
오퍼스 4.8이 법률 에이전트 벤치마크에서 10% 장벽을 돌파하고 금융 분석에서도 뚜렷한 개선을 보인 점은 한국의 법무·금융 업계에서 AI 활용 범위를 넓힐 기회를 시사한다. 정직성 강화는 규제 준수가 엄격한 분야에서 특히 중요한 요소다. 실제로 앤트로픽은 최근 한국에 법인을 설립하고 최이영 대표이사를 선임하기도 했다.
AI가 일하는 방식을 바꾸는 시대가 현실이 되고 있다. 다이내믹 워크플로와 오퍼스 4.8은 그 전환점을 알리는 신호탄이다.