Claude 4 출시 - 세계 최고의 코딩 AI와 강화된 추론 능력

민이(MInE) 2025. 5. 23.

이 글은 2025년 5월 23일 Anthropic에서 발표한 Claude 4 공식 문서를 개인적으로 번역하고 정리한 내용입니다.

https://www.anthropic.com/news/claude-4

Introducing Claude 4

Discover Claude 4's breakthrough AI capabilities. Experience more reliable, interpretable assistance for complex tasks across work and learning.

www.anthropic.com

정확한 정보는 공식 문서를 참조해 주세요.

오늘 Anthropic에서 차세대 Claude 모델인 Claude Opus 4와 Claude Sonnet 4를 공식 출시했습니다. 이번 새로운 모델들은 코딩, 고급 추론, AI 에이전트 분야에서 새로운 기준을 제시합니다.

Claude Opus 4: 세계 최고의 코딩 모델로, 복잡하고 장시간 실행되는 작업과 에이전트 워크플로우에서 지속적인 성능을 보여줍니다
Claude Sonnet 4: Claude Sonnet 3.7의 대폭 업그레이드 버전으로, 뛰어난 코딩과 추론 능력을 제공하면서 사용자 지시를 더욱 정확하게 따릅니다

Claude 4 모델 상세 소개

Claude Opus 4: 최고 성능의 코딩 전문 모델

Claude Opus 4는 Anthropic의 가장 강력한 모델이자 세계 최고의 코딩 모델입니다. 주요 성과는 다음과 같습니다

SWE-bench에서 72.5% 달성 (소프트웨어 엔지니어링 벤치마크)
Terminal-bench에서 43.2% 달성
수천 단계가 필요한 장시간 작업에서 지속적인 성능 유지
최대 몇 시간 동안 연속 작업 가능

주요 파트너사들의 평가

Cursor: "코딩 분야에서 최첨단 수준이며, 복잡한 코드베이스 이해에서 비약적 발전"
Replit: "다중 파일에 걸친 복잡한 변경 작업에서 정확도 향상과 극적인 발전"
Block: "편집 및 디버깅 중 코드 품질을 향상시키는 첫 번째 모델"
Rakuten: "7시간 동안 독립적으로 실행되는 대규모 오픈소스 리팩터링 작업에서 지속적 성능 검증"

Claude Sonnet 4: 성능과 효율성의 최적 균형

Claude Sonnet 4는 업계 선도적인 Sonnet 3.7의 능력을 크게 개선했습니다

SWE-bench에서 72.7% 달성 (최첨단 수준)
내부 및 외부 사용 사례에서 성능과 효율성의 균형
구현에 대한 더 나은 제어를 위한 향상된 조정 가능성

주요 파트너사들의 평가

GitHub: "에이전트 시나리오에서 뛰어난 성능을 보여주며, GitHub Copilot의 새로운 코딩 에이전트를 구동하는 모델로 도입 예정"
iGent: "자율적인 다중 기능 앱 개발에서 탁월하며, 문제 해결과 코드베이스 탐색이 대폭 개선되어 탐색 오류가 20%에서 거의 0%로 감소"
Sourcegraph: "소프트웨어 개발에서 상당한 도약을 보여주며, 더 오래 집중하고, 문제를 더 깊이 이해하며, 더 우아한 코드 품질 제공"

주요 신기능과 개선사항

1. 도구 사용과 함께하는 확장된 사고 기능 (베타)

두 모델 모두 확장된 사고 과정에서 웹 검색 같은 도구를 사용할 수 있습니다. 이를 통해 Claude는 추론과 도구 사용을 번갈아 가며 더 나은 응답을 제공할 수 있습니다.

2. 새로운 모델 기능들

병렬 도구 사용: 여러 도구를 동시에 활용 가능
정확한 지시 따르기: 사용자 지시를 더욱 정밀하게 수행
향상된 메모리 기능: 개발자가 로컬 파일 접근 권한을 제공할 때, 핵심 정보를 추출하고 저장하여 연속성 유지 및 암묵적 지식 구축

3. 바로가기/허점 사용 행동 65% 감소

작업을 완료하기 위해 지름길이나 허점을 사용하는 행동이 Sonnet 3.7 대비 65% 감소했습니다. 이는 더 신뢰할 수 있고 정확한 작업 수행을 의미합니다.

4. 메모리 기능의 극적 향상

Claude Opus 4는 개발자가 로컬 파일 접근을 제공할 때 '메모리 파일'을 생성하고 유지하는 데 뛰어납니다. 이를 통해

장기간 작업 인식 능력 향상
일관성 있는 작업 수행
에이전트 작업에서 더 나은 성능 발휘

실제 예시: Opus 4가 포켓몬 게임을 플레이하면서 '내비게이션 가이드'를 생성하여 게임 진행에 활용

Claude Code 정식 출시

연구 미리보기 기간 동안 받은 광범위한 긍정적 피드백을 바탕으로, Claude Code가 정식 출시되었습니다.

주요 기능

IDE 통합 (베타)
- VS Code와 JetBrains용 새로운 확장 프로그램
- Claude의 제안 편집 사항이 파일에 직접 표시
- IDE 터미널에서 간단한 설치로 이용 가능
GitHub Actions 지원
- 백그라운드 작업 지원
- 자동화된 개발 워크플로우 구축
확장 가능한 Claude Code SDK
- 개발자가 자체 에이전트와 애플리케이션 구축 가능
- Claude Code와 동일한 핵심 에이전트 사용
GitHub 통합 (베타)
- PR에서 Claude Code 태그 가능
- 리뷰어 피드백 대응, CI 오류 수정, 코드 수정 자동화

새로운 API 기능

Anthropic API에 추가된 4가지 새로운 기능으로 더 강력한 AI 에이전트 구축이 가능합니다

코드 실행 도구: 코드를 직접 실행하고 결과 확인
MCP 커넥터: 다양한 서비스와의 연결 지원
Files API: 파일 처리 및 관리 기능
프롬프트 캐싱: 최대 1시간 동안 프롬프트 캐시 가능

성능 벤치마크 결과

소프트웨어 엔지니어링 성능

Claude 4 모델들은 SWE-bench Verified에서 다른 LLM들을 크게 앞서는 성과를 보였습니다

Claude Opus 4: 72.5%
Claude Sonnet 4: 72.7%
기타 주요 모델들보다 현저히 높은 점수 달성

다양한 영역에서의 강력한 성능

Claude 4 모델들은 다음 영역에서 강력한 성능을 보여줍니다

코딩 및 소프트웨어 개발
수학적 추론
다중 모달 기능
에이전트 작업 수행

두 가지 모드: 즉시 응답 vs 확장된 사고

Claude 4 모델들은 하이브리드 모델로, 두 가지 모드를 제공합니다

즉시 응답 모드: 빠른 답변이 필요한 일반적인 작업
확장된 사고 모드: 더 깊은 추론이 필요한 복잡한 작업

사용자는 작업의 성격에 따라 적절한 모드를 선택할 수 있습니다.

가격 및 이용 방법

요금제별 제공 현황

무료 사용자: Claude Sonnet 4 이용 가능
Pro/Max/Team/Enterprise 플랜: 두 모델 모두 이용 가능 (확장된 사고 기능 포함)

API 가격 (기존 모델과 동일)

Claude Opus 4: 입력 토큰 $15/출력 토큰 $75 (백만 토큰당)
Claude Sonnet 4: 입력 토큰 $3/출력 토큰 $15 (백만 토큰당)

플랫폼 지원

Anthropic API
Amazon Bedrock
Google Cloud의 Vertex AI

안전성과 보안

Claude 4 모델들은 광범위한 테스트와 평가를 거쳐 위험을 최소화하고 안전성을 극대화했습니다. ASL-3(AI Safety Level 3)와 같은 높은 AI 안전 수준을 위한 조치들이 구현되었습니다.

앞으로의 전망

Claude 4는 가상 협업자를 향한 큰 걸음으로, 다음과 같은 특징을 갖습니다

완전한 컨텍스트 유지: 작업 전반에 걸친 일관성
장기 프로젝트에 대한 지속적 집중: 몇 시간에 걸친 작업도 안정적 수행
혁신적 영향: 개발 워크플로우의 근본적 변화

이제 Claude 4를 통해 AI와의 협업이 한 단계 더 발전된 형태로 가능해졌습니다. 개발자들은 더 복잡한 작업을 AI에게 맡기고, 창의적이고 전략적인 업무에 더 집중할 수 있게 되었습니다.

저작자표시 비영리 변경금지 (새창열림)