성능 업그레이드와 AI 안전성 강화: "클로드 오퍼스 4.1"의 발표
2025년 8월 5일, 매트 G. 서던 - SEJ 직원
최근, Anthropic는 그들의 플래그십 모델인 Claude Opus 4의 업그레이드 버전 4.1을 출시했습니다. 이 버전은 프로그래밍, 논리적 추론 및 독립적인 작업 처리에서의 성능 향상이 특징입니다. 개발자들은 이제 Claude Pro 사용자, Claude Code 구독자, Amazon Bedrock 또는 Google Cloud의 Vertex AI를 사용하여 새 모델을 경험할 수 있습니다.
주요 성능 향상
Claude Opus 4.1은 SWE-bench Verified에서 74.5%라는 점수를 기록, 실제 코딩 문제에서 높은 성능을 입증하였습니다. 특히 대규모 코드베이스에서의 멀티파일 코드 리팩터링 및 디버깅 기능이 두드러지게 개선되었으며, GitHub 및 엔터프라이즈의 피드백에 따르면 Opus 4를 뛰어넘는 성능을 보여준다고 합니다.
예를 들어, Rakuten의 엔지니어링 팀은 Claude 4.1이 코드 수정을 정확하게 식별하면서 불필요한 변경을 최소화한다고 보고했습니다. Windsurf는 이 모델이 Claude Sonnet 3.7에서 Sonnet 4로의 전환이었던 기존 업그레이드와 비교할 때 표준 편차 한 단계의 성능 향상을 보고하고 있습니다.
확장된 사용 사례
Anthropic은 Claude 4.1을 순간적인 출력과 확장된 사고를 모두 처리할 수 있는 하이브리드 추론 모델로 설명합니다. 개발자는 API를 통해 비용과 성능 사이의 균형을 맞출 수 있는 “사고 예산”을 미세 조정할 수 있습니다.
주요 사용 사례로는 다음과 같습니다:
- AI 에이전트: TAU-bench 및 장기 작업에서 우수한 결과를 보여 오토노머스 워크플로우와 엔터프라이즈 자동화에 적합합니다.
- 고급 코딩: 32,000개의 출력 토큰을 지원하며 복잡한 리팩토링과 다단계 생성을 처리하며 코딩 스타일과 맥락에 적응합니다.
- 데이터 분석: 대량의 구조화된 및 비구조화된 데이터에서 통찰력을 도출할 수 있습니다.
- 콘텐츠 생성: 이전 버전보다 더 자연스러운 쓰기와 풍부한 문체를 생성하며 구조와 톤이 향상되었습니다.
안전성 개선
Claude 4.1은 Anthropic의 AI 안전 수준 3 기준을 계속해서 준수합니다. 이번 업그레이드는 점진적인 것으로 간주되지만, 회사는 성능이 수용 가능한 위험 경계 내에 머무르는지 확인하기 위해 자발적으로 안전 평가를 수행했습니다.
- 무해성: 정책에 위반되는 요청을 98.76% 거부했습니다.
- 과도한 거부: 해가 없는 요청에 대한 거부율은 낮은 0.08%를 유지했습니다.
- 편견 및 아동 안전성: 평가에서 정치적 편견, 차별 행위, 아동 안전 응답에서 유의미한 회귀가 없었다는 결과를 보였습니다.
