Categories
뉴스

클로드 3의 특징은 무엇인가요

클로드 3은 추리, 전문 지식, 수학 및 언어 작업에서의 고급 능력으로 인정받으며, Anthropic이 개발한 가장 지능적인 AI 모델 중 하나로 손꼽힙니다.

오늘은 넓은 범위의 인지 작업에서 새로운 산업 기준을 세우는 클로드 3 모델 패밀리를 발표합니다. 이 패밀리에는 능력이 오르막순으로 크게 나타난 세 가지 최첨단 모델인 클로드 3 하이쿠, 클로드 3 소네트, 클로드 3 오퍼스가 포함되어 있습니다. 각 모델은 점점 더 강력한 성능을 제공하여 사용자가 특정 응용 프로그램에 최적의 지능, 속도 및 비용을 선택할 수 있도록 합니다.

오퍼스와 소네트는 이제 claude.ai 및 클로드 API에서 사용할 수 있으며, 이제 159개국에서 일반적으로 사용할 수 있습니다. 하이쿠는 곧 제공될 예정입니다.

클로드 3 모델 패밀리

claude3

지능의 새로운 기준

우리의 가장 지능적인 모델인 오퍼스는 대학 전문 지식(MMLU), 대학원 수준 전문 추론(GPQA), 기본 수학(GSM8K) 등 AI 시스템의 일반적인 평가 기준 대부분에서 동료들을 능가합니다. 복잡한 작업에서 거의 인간 수준의 이해와 유창함을 보여주며, 일반 지능의 선두주자로 나아가고 있습니다.

모든 클로드 3 모델은 분석 및 예측, 미묘한 콘텐츠 생성, 코드 생성 및 스페인어, 일본어, 프랑스어와 같은 비영어 언어로 대화하는 능력이 향상되었습니다.

아래는 여러 능력[1]의 벤치마크에서 클로드 3 모델과 동료들의 비교입니다:

거의 즉각적인 결과

클로드 3 모델은 라이브 고객 채팅, 자동완성 및 실시간 응답이 필요한 데이터 추출 작업을 지원할 수 있습니다.

하이쿠는 지능 카테고리에서 시장에서 가장 빠르고 비용 효율적인 모델입니다. arXiv(~10k 토큰)에 있는 차트와 그래프가 포함된 정보 밀도 높은 연구 논문을 3초 미만으로 읽을 수 있습니다. 출시 후 성능을 더 개선할 것으로 예상됩니다.

작업의 대부분에 대해 소네트는 클로드 2 및 클로드 2.1보다 2배 더 빠르며 더 높은 수준의 지능을 보여줍니다. 지식 검색이나 판매 자동화와 같이 신속한 응답이 필요한 작업에서 뛰어난 성과를 거두고 있습니다. 오퍼스는 클로드 2 및 2.1과 유사한 속도를 제공하지만 훨씬 더 높은 수준의 지능을 보유하고 있습니다.

강력한 비전 능력

클로드 3 모델은 다른 선도적인 모델들과 비슷한 정교한 비전 능력을 갖추고 있습니다. 사진, 차트, 그래프 및 기술 다이어그램을 포함한 다양한 시각 형식을 처리할 수 있습니다. 특히 PDF, 플로우차트 또는 프레젠테이션 슬라이드와 같은 다양한 형식으로 인코딩된 지식 베이스를 보유한 기업 고객에게 이 새로운 모달리티를 제공하는 데 흥분하고 있습니다.

거부가 적어졌습니다

이전 클로드 모델은 문맥 이해 부족을 시사하는 불필요한 거부를 종종 했습니다. 이 영역에서 의미 있는 진전을 이루었습니다: 오퍼스, 소네트 및 하이쿠는 시스템의 가드레일에 접하는 프롬프트에 답변을 거부하는 경향이 이전 세대 모델에 비해 현저히 적어졌습니다. 아래 그림에서 볼 수 있듯이, 클로드 3 모델은 요청에 대한 미묘한 이해를 보여주며 실제 피해를 인식하고 무해한 프롬프트에 대해 현저히 적게 거부합니다.

정확도 향상

모든 규모의 비즈니스는 고객에게 서비스를 제공하기 위해 우리 모델에 의존하고 있으므로, 모델 출력물이 대규모로 높은 정확도를 유지하는 것이 중요합니다. 이를 평가하기 위해 현재 모델의 약점을 대상으로 하는 복잡한 사실적 질문 세트를 사용합니다. 이러한 질문에 대한 응답을 올바른 답변, 잘못된 답변(또는 환각) 및 모델이 답을 모르는 것 대신 틀린 정보를 제공하는 것으로 분류합니다. Claude 2.1과 비교하여, 오퍼스는 이러한 어려운 개방형 질문에서 정확도(또는 올바른 답변)를 두 배로 향상시켰으며, 잘못된 답변의 수준도 낮아졌습니다.

더 신뢰할 수 있는 응답을 제공하는 것 외에도, 우리는 곧 클로드 3 모델에서 인용을 활성화하여 정확한 답변을 검증하기 위해 참조 자료의 정확한 문장을 가리킬 수 있도록 할 예정입니다.

긴 문맥과 거의 완벽한 회상

클로드 3 모델 패밀리는 출시 시 200K 문맥 창을 제공할 예정입니다. 그러나 세 모델 모두 1백만 토큰을 초과하는 입력을 수용할 수 있으며, 이를 필요로 하는 특정 고객에게 이를 제공할 수도 있습니다.

긴 문맥 프롬프트를 효과적으로 처리하기 위해, 모델은 강력한 회상 능력이 필요합니다. ‘바늘 속에서 바늘 찾기’ (NIAH) 평가는 모델이 방대한 데이터 코퍼스에서 정보를 정확하게 회상하는 능력을 측정합니다. 우리는 각 프롬프트 당 30개의 무작위 바늘/질문 쌍 중 하나를 사용하고 다양한 크라우드소싱 문서 코퍼스에서 테스트함으로써 이 벤치마크의 견고함을 향상시켰습니다. 클로드 3 오퍼스는 거의 완벽한 회상을 달성했으며, 99% 이상의 정확도를 넘어섰을 뿐만 아니라 경우에 따라서는 “바늘” 문장이 인위적으로 사람에 의해 원본 텍스트에 삽입된 것으로 인식하여 평가의 한계를 식별하는 능력도 갖추었습니다.

책임있는 디자인

우리는 Claude 3 모델 패밀리를 능력만큼 신뢰할 수 있도록 개발했습니다. 우리는 정보 오류와 CSAM부터 생물학적 남용, 선거 방해, 그리고 자율 복제 능력과 같은 다양한 위험을 추적하고 완화하는 전담 팀이 있습니다. 우리는 헌법적 AI와 같은 방법을 개발하여 모델의 안전성과 투명성을 향상시키고, 새로운 형식으로 제기될 수 있는 프라이버시 문제에 대비하기 위해 모델을 조정하고 있습니다.

점차적으로 세련되어지는 모델의 편견에 대한 대응은 계속되는 노력이며, 이번 새로운 릴리스에서 큰 발전을 이루었습니다. 모델 카드에서 확인할 수 있듯이, Claude 3은 질의응답 편향 벤치마크 (BBQ)에 따르면 이전 모델들보다 더 적은 편향을 보여줍니다. 우리는 편향을 줄이고 모델이 특정한 이념적 입장을 향하지 않도록 하는 기술을 발전시키는 데 헌신하고 있습니다.

Claude 3 모델 패밀리는 이전 모델들과 비교하여 생물학적 지식, 사이버 관련 지식, 그리고 자율성의 주요 지표에서 발전했지만, 저희의 책임 있는 확장 정책에 따라 아직 AI 안전 수준 2 (ASL-2)에 머물고 있습니다. 저희의 레드 팀 평가 (바이든-해리스 행정부의 백악관 약속와 2023년 미국 대통령 행정명령에 따라 수행)에 따르면 현재 모델들은 잠재적으로 치명적 위험을 표출하지 않습니다. 우리는 ASL-3 임계점에 얼마나 가까운지 판단하기 위해 향후 모델들을 주의 깊게 모니터링할 것입니다. 추가 안전 세부사항은 Claude 3 모델 카드에서 확인할 수 있습니다.

더 쉽게 사용하기

Claude 3 모델들은 복잡한 다단계 지침을 따르는 데 더 뛰어나며, 브랜드 음성과 응답 지침을 준수하고 사용자가 믿을 수 있는 고객과의 경험을 개발하는 데 특히 능숙합니다. 또한, Claude 3 모델들은 JSON과 같은 형식의 인기 있는 구조화된 출력물을 생성하는 데 능숙하여, 자연어 분류 및 감정 분석과 같은 사용 사례에 대한 Claude의 지시가 더 간단해졌습니다.

모델 세부사항

Claude 3 Opus 는 가장 지능적인 모델로, 매우 복잡한 작업에서 시장 최고의 성능을 발휘합니다. 오픈 엔드 프롬프트 및 시각 없이 시나리오를 매끄럽고 인간과 같은 이해력으로 탐색할 수 있습니다. Opus는 생성적 AI가 가능한 최상의 한계를 보여줍니다.

비용

[입력 $/백만 토큰 | 출력 $/백만 토큰]

$15 | $75
컨텍스트 창 200K*
가능한 사용 사례 작업 자동화: API 및 데이터베이스 간 복잡한 작업 계획 및 실행, 대화식 코딩R&D: 연구 리뷰, 브레인스토밍 및 가설 생성, 약물 발견전략: 차트 및 그래프, 재무 및 시장 동향의 고급 분석, 예측
차별화 요소 다른 모델들보다 높은 지능.

*특정 사용 사례에 대해 1백만 토큰 사용 가능하니 문의 바랍니다.

Claude 3 Sonnet은 기업 작업에 특히 적합한 지능과 속도 사이의 이상적인 균형을 유지합니다. 동료 모델에 비해 낮은 비용으로 강력한 성능을 제공하며, 대규모 AI 배포에서 높은 내구성을 위해 설계되었습니다.

비용

[입력 $/백만 토큰 | 출력 $/백만 토큰]

$3 | $15
컨텍스트 창 200K
가능한 사용 사례 데이터 처리: RAG 또는 방대한 양의 지식 검색 및 검색판매: 제품 추천, 예측, 타겟 마케팅시간 절약 작업: 코드 생성, 품질 관리, 이미지에서 텍스트 파싱
차별화 요소 비슷한 지능을 가진 다른 모델들보다 더 경제적; 규모에 적합.

Claude 3 Haiku은 최대한 빠르고 응답성이 뛰어난 모델로, 빠른 속도로 간단한 질문과 요청에 응답합니다. 사용자는 인간 상호작용을 모방하는 원활한 AI 경험을 구축할 수 있을 것입니다.

비용

[입력 $/백만 토큰 | 출력 $/백만 토큰]

$0.25 | $1.25
컨텍스트 창 200K
가능한 사용 사례 고객 상호작용: 실시간 상호작용에서 빠르고 정확한 지원, 번역콘텐츠 모더레이션: 위험한 행동이나 고객 요청 감지비용 절감 작업: 최적화된 물류, 재고 관리, 비구조적 데이터에서 지식 추출
차별화 요소 비슷한 지능 범주의 다른 모델들보다 더 스마트하고 빠르며 경제적.

모델 이용 가능성

Opus와 Sonnet은 오늘날 사용 가능하며, 개발자들이 등록하여 즉시 이러한 모델을 사용할 수 있는 API가 일반적으로 사용 가능합니다. Haiku는 곧 이용 가능할 예정입니다. Sonnet는 Amazon Bedrock를 통해 오늘날 사용 가능하며, Google Cloud의 Vertex AI Model Garden에서 비공개 미리보기로도 제공됩니다. Opus와 Haiku는 곧 양쪽 모두에서 이용 가능할 예정입니다.

보다 똑똑하고 빠르며 안전하게

우리는 모델 지능이 어디까지든지 한계에 도달하지 않았다고 믿고, 앞으로 수개월 동안 Claude 3 모델 패밀리에 대한 자주적인 업데이트를 계획하고 있습니다. 우리는 특히 기업 사용 사례와 대규모 배포를 위한 우리 모델의 능력을 향상시킬 일련의 기능을 출시할 예정이며, 이러한 새로운 기능에는 Tool Use (함수 호출이라고도 함), 대화식 코딩 (REPL이라고도 함), 그리고 더 고급화된 행위 능력이 포함될 것입니다.

우리는 AI 능력의 경계를 넓히면서, 성능의 이러한 도약에 맞게 안전 가드레일도 함께 발전시키는 데 헌신하고 있습니다. 우리의 가설은 AI 개발의 전선에 서 있는 것이 사회적으로 긍정적인 결과로 이끄는 가장 효과적인 방법이라는 것입니다.

우리는 Claude 3로 무엇을 만들어낼지 기대되며, Claude를 더 유용한 비서 및 창의적인 동반자로 만들기 위한 피드백을 기대합니다. Claude로 빌드를 시작하려면 anthropic.com/claude를 방문하십시오.

각주

  1. 이 표는 현재 상용으로 사용 가능한 모델과 비교한 것입니다. 모델 카드는 Gemini 1.5 Pro와 같이 발표된 모델과 비교한 것을 보여줍니다. 추가로, 엔지니어들은 평가 및 보고서용 프롬프트와 샷 샘플을 최적화하기 위해 노력하였으며, 최신 GPT-4T 모델에 대한 더 높은 점수를 보고하였습니다. 출처.

이 기사 내용은 원문 기사에서 번역되었습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다