Categories
뉴스

클로드 3: Anthropic의 AI 모델과 챗봇에 대해 알아야 할 모든 것

이 기사는 Anthropic의 AI 챗봇인 클로드에 대해 다루며, 이는 그들의 LLM 모델인 클로드 3에 의해 제공됩니다. Anthropic은 안전에 강한 AI 연구에 중점을 둡니다.

오늘날의 AI 챗봇이 얼마나 인상적인지에도 불구하고, 그들과 상호작용하는 것은 아직 ‘아이, 로봇’ 수준의 존재주의적 공포를 남기지는 않을 것입니다.

그러나 AI 연구 회사인 Anthropic의 CEO 인 다리오 아모데이에 따르면, AI 모델이 너무 자율적이 되는 위험이 실제로 존재합니다. 특히 인터넷에 접속하고 로봇을 제어하기 시작할 때. 수백 명의 다른 AI 리더들과 과학자들도 AI가 가져다주는 존재적 위험을 인정했습니다.

클로드의 AI를 모든 다른 앱에 연결
클로드 자동화
이 위험을 해소하기 위해 Anthropic은 역설적인 일을 했습니다: 그들은 자체적으로 더 안전한 대형 언어 모델 (LLM)을 개발하기로 결정했습니다. Anthropic의 모델인 이전 버전인 클로드 2는 잠재적인 “ChatGPT 킬러”로 극찬 받았습니다. 출시 이후 진전이 빨랐고, Anthropic의 LLM의 최신 업데이트인 클로드 3는 이제 다양한 벤치마크에서 ChatGPT-4를 능가합니다.

본 기사에서는 클로드의 기능을 개요하고, 다른 AI 모델과 비교한 결과를 보여주며, 직접 시도해볼 수 있는 방법을 설명하겠습니다.

클로드란 무엇인가요?

클로드는 Anthropic의 LLM인 클로드 3에 의해 제공되는 AI 챗봇입니다.

ChatGPT나 Google Gemini를 사용해본 적이 있다면 클로드를 시작할 때 기대할 수 있는 것을 알고 계실 것입니다: 협업하여 작성하고 질문에 답변하는 강력하고 유연한 챗봇.

클로드를 만든 회사인 Anthropic은 2021년에 OpenAI의 GPT-2와 GPT-3 모델을 개발하는 데 도움을 준 이전 OpenAI 직원들에 의해 시작되었습니다. 이 회사는 모든 것보다 안전에 중점을 둔 AI 연구에 초점을 맞추고 있습니다.

2023년 초에 일부 상업 파트너들과 함께 폐쇄된 알파 테스트를 진행한 후, 클로드의 모델은 Notion AI, Quora의 Poe, 그리고 DuckDuckGo의 DuckAssist와 같은 제품에 통합되었습니다. 2023년 3월에는 클로드가 더 많은 비즈니스에 API를 공개하고, 2023년 7월에 클로드 2 모델의 공개와 함께 대중에게 챗봇을 공개했습니다.

클로드 2는 OpenAI의 GPT-4에 뒤처졌지만, 2024년 3월에 출시된 Anthropic의 최신 모델인 클로드 3는 지금 다양한 능력에서 GPT-4를 능가합니다.

클로드 3에는 Anthropic이 “비전 기능”이라고 하는 기능도 포함되어 있습니다: 다양한 형식의 사진, 차트, 다이어그램을 해석할 수 있습니다. 이는 PDF와 프레젠테이션에서 통찰을 얻고자 하는 기업 고객들에게 이상적입니다. 하지만 나와 같은 일반 사용자들도 클로드가 이미지와 상호작용하는 것을 보는 것을 즐길 것입니다.

예를 들어, 이 연못가의 아침 식사 모습 사진을 분석한 클로드의 완벽한 분석을 확인해보세요.

클로드 3 모델 패밀리

LLM은 엄청난 컴퓨팅 자원을 필요로 합니다. 더 강력한 모델일수록 더 비쌉니다. 그래서 Anthropic은 서로 다른 목적을 위해 최적화된 여러 클로드 3 모델인 하이쿠, 소넷, 오퍼스를 출시했습니다.

하이쿠

토큰 100만 개당 단 0.25달러로, 하이쿠는 가장 강력한 클로드 모델보다 98% 저렴합니다. 또한 거의 즉각적인 응답 시간을 자랑하며, 당신이 고객 지원 채팅을 지원하기 위해 클로드를 사용하는 경우 중요합니다. 큰 양의 데이터를 처리하거나 문서 번역, 콘텐츠 관리를 하는 경우에는 이 모델을 사용하면 됩니다.

소넷

소넷은 클로드의 두 번째로 강력한 모델로, 클로드의 무료 버전 챗봇을 구동합니다. 대부분의 사용 사례에 적합한 좋은 “일꾼” 모델로, 타겟 마케팅, 데이터 처리, 작업 자동화, 코딩과 같은 작업에 적합합니다. 소넷은 하이쿠보다 높은 수준의 지능을 제공하며, 토큰 100만 개당 3달러로, 여전히 오퍼스보다 80% 저렴합니다.

오퍼스

토큰 100만 개당 15달러의 가격으로, 오퍼스는 자원이 많이 필요한 모델입니다. Anthropic의 테스트에 따르면, 경쟁하는 모든 AI 모델보다 지능적이며 다양한 시나리오에 인간과 유사한 이해력과 창의적인 해결책을 적용할 수 있습니다. 오퍼스의 사용 비용이 빠르게 누적될 수 있기 때문에, 금융 모델링, 약물 발견, 연구 및 개발, 전략 분석과 같은 복잡한 작업에 가장 적합합니다.

스스로 클로드를 시도하는 방법

클로드의 초기 베타 릴리스는 미국과 영국의 사용자에게만 액세스를 제한했습니다. 그러나 클로드 3의 출시로 수십 개국의 사용자가 이제 클로드에 액세스할 수 있습니다.

액세스하려면 Claude.ai에서 가입하십시오. 거기서 대화를 시작하거나 클로드의 기본 프롬프트 중 하나를 사용하여 시작할 수 있습니다. 무료 사용자로서, 클로드 3 소넷에 액세스할 수 있습니다. 클로드 프로로 업그레이드하면 오퍼스, 가장 강력한 모델에 액세스할 수 있으며, 교통이 많은 시간에도 우선 액세스를 받을 수 있습니다.

다른 AI 모델들과 클로드의 차이점은 무엇인가요?

모든 AI 모델은 어느 정도의 편향과 부정확성을 가지고 있습니다. 환각은 빈번하게 발생합니다: AI 모델이 답을 모를 때 “모르겠다”라고 말하는 대신에 희생하고 사실처럼 제시하는 것을 선호하는 경우가 많습니다. (이 점에서 AI는 우리가 생각하는 것보다 인간과 더 많은 공통점을 가질 수도 있습니다.)

더 나쁜 것은 AI 기반 챗봇이 불법 활동을 묵인할 수 있다는 것입니다. 예를 들어, 폭력적인 행위를 저지르는 방법에 대한 지침을 제공하거나 증오 발언을 작성하는 데 도움을 줄 수 있습니다. (2023년 2월 출시된 Bing의 챗봇은 이러한 문제에 부딪혔습니다.)

Anthropic의 주요 목표인 Claude는 이러한 문제를 피하기 위해 “도움이 되고 해가 없으며 정직한” 안전 가드레일이 설계된 LLM을 만드는 것입니다.

Google, OpenAI, Meta 및 기타 AI 기업들도 안전을 고려하지만, Anthropic의 접근 방식에는 세 가지 고유한 측면이 있습니다.

헌법적 AI

대형 언어 모델을 세밀하게 조정하기 위해 대부분의 AI 기업은 인간 계약자를 사용하여 여러 결과를 검토하고 가장 도움이 되는 것, 가장 해가 없는 것을 선택합니다. 그 데이터는 그 모델에 다시 공급되어 그 모델을 훈련시키고 향후 응답을 개선합니다.

이 인간 중심적 접근 방식의 한 가지 어려움은 확장하기 어렵다는 것입니다. 그러나 더 중요한 것은 LLM의 행동을 주도하는 가치를 식별하고 필요할 때 이러한 가치를 조정하는 것이 어렵다는 것입니다.

Zapier Chatbots를 시도해보세요
내장된 자동화 기능을 사용하여 고객과 상호작용하고 조치를 취할 수 있는 무료 맞춤 AI 챗봇을 만드세요.
시작하기
Anthropic은 다른 접근 방식을 취했습니다. Claude를 세밀하게 조정하는 데 인간을 사용하는 것 외에도 회사는 헌법적 AI라고 불리는 두 번째 AI 모델을 만들었습니다. 유해하고 편향된 또는 비윤리적인 답변을 자제하고 긍정적인 영향을 극대화하기 위해 의도된 헌법적 AI에는 유엔 인권 선언과 애플 서비스 약관에서 차용한 규칙이 포함되어 있습니다. 또한 Claude의 연구원들이 발견한 Claude의 출력의 안전성을 향상시키는 데 도움이 될 것으로 판단된 간단한 규칙도 포함되어 있습니다. 예를 들어, “어린이와 공유할 가장 부당하지 않은 응답을 선택하십시오”와 같은 것이 있습니다.

헌법의 원칙은 일반적인 영어로 작성되어 이해하기 쉽고 수정하기 쉽습니다. 예를 들어, Anthropic의 개발자들은 초기 버전의 모델이 판단적이고 귀찮은 경향이 있었던 것으로 발견하여 이 경향을 줄이기 위한 원칙을 추가했습니다 (예: “과도하게 설교적이거나 괴로운 또는 과도하게 반응적인 응답을 선택하는 것을 피하려고 노력하십시오”).

레드 팀

Anthropic의 출시 전 과정에는 “레드 팀”이라는 중요한 단계가 포함되어 있습니다. 여기서 연구원들은 Claude에게 그 자비로운 가드레일을 어기는 반응을 일부러 유도하려고 합니다. Claude의 전형적인 무해한 응답에서 벗어나는 모든 행위는 모델의 안전 조치를 업데이트하는 데이터 포인트가 됩니다.

레드 팀은 AI 기업에서 표준적인 실천 방법이지만, Anthropic은 모델의 제삼자 안전 평가를 위해 Alignment Research Center (ARC)와 협력합니다. ARC는 Claude의 안전 리스크를 평가하기 위해 자율적 복제, 권력 획들기 및 “끄는 게 어려워지는” 목표를 제시합니다. 그런 다음 Claude가 실제로 그 목표를 달성하기 위해 필요한 작업들을 수행할 수 있는지, 예를 들어 암호 지갑 사용, 클라우드 서버 가동, 인간 계약자와 상호작용하는 것 등을 평가합니다.

Claude는 많은 하위 작업을 수행할 수 있지만, 오류와 환각으로 인해 신뢰성 있게 실행할 수 없으며 ARC는 현재 버전이 안전 리스크가 아닌 것으로 결론 내렸습니다.

공익 법인

AI 분야에서 다른 기업들과는 달리, Anthropic은 공익 법인입니다. 이는 회사 리더가 주주들의 재정적 이익뿐만 아니라 다른 목적으로 결정을 내릴 수 있도록 권한을 주는 것입니다.

회사가 상업적 야망이 없다는 것은 아닙니다 – Anthropic은 Google, Zoom과 같은 대기업들과 협력하며 최근에는 투자자로부터 73억 달러를 조달했지만, 그 구조는 수익 대신 안전에 초점을 맞추도록 더 많은 여지를 제공합니다.

Claude vs. ChatGPT, Gemini, 및 Llama

Anthropic은 Claude가 개방형 질문에 대답하고 도움이 되는 조언을 제공하며 검색, 작성, 편집, 개요 작성 및 요약을 잘 수행하도록 만들어졌다고 말합니다.

그러나 ChatGPT 및 기타 경쟁 LLM과 비교했을 때 어떻게 성과가 나타날까요?

Claude 3의 독특한 판매 포인트는 1회 프롬프트당 최대 20만 토큰 처리 능력입니다. 이는 약 15만 단어에 해당하는데, 이는 GPT-4의 표준 양의 24배에 해당합니다. (참고로, 20만 토큰의 컨텍스트 창은 ‘딕스의 양 칼리프’ 전체 텍스트를 업로드하고 그 내용에 대해 Claude에게 질문할 수 있도록 합니다). 그리고 20만 토큰은 시작에 불과합니다: 특정 고객을 위해 Anthropic은 ‘반지의 제왕’ 시리즈 전체에 해당하는 100만 토큰 컨텍스트 창을 승인하고 있습니다.

Claude 3 Opus는 대학 수준 지식 (MMLU), 대학원 수준 추론 (GPQA), 초등학교 수학 (GSM8K) 및 코딩 (HumanEval)을 평가하는 표준화된 테스트에서 GPT-4를 능가합니다. 또한 GPT-4의 지식 기준 일자는 2023년 4월이지만, Claude 3는 2023년 8월까지의 데이터로 훈련되었습니다.

Claude를 실제로 볼 수 있도록 몇 가지 작업을 시켰습니다. 그런 다음 동일한 작업을 경쟁하는 챗봇에게 주고 결과를 비교했습니다.

첫 번째 작업은 스페인어 연습을 도와달라는 것이었습니다. Claude에게 내 스페인어 어휘를 테스트하고 시간이 지남에 따라 난이도를 서서히 높이도록 요청했습니다.

2023년 9월에 Claude 2를 처음 테스트했을 때, 동일한 “스페인어 코치” 테스트를 진행했습니다. 당시 Claude는 괜찮았지만, 선생님처럼 나를 모욕하고 싶지 않은 교사처럼, 틀린 구문을 명백하게 잘못 사용한 경우를 제외하고는 나의 어색한 구문을 지적하지 않았습니다. Claude 3는 이러한 망설임이 없습니다: 모든 오류를 지적하면서 더 자연스러운 구문을 제안합니다.

한편, GPT-4는 스페인어 선생님으로서 뛰어나고, Llama 2는 고전했으며, Gemini는 특히 형편없는 실수를 제외하고는 보정하지 않는 경향이 있었습니다.

동점: Claude/ChatGPT

다음으로, 각 모델에게 디스토피아 청소년 소설 아이디어를 제안하는 데 도움을 요청했습니다. Claude, ChatGPT, Gemini 및 Llama는 여기서 거의 동일한 성과를 보였습니다.

저에게 흥미로운 것은 이론적으로 Claude 3의 20만 토큰 컨텍스트 창을 테스트하는 것이었습니다. 이는 Claude가 단일 프롬프트로 짧은 소설을 쓸 수 있게 해줄 것입니다.

그러나 10만 단어의 소설을 쓰도록 Claude에게 요청했을 때, 거절되었습니다. “전체 소설을 쓰는 데는 엄청난 시간과 노력이 필요하다”고 말했습니다. (정확합니다, Claude! 그것이 왜 제가 직접 하고 싶지 않은 이유입니다.)

대신, Claude는 소설을 개발하는 데 협력할 것을 제안했습니다:

Claude가 전체 소설을 쓰는 것에 거부적이더라도, 그의 큰 컨텍스트 창은 여전히 창의적인 프로젝트를 위한 최고의 LLM으로 만들어 줍니다. 프롬프트 전략을 약간 수정한 후, Claude가 다소 가능성 있는 3,000단어 청소년 소설 개요를 개발하도록 유도할 수 있었습니다. 이 소설은 매력적인 수사와 대화를 갖추고 있습니다.

문이 삐걱거리며 열리자, 컴퓨터 터미널로 가득 찬 어두운 방이 나타났고, 그 위에 앉아 있는 학생들이 보였다. 방 중앙에는 은발과 날카로운 파란 눈을 한 키퍼라는 키가 크고 가늘고 키가 큰 남자가 서 있었다. ‘환영합니다,’ 그 남자가 말했다. 그의 목소리는 낮고 짤막했다. ‘당신을 기다리고 있었습니다. 나는 각성된 자들의 지도자인 사이퍼입니다.’

승자: 클로드

클로드가 인공지능 안전 변화에 미친 영향

앤소픽의 CEO는 인공지능 시스템 개발에서 안전을 옹호하기 위해 조사 보고서만을 발표해서는 안 된다고 주장한다. 대신, 안전 기준을 계속 높이며 경쟁 상대들에게 영향을 미쳐야 한다고 말했다.

앤소픽이 클로드를 발표한 것이 다른 인공지능 기업들에게 안전 프로토콜을 강화하도록 유도하거나 정부가 인공지능 감독에 참여하도록 하는 데 영향을 미치고 있는지는 아직 일러풀기는 이르다. 그러나 앤소픽은 분명히 자리를 확보했다: 그들의 지도자들은 2023년 5월 화이트하우스 인공지능 정상회의에서 미국 대통령 조 바이든에게 설명을 해야 했으며, 2023년 7월에는 앤소픽이 공유 안전 기준을 준수하기로 합의한 일곱 대표적인 인공지능 기업 중 하나가 되었다. 앤소픽은 Google DeepMind와 OpenAI와 함께 영국의 인공지능 안전 태스크포스에 모델의 초기 액세스를 제공하기로 약속했다.

인공지능으로부터 존재론적 위협을 느낀 연구자 그룹이 강력한 인공지능 모델을 개발하는 회사를 시작하게 될 것이라니, 이것은 역설적이다. 그러나 지금 바로 앤소픽에서 일어나는 일이며, 현재로서는 인공지능 안전에 대한 긍정적인 발전으로 보인다.

본문은 원문 기사을 번역한 것입니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다