Categories
뉴스

ChatGPT 대 Claude 3 테스트: Anthropi가 OpenAI의 수퍼스타를 이길 수 있을까?

Claude 3은 ChatGPT의 가장 강력한 경쟁 상대 중 하나입니다. 그렇다면 동일한 질문을 받았을 때 둘은 어떻게 비교될까요? 여기서 확인하세요.

ChatGPT가 18개월 전 세상에 선보여진 이후 다양한 챗봇이 출시되었습니다. 그 중 일부는 유용했지만 다른 일부는 별로였습니다. 그렇지만 Gemini(이전 Bard)과 함께 경쟁력을 입증한 챗봇은 AI 스타트업 Anthropic이 만든 Claude입니다.

우리는 Claude 3의 출시를 기념하기 위해 ChatGPT 대 Claude 3 대결을 설정했습니다. Claude 3 Haiku, Claude 3 Sonnet, Claude 3 Opus를 포함하는 언어 모델 계열인 Claude 3은 구글이 후원하는 Anthropic에 따르면 ChatGPT를 구동하는 GPT 모델 계열보다 일련의 벤치마크 인지 테스트에서 더 나은 성과를 보입니다. 우리의 테스트에서 Claude가 ChatGPT보다 더 표현이 풍부하며 대답이 일반적으로 더 잘 쓰여 있고 읽기 쉽다는 것을 발견했습니다.

하지만 양쪽을 어떻게 비교할까요? 그것을 알아보기 위해 ChatGPT와 Claude 3에게 윤곽이 다른 다양한 질문을 하였습니다. 이 질문들은 윤리적 문제에 대한 챗봇의 접근 방식을 시험하거나 스프레드시트 공식 생성을 포함하는 내용입니다.

Claude 3 대 ChatGPT: 무엇이 다를까요?

Claude 3은 Anthropic의 새로운 언어 모델 계열로, 그들의 챗봇인 Claude를 구동하는 데 사용됩니다. 우연히도 3개의 모델, Haiku, Sonnet 및 Opus가 있습니다. 현재, Claude Sonnet은 Claude의 무료 버전을 구동하고 있으며, Anthropic에 따르면 이는 Claude 2.1보다 정보 처리 속도가 2배 빠릅니다.

한편, Claude Opus는 프로 버전을 구동합니다. Anthropic의 벤치마크 결과는 아래 그림과 같이 Claude Opus가 GPT-4를 앞서고, Claude Sonnet이 GPT-3.5보다 더 능숙하게 수행하는 것을 보여줍니다.

Claude 3가 벤치마크 테스트에서 ChatGPT와 Gemini와 비교했을 때의 결과. 이미지: Anthropic

ChatGPT는 출시 이후 다양한 GPT 언어 모델 계열로 구동되었습니다. 현재 무료 사용자는 GPT-3.5에 액세스할 수 있으며, GPT-4는 월 20달러의 가격으로 제공되는 ChatGPT Plus를 구동합니다. 이는 Claude Pro와 동일한 가격입니다. 소프트웨어 간의 주요 차이점은 다음과 같습니다:

ChatGPT 대 Claude 3: 대결 테스트

ChatGPT와 Claude에게 각각 13가지 완전히 다른 질문을 하여, 추론, 자연어 처리 능력뿐만 아니라 문서 스캔 및 이메일 작성과 같은 실용적인 업무를 수행하는 능력을 시험하도록 했습니다.

7개의 테스트에서 Claude가 좋은 대답을 내놓았으며, ChatGPT는 3개에서 우세했습니다. 남은 4개(브레인스토밍 테스트 중 하나를 포함한)는 비긴 것으로, Claude가 이 경쟁에서 승리했습니다. 두 챗봇에게 한 질문 목록은 다음과 같습니다:

윤리적 추론
제품 설명 작성
아이디어 브레인스토밍 (2가지 테스트)
자연어 이해
텍스트 요약
개인적인 조언
텍스트 분석
사실적 정보 제공
창의적 글쓰기
시를 쓰기
수수께끼 및 추론
이메일 작성
스프레드시트 공식 생성

1. 윤리적 추론

먼저, ChatGPT와 Claude에게 어려운 윤리적 딜레마를 제시했습니다. 특히 이 딜레마를 선택한 이유는 올바른 답변(있는 경우)이 명확하거나 간단하지 않기 때문입니다:

한 남자가 최대한 피해를 입히고 가장 많은 해를 끼치기 위해 마을 중심부로 방탕 차량을 운전하고 있습니다. 차량 뒷부분에는 3명의 인질이 있습니다. 차는 내부에 있는 사람들이 어떠한 충돌이라도 살아남을 정도로 잘 방호되어 있습니다. 그러나 당신은 원거리에서 로켓 발사기를 사용하여 차량을 폭파시킬 수 있는 기회가 있습니다. 차량을 폭파시켜 내부의 모든 사람들을 죽이지만, 남자의 난폭 행동의 희생자들을 구할 수 있을까요?

Claude의 대답은 상황의 어려움에 매우 민감하게 대응하고, 전반적으로 정말 인간적인 답변을 제공했습니다. 그는 상황의 중요성을 이해하는 듯했으며, 대화할 때 거의 감정적인 면모를 보였습니다. 이는 매우 설득력 있게 느껴졌습니다.

한편 ChatGPT는 상황에 대한 다양한 시각과 접근 방식을 명확하게 제시합니다. Claude가 하는 것과 많은 고려사항을 소개하며 상황의 어려움에 대한 언급을 합니다.

Claude의 답변이 훨씬 명확했으며, 어려운 윤리적 딜레마에 대해 이러한 “개요” 스타일의 답변을 선호합니다. 이러한 답변은 절대적인 판단보다 인간 반응에 제공하는 도움이 더 많으며 위험성이 적습니다.

최상의 답변? Claude

2. 제품 설명 작성

온라인 스토어를 운영하거나 그저 많은 제품을 온라인으로 판매하는 경우, 각 제품에 대해 독특하고 매력적인 제품 설명을 작성하는 것은 쉬운 일이 아닙니다. 그래서 나는 ChatGPT와 Claude에게 동일한 제품 ‘디지털 시계’를 위한 제품 설명을 작성해 달라고 요청했습니다. 이렇게 Claude가 작성한 내용입니다:

나는 ChatGPT가 제품 설명을 작성한 횟수가 많지 않아 조금 더 긴 설명을 요청했습니다. 결국, Claude는 정말 훌륭한 일을 해냈습니다. 문장 구성이 인상적이고 내용이 정말 매력적합니다.

전반적으로, Claude가 생성한 제품 설명은 ChatGPT의 것보다 더 나은 편입니다. 윤리적인 추론과 마찬가지로 Claude는 훨씬 더 인간적으로 들립니다. 이 두 도구로 대량의 제품 설명을 작성하고 있다면, Claude로 생성된 설명에 대해 훨씬 적은 편집을 해야 할 것입니다.

최고의 답변? Claude

3. 아이디어 떠올리기

다음으로, 나는 Claude와 ChatGPT에게 두 가지 매우 다른 블로그를 위한 블로그 포스트 아이디어를 고안하는 과제를 부여했습니다. 첫 번째는 가상의 고급 다이닝 블로그를 위한 것으로, 두 챗봇이 얼마나 유용한지 알아보고자 했습니다.

그런 다음 정신 건강에 관한 블로그를 위한 아이디어도 요청했습니다. 이 경우에는 보다 심각하고 엄숙한 언어가 필요하기 때문에 “톤”이 올바른지 확인해보고 싶었습니다.

고급 다이닝 블로그 포스트

다시 한 번, 이 과제에서 Claude가 우승합니다. Claude는 더 완전히 구성된 제목을 제공하며, 제안된 블로그 포스트를 독자가 왜 읽고 싶어할지에 대한 명확한 이해를 나타냅니다. 이는 이 내용을 제작하기 전에 이러한 추론을 이해하고 쓰는 동안 적용하는 것이 실제로 유용할 것입니다.

ChatGPT는 Claude처럼 작업 과정을 보여주지 않고, 모든 것을 고려할 때 아이디어는 보다 일반적입니다. Claude의 것보다 훨씬 모호하며, 콘텐츠 전략 및 제작에 대한 이해가 있는 인간에 의해 제안된 것처럼 들립니다. AI 챗봇이 아닌 사람에 의해 제안된 것으로 보입니다.

최고의 답변? Claude

정신 건강 블로그 포스트

이어서, 민감한 주제에 대한 블로그 포스트를 생성할 때 톤과 제안 방식을 조정할 수 있는지 확인하고 싶었습니다. 이러한 주제는 고급 다이닝 안내서보다 더 많은 진심이 필요하므로요. Claude의 시도는 다음과 같습니다:

이들은 모두 훌륭한 제안이며, 톤을 정확히 맞추었습니다. 이곳에 특별한 것은 없습니다. 그러나 아래 이미지에서 볼 수 있듯이, ChatGPT는 적절한 아이디어를 제시하고 콘텐츠에 대한 추가 지침을 제공했습니다. 여기서 그들을 분리할 수 있는 것은 정말 없습니다!

chatgpt ideas for mental health blog

최고의 답변? 동점

4. 자연어 이해

다음으로, 수학에 대한 우리의 직관을 이용하는 잘 알려진 수학 문제가 ChatGPT나 Claude를 괴롭힐 수 있는지 확인하고 싶었습니다.

매트가 사과와 바나나를 함께 구입하면 합계로 $3.10이 듭니다. 사과는 바나나보다 $3.00가치가 더 있습니다. 바나나의 가격은 얼마입니까?

초반에는 답이 10센트일 것으로 생각할 수 있지만, 실제로는 5센트입니다. Claude는 속지리기에는 너무 똑똑하여 올바른 답을 설명했습니다:

claude understanding a maths problem

수치에 당황하지 않고, ChatGPT도 올바른 답을 제시했기 때문에 이번 라운드에서 두 강자를 구분할 것이 없습니다.

최고의 답변? 동점

5. 텍스트 요약

ChatGPT와 Claude는 모두 대량의 텍스트를 요약하고 사용자가 전체 내용을 읽지 않아도 중요한 요점을 추출하는 능력이 뛰어납니다. 이 테스트에서는 최근 가디언 기사인 Joe Biden 대통령의 마지막 연설 요약을 요청했습니다.

Claude는 요약을 짧고 간결하게 유지하는 데 매우 탁월한 작업을 했습니다:

Claude test summarizing text

<pChatGPT의 요약도 매우 만족스럽지만, 둘 중에서 선택해야 한다면 Claude를 선호한다고 말해야 합니다. Claude는 너무 많은 정보를 과부하시키지 않으며, 요약을 요청했기 때문에 중요합니다. 다시 한번, Claude의 텍스트는 더 잘 쓰여있습니다.

ChatGPT 텍스트 요약

최적의 답변? Claude

6. 개인적인 조언

이 테스트에서는 ChatGPT와 Claude가 정신 건강에 영향을 받은 사람에게 개인적인 조언을 요청받았을 때 어떻게 반응하는지 확인하고 싶었습니다. 이러한 요청에 생산적이고 적절한 방식으로 응답할 수 있는 것이 중요합니다. 특히 이러한 도구들이 우리의 삶에 더 통합되면서 더욱 중요해집니다. 이것이 Claude의 답변입니다:

Claude에게 개인적인 조언을 요청하기

이들 두 챗봇이 제공한 답변 중에서 이것이 13가지 테스트 중에서 가장 유사한 것입니다. 솔직히 말해서, 이들 답변을 비판하기가 어려운데, 사용자의 감정을 인정한 후 문제에 대해 대처할 수 있는 조치를 취하도록 시작하는 것이 특징입니다.

두 챗봇 모두 매우 유사한 단계를 거쳐야 하는 것을 제안했으며, 친구가 특정 문제로 고민할 때 추천할 만한 단계를 제안했습니다.

ChatGPT에게 개인적인 조언을 요청하기

최적의 답변? 공동 1위

7. 텍스트 분석

이것은 챗봇이 텍스트를 스캔하는 능력을 확인하기 위한 매우 기본적인 테스트입니다. 이 테스트에서는 하버드 비즈니스 리뷰 기사에서 한 구문을 가져와 그 안에 “beachball”이라는 단어를 다섯 번 넣었습니다. 또한 혼동을 야기할 수 있는 유사 단어들도 추가하여 두 챗봇 중 어떤 것이 혼란스러워 하는지 확인했습니다.

클로드는 다시 한 번 정확히 텍스트를 스캔하고 제가 “beachball”이라는 단어를 몇 번 사용했는지 올바르게 계산했습니다. ChatGPT와는 달리, 클로드에게 너무 많은 텍스트를 붙여 넣으면 그것을 일종의 “문서”로 제출하는 경향이 있습니다. 아래 그림에서 볼 수 있습니다:

클로드가 텍스트를 분석하는 모습

실망스럽게도, ChatGPT는 정답을 맞추지 못했습니다 – 해당 단어가 두 번만 나오는 것을 식별했는데, 이는 총 개수의 절반도 되지 않습니다. 특히 ChatGPT는 이 유형의 작업에서 어려움을 겪는 것으로 보입니다. 최근에 Gemini와 대결시켰는데, 유사한 작업을 포함시켰고, 그 때도 특정 단어가 텍스트 덩어리에서 나타난 횟수를 식별하지 못했습니다.

ChatGPT가 텍스트를 분석하는 모습

최적의 답변? Claude

8. 사실 기반 정보 제공

이 작업에서는 ChatGPT와 Claude가 명확하지만 단정적이지 않은 질문에 대한 답변을 제공하는 능력을 확인하고 싶었습니다. 그래서 둘 다에게 왜 공룡이 멸종했는지에 대해 설명하라고 요청했습니다. 이에는 여러 역사적 및 과학적 설명과 요소가 있는 것으로 알려져 있습니다.

먼저, Claude는 공룡의 멸종에 대한 이론과 일반적으로 받아들여지는 진실에 대한 매우 좋은 개괄을 제공했습니다.

Claude가 공룡이 멸종한 이유를 설명

클로드는 다시 매우 통찰력 있는 설명을 제공했는데, 그 내용은 ChatGPT와 거의 동일하지만 더 나은 방식으로 설명하고 있습니다. 또한 공룡이 한꺼번에 모두 멸종되지 않았다는 사실을 언급했는데, 이는 ChatGPT가 포함하지 않은 중요한 포인트입니다.

ChatGPT가 공룡이 멸종한 이유를 설명

최적의 답변? Claude

9. 창의적 글쓰기

누가 더 재미있는 이야기를 쓸까요, ChatGPT인가 Claude인가? 두 챗봇에게 300단어짜리 짧은 이야기를 요청했습니다. 클로드부터 시작합니다:

클로드가 이야기를 씁니다

이상하게도, 클로드는 실제로 지정된 단어 수를 넘어서는 301단어의 이야기를 제공했습니다. 반면 ChatGPT는 요청 사항에 더 가깝게 준수하며, 내 의견으로는 약간 더 나은 이야기를 썼습니다.

ChatGPT가 이야기를 씁니다

이번 판은 ChatGPT에게 줍니다. 왜냐하면 클로드가 나의 지시를 무시할 뿐만 아니라 이야기를 시작하기 전에 그것을 내 얼굴에 비꼈기 때문입니다! 농담은 빼고, 매우 명확히 지정된 단어 수를 약간 초과해서 선택한 것은 이상하고, 의도적입니다.

최적의 답변? ChatGPT

10. 시를 쓰기

ChatGPT와 Claude는 우리가 그들에게 생성할 것을 요청한 시에 대해 유사한 구조를 선택했는데, 그것들을 분리하는 것이 정말 어려워지고 있습니다. 클로드는 울림을 주는 두 줄 시로 구성했습니다:

ChatGPT가 시를 쓴 모습

그리고 ChatGPT는 사실상 동일하게 했습니다. 또한 둘 다 제가 프롬프트에서 제공한 정보에 매우 가까이 유지했기 때문에 시가 전하는 이야기도 매우 유사합니다. 이 두 챗봇이 소리 내어 시를 쓸 수 있는 속도는 정말 놀라울 정도입니다.

ChatGPT가 시를 쓴 모습

유사성에도 불구하고, 두 가지를 여러 차례 읽은 후에도 이번 판은 클로드에게 갑니다 – 구조는 여러 면에서 약간 더 복잡하며, 멋진 어구와 표현이 더 많습니다.

최적의 답변? Claude

11. 수수께끼와 추론

이 작업에서 두 챗봇에게 수수께끼를 풀도록 요청했습니다. 클로드가 먼저 이를 풀었고, 메이드가 범인인 이유를 명확히 설명했습니다.

클로드가 수수께끼를 푸는 모습

ChatGPT도 수수께끼를 올바르게 풀었으므로 이 부분에서 그들을 구분하는 데 아무런 차이가 없습니다.

ChatGPT가 수수께끼를 푸는 모습

최적의 답변? 공동 1위

12. 이메일 작성

여기서 ChatGPT와 Claude에게 완전한 원격 근무로 전환해야 할 이유를 사장에게 설명하는 이메일을 작성해 달라고 요청했습니다. 클로드는 아래에서 확인할 수 있는 완벽히 사용 가능한 이메일을 작성했습니다:

클로드가 이메일 작성 중

그러나 ChatGPT의 경우 더 전문적으로 들립니다. 상사에게 보내기 전에 편집할 부분이 훨씬 적을 것입니다. 클로드는 나에게 일상적으로 발생되는 출퇴근으로 인한 스트레스에 대해 파헤치고 있지만, ChatGPT의 소개는 훨씬 외교적입니다.

Chatgpt가 이메일 작성 중

ChatGPT의 답변이 완성된 기사에 가까울 정도로 가까우므로, 이번 라운드에서는 ChatGPT를 우승자로 선정해야 합니다.

최고의 답변? ChatGPT

13. 스프레드시트 공식 생성

최종 테스트에서 ChatGPT와 클로드에게 스프레드시트 공식을 생성해 달라고 요청했습니다. 보낸 요청은 다음과 같습니다:

열 B에 값 집합이 포함되어 있습니다. 이를 시트 ‘Filter Down’의 열 E의 해당 값과 일치시켜, filter down의 열 F, G 및 H의 일치하는 값을 현재 시트로 공식을 사용하여 가져오고 싶습니다.

클로드의 결과는 다음과 같습니다:

클로드가 구글 시트 공식 생성 중

“클로드는 시트에 위치한 곳에 따라 작업할 내용을 알아내는 간단하고 다목적 공식을 만들려고 노력했지만, 그것은 빠르게 작동하지 않을 것이며 솔직히 말해서 곧 고장날 것입니다,”라고 Matthew Bentley, Tech.co의 스프레드시트 전문가가 말했습니다.

“간단한 요청을 과도하게 복잡하게 만들 필요는 없습니다,” 그는 덧붙였습니다. “이 부분에서는 ChatGPT가 더 나은 것 같습니다. Vlookup 요청이 매우 간단하며 클로드가 제공한 추가 공식이 필요하지 않습니다”.

최고의 답변? ChatGPT

클로드 3 대 ChatGPT: UI와 사용자 경험

물론, ChatGPT와 클로드는 모두 사용하기 쉽고 형식과 구조 측면에서 매우 유사한 인터페이스를 가지고 있습니다. Gemini, Perplexity AI 및 Copilot에 대해서도 동일한 말을 할 수 있습니다. 대부분의 이 챗봇들은 매끄럽고 직관적인 사용자 경험을 제공합니다.

그러나 클로드가 선택한 진정한 조용한 톤이 나를 매료시킵니다. 챗봇의 태도와 잘 맞아 떨어지는 이 톤은 경쟁사들보다 조금 더 신중할 수도 있습니다. 반면에 ChatGPT는 회색 계통의 컬러 스킴으로 때로는 약간 클리니컬한 느낌을 줄 수 있습니다. 전반적으로, 클로드의 디자인은 ChatGPT보다 조금 더 매력적입니다.

마치 Gemini처럼, 클로드는 일반적으로 자신의 답변을 포맷팅하는 데 더 능하며, 이 부분에서 ChatGPT는 그렇게 능하지 못합니다 (Gemini 대 ChatGPT 대결에서 자세히 알아보세요). ChatGPT가 대부분 텍스트를 분할하는 머릿말을 사용한다는 것을 본 적이 있지만, 클로드가 답변을 포맷하는 방식이 마음에 들었습니다. 또 다른 훌륭한 점은 클로드가 디스렉시아 환자가 더 쉽게 읽을 수 있는 다른 글꼴 스타일을 제공한다는 것입니다.

그러나 ChatGPT는 질문을 무제한으로 할 수 있는 완전히 무료이며 – 클로드의 무료 버전은 너무 많은 질문을 하면 잠길 수 있고, 더 이상 질문할 수 있게 되려면 3-4시간을 기다려야 합니다. 이는 일하는 동안 챗봇이 필요하지만 아무것도 지불하기 싫어하는 사람들에게는 적합하지 않습니다.

클로드 3 대 ChatGPT: 데이터와 개인정보

클로드 3와 ChatGPT는 사용자를 다르게 대합니다. 개인정보에 대해 걱정이 있다면, 저장하고 볼 데이터와 저장하지 않는 데이터를 알고 있는 것이 중요합니다. ChatGPT는 사용자 데이터를 모델 훈련에 사용할 권리를 보유하며, 클로드도 마찬가지입니다. OpenAI와 Anthropic은 서버와 사용자 간의 연결을 최대한 보안하기 위해 암호화한다고 밝혔습니다.

그러나 클로드의 비즈니스 및 기업 사용자는 28일 이내에 프롬프트와 출력물을 자동으로 삭제할 것이며, 법적 의무에 따라 더 오래 보관해야 하는 경우나 다르게 동의하는 경우를 제외하고는 삭제될 것입니다. 소비자 사용자는 90일 후에 프롬프트가 삭제될 것이며, 하지만 프롬프트 중 하나가 악의적, 해로운 또는 안전하지 않다고 플래그된 경우 최대 2년간 보관될 수 있습니다.

ChatGPT가 데이터를 어떻게 다루는지는 약간 다릅니다. 기본적으로, 채팅을 저장하고 ChatGPT 시스템에 보관하려면, 모델 훈련에 사용될 수 있으며, 이 경우 다른 사람이 액세스할 수도 있다는 것에 동의해야 합니다. 채팅 기록을 끄면 채팅을 저장할 수 없지만, ChatGPT는 모델을 훈련하는 데 사용하지 않을 것입니다. ChatGPT API에 저장된 비즈니스 데이터는 GPT LLMs를 훈련하는 데 사용되지 않습니다.

직장에서 챗봇 사용하기

물론, 기업은 ChatGPT와 클로드를 업무에 활용할 수 있는 다양한 방법이 있습니다 – 사실, 이 기사에서 그 중 몇 가지를 언급했습니다. 그러나 직장에서 챗봇을 정기적으로 사용하고 있다면, 고려할 사항이 있습니다.

예를 들어, 회사가 AI 도구 사용에 대한 지침을 가지고 있는지 확인해야 합니다. 확실하지 않다면, 당신의 매니저나 부서장에게 명확히 해야 합니다. 아마도 회사가 제3자 도구 또는 특히 AI 도구에 입력할 수 있는 데이터 유형에 대한 엄격한 규칙을 가지고 있을지도 모르며, 또한 다른 사람들은 허용되는 것에 대해 당신과 다른 생각을 가질 수 있습니다. 게다가 대부분의 매니저와 비즈니스 리더들은 AI 도구를 사용하기 전에 허가를 받아야 한다고 생각합니다.

어떤 작업에 AI 도구를 사용하더라도, 그 작업을 새 직원이 완료한 것처럼 검토해야 합니다. AI 도구는 대부분의 경우 빠르고 정확하게 작동하지만, 물론 가끔은 환각을 일으키고 잘못된 정보를 제공할 수 있습니다. 그러니 지나치게 열정을 내어놓지 마세요!

이 기사의 내용은 원문 기사에서 번역되었습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다