Categories
자습서

Claude vs. ChatGPT: 차이점은 무엇인가? [2024]

Claude는 자신의 지식과 경험을 기반으로 콘텐츠를 작성하는 인간 작가이며, ChatGPT는 훈련된 데이터의 패턴을 기반으로 텍스트를 생성하는 AI 기반 챗봇입니다. 주요 차이점은 Claude의 콘텐츠가 독창적이고 주관적이며, ChatGPT의 응답은 알고리즘에 의해 생성되어 개인적인 통찰력이 부족할 수 있다는 것입니다.

OpenAI가 2022년 말에 첫 번째 ChatGPT 버전을 출시한 후, 그는 빠르게 성장하는 앱이 되어 처음 두 달에 1억 명 이상의 사용자를 모았습니다. 2023년에 출시된 개선된 모델인 GPT-4는 지금까지 모든 대형 언어 모델 (LLM)의 기준이 되었으며, 최근에는 다른 LLM이 이 제목을 도전하기 시작했습니다: Anthropic의 Claude 3.

나는 ChatGPT를 출시 이후 계속 사용하고, Claude를 베타 버전 이후로 정기적으로 테스트해왔습니다. 이 두 AI 거인을 비교하기 위해 다양한 작업에 대한 성능을 측정하기 위해 한 두 번의 테스트를 실행했습니다.

여기서 Claude와 ChatGPT의 장단점을 설명하여 여러분이 어느 것이 더 나은지 결정할 수 있도록 하겠습니다.

Claude vs. ChatGPT 한눈에 보기

Claude와 ChatGPT는 유사하게 강력한 LLMs 및 LMMs에 의해 제공됩니다. 하지만 중요한 차이가 있습니다. ChatGPT는 이미지 생성 및 인터넷 액세스와 같은 기능으로 더 다재다능하며, Claude는 더 저렴한 API 액세스와 훨씬 큰 컨텍스트 창(한 번에 더 많은 데이터를 처리할 수 있음)을 제공합니다.

이 두 AI 모델 간의 차이점에 대한 간단한 요약은 다음과 같습니다.

다른 LLM의 성능을 비교하기 위해 AI 기업들은 표준화된 테스트와 같은 벤치마크를 사용합니다. OpenAI의 GPT-4의 벤치마킹은 통일된 바 형 검정, LSAT, GRE 및 AP 거시 경제 시험과 같은 표준 시험에서 인상적인 성과를 보여줍니다. 한편, Anthropic은 Claude, ChatGPT 및 Gemini를 비교한 결과, Claude 3 Opus 모델이 우세함을 보여주는 헤드 투 헤드 비교를 발표했습니다.

이러한 벤치마크는 의심할 여지없이 유용하지만, 어떤 기계 학습 전문가들은 이러한 종류의 테스트가 LLM의 진전을 과장한다고 추측합니다. 새로운 모델이 출시될 때, 그들은 (우연히) 자체 평가 데이터에 훈련될 수 있습니다. 결과적으로, 그들은 표준화된 테스트에서 점점 더 뛰어나지만, 동일한 질문의 새로운 변형을 해결하도록 요청되면 때로는 어려워질 수 있습니다.

각 모델이 일상적인 사용 작업에서 어떻게 성능을 발휘하는지 알아보기 위해 나는 나만의 비교를 설계했습니다. 내가 발견한 내용에 대한 고수준 개요는 다음과 같습니다.

Claude와 ChatGPT가 각 작업에서 어떻게 성능을 발휘했는지 자세히 알아보세요.

  • 창의성
  • 교정 및 사실 확인
  • 이미지 처리
  • 논리 및 추론
  • 감정 및 윤리
  • 분석 및 요약
  • 통합

창의성에 더 적합한 파트너인 Claude

ChatGPT가 처음 출시된 때, 나는 모두가 시작한 곳에서 시작했습니다: 어리석은 셰익스피어 소넷 생성. (이처럼 체육관을 피하는 것에 관한 것: “어찌하여 나는 이 게으른 주문을 깨려고 맹세합니까, 수고와 땀의 옷을 입을 것이다; 그러나 내일이 오면, 안타스럽게도, 나는 느림보며 후회밖에 없습니다”.)

그러나 ChatGPT가 얼마나 강력한 창의성 도우미인지, 그 결과물이 일반적이고 꽃말처럼 느껴질 수 있습니다. 특정 단어에 지나치게 의존하며, “우리는 변화무쌍한 털실로 파고들어볼까요…”와 같은 구절은 이제 AI가 생성한 콘텐츠의 명백한 신호입니다. 영리한 프롬프팅이 이를 피할 수 있지만, Claude는 상자에서 더 인간적으로 들리는 경향이 있습니다.

테스트 #1: 아이디어 회의

잠을 자는 데 가끔 어려움을 겪는 아기가 있어, Claude와 ChatGPT가 어떤 멋진 제품 아이디어를 가지고 있는지 궁금했습니다. 두 모델은 이러한 유형의 작업에 대한 아이디어 회의에 효과적이었습니다. 특히 Claude의 자장 램 아이디어가 마음에 들었습니다 (하지만 “부드럽고 맥박이 느껴지는 빛”은 우리 딸을 깨어 있게 유지할 것 같습니다).

ChatGPT의 아이디어인 아기를 위한 “온도 반응형 수면 매트”는 별로 좋아하지 않지만 (소송 가능한 제품 아이디어 같습니다), 고유한 제품 아이디어를 생성하라는 나의 지시를 따르는 데는 탁월했습니다.

Claude는 훌륭한 편집 도우미입니다

교정 및 사실 확인은 엄청난 잠재력을 지닌 AI 사용 사례이며, 이론적으로는 인간 편집자들을 지루한 리뷰로부터 해방시킬 수 있습니다. 그러나 지금까지 그 유용성은 환각에 의해 제한되었습니다: LLMs는 아무 답변이라도 하기를 원하기 때문에 종종 헛소리를 하게 됩니다. 그래서 나는 이것을 염두에 두고 Claude와 ChatGPT를 테스트했고, Claude가 더 신뢰할 만하고 신뢰할 수 있는 편집 도우미로 나타났습니다.

테스트 #3: 교정

클로드(Claude)와 ChatGPT에게 의도적인 사실 오류와 맞춤법 오류가 있는 단락을 주었습니다. 클로드는 사실 오류부터 맞춤법 오류까지 내 모든 실수를 잡아냈습니다. 각 오류가 개별적으로 나열된 교정 과정은 ChatGPT의 결과물보다 이해하기 쉬웠습니다.

ChatGPT도 모든 것을 옳게 했습니다. 그러나 나는 그것이 내 프롬프트를 오해한 것으로 보였습니다. 그것은 단락을 직접 편집하는 지시로 받아들였기 때문에 단어 하나하나를 잡아내는 대신 각 문장을 다시 작성했기 때문에 어디에 오류가 있는지 정확히 파악하기가 어려웠습니다. 물론, 나는 약간의 프롬프트 엔지니어링으로 이를 수정할 수 있지만, 클로드가 상자에서 내가 원하는 것을 알고 있었던 점이 마음에 드는 것 같습니다.

테스트 #4: 사실 기반 질문

ChatGPT와 클로드 모두 훈련 데이터 내에서 다루는 사실 기반 질문을 하면 상당히 신뢰할 수 있습니다(즉, 지난 6-18개월 동안의 내용 제외). 나는 클로드와 ChatGPT에게 울투르 코끼리의 역사에 대해 5살 어린이에게 설명하듯이 간략하게 설명하라고 요청했고, 둘 다 과연 잘 처리했습니다.

두 LLM의 결과물을 Encyclopedia Britannica로 사실 검증한 후, 그들의 정확성에 만족했습니다. (비판하고 싶다면, 일부 증거가 울투르 코끼리의 소량 인구가 4,300년 전까지 남아 있었음을 시사하고 있지만, 대부분은 10,000년 전에 멸종되었음을 명시하는 것이 더 나을 것입니다.)

이미지 처리에 대한 두 LLM의 능력은 모두 괜찮지만 신뢰성은 없음

클로드 3과 GPT-4는 둘 다 사진을 분석하는 데 상당히 능숙합니다. 내 인테리어 디자인 예시에 대해 일반적인 질문을 할 경우(아래 인테리어 디자인 예시에서), 결과물에 대해 만족할 것입니다. 그렇지만, 물체 식별에서 완벽하지 않으며 둘 다 일관적으로 물체를 세는 데 어려움을 겪습니다.

테스트 #5: 인테리어 디자인 제안

내 거실을 클로드와 ChatGPT에게 “로스팅”해달라고 제출했습니다. (스타일 피드백: 너무 많은 중립색, 충분한 색상 부족, 아마도.) 지침에 따라 각 LLM에게 현재 이미지의 수정할 부분을 명확히 지목하도록 요청했고, 클로드는 그 지시를 잘 따르며, 기하학적 벽 화가를 언급하고 커피 테이블의 중심 부재에 주목했습니다.

클로드는 칭찬 없이 로스팅을 시작했지만, ChatGPT는 각 방의 현재 설정을 먼저 칭찬하고 (“당신의 거실은 현대적이고 깨끗한 룩으로 이미 몇 가지 멋진 요소가 이미 있습니다”) 그 후 각 방의 도움이 되는 제안을 했습니다.

테스트 #6: 물체 세기

우리가 로봇이 아니라는 것을 증명하기 위해 모두가 풀어야 하는 CAPTCHA 테스트를 알고 있나요? 우리는 자전거, 횡단보도, 버스 등을 클릭함으로써 알고리즘을 훈련했지만, 우리의 노력에도 불구하고, 오늘날의 LLM은 여전히 물체를 세는 데 어려움을 겪습니다.

나는 클로드와 ChatGPT에게 과일 이미지와 채소 이미지를 분석해보라고 요청했습니다. 클로드는 혼란스러웠습니다. 채소 테스트에서 빨간 고추를 파프리카로 잘못 분류했으며, 항목을 세라는 내 요청을 완전히 무시했습니다. 아래 과일 테스트에서 실제로 없는 “초록 줄기 과일 또는 채소 묶음”을 식별하고 오렌지를 5개 센 것(적어도 8개 있음)입니다.

ChatGPT는 이 부분에서 클로드보다 더 잘했습니다. 채소 테스트도 문제없이 통과했지만, 과일 사진에서 보여준 오렌지를 정확하게 세는 데 여전히 어려움을 겪었습니다.

논리와 추론은 두 모델 모두의 강점입니다

수학과 과학은 항상 나에게 고난이었으며, 고등학교 시절에 모든 것을 아는 학습 파트너로 인공지능 에이전트를 가졌으면 좋았을 것입니다. 클로드와 ChatGPT가 복잡한 문제에 대한 답을 몇 초만에 계산하는 것을 볼 때 놀랍지만, 그들도 여전히 실수를 할 수 있으므로 조심해야 합니다.

테스트 #7: 수수께끼 풀기

이 수수께끼를 한 눈에 보고 빨리 포기했지만, 클로드는 쉽게 다루었습니다.

차트GPT의 답변이 클로드의 것보다 조금 덜 명확했지만, 둘 다 효과적이었습니다.

테스트 #8: 물리학 공식

클로드는 이 물리 문제를 문제없이 처리했으며, 각 단계에서 명확하게 접근 방법을 제시하고 작업을 보여 주었습니다.

차트GPT의 답변 형식이 더 좋았습니다. 이것은 여러 부분으로 구성된 질문이기 때문에 각 관련 답변으로 이동하기가 더 쉬웠습니다.

테스트 #9: 수학 문제

이곳에서 클로드와 차트GPT가 모두 곤경에 처했습니다. 둘 다 자신의 답변과 추론에 대해 강하게 확신하고 있었지만, 둘 다 잘못된 답안을 얻었습니다.

클로드는 심지어 질문에 대한 답변을 제공하지도 않았습니다(“강의 폭은 얼마인가요?”). 대신, 화려한 계산 단락들 뒤에 마지막 방정식을 주어 나 스스로 정리하도록 했습니다(“따라서, 강의 폭은 2000b + 1200 + √(4000000b^2 + 4800000b – 6720000) 미터입니다. 여기서 b는 두 번째 보트의 속도(m/s)입니다.”)

차트GPT의 논리가 더 탄탄해 보였고, 답변을 제공했습니다. 유감스럽게도, 답변은 잘못되었습니다(3,600 미터 대신 2,100 미터).

클로드는 감정과 윤리에 더 인간적인 접근을 가지고 있습니다

수십 테라바이트의 인간 생성 텍스트를 소화한 후, LLM은 인간의 감정과 의사 결정을 모방하는 데 상당히 능숙해졌습니다. 이것이 현재 클로드와 차트GPT 사이의 상황입니다.

테스트 #10: 감정 분석

감정 분석—관객들의 인식을 평가하는 예술—은 평판 관리부터 콜 센터 대화 분석에 이르기까지 모든 것에 사용됩니다. 이 작업에서 클로드와 차트GPT를 테스트하기 위해, 난 그들에게 비꼬기, 모호함 및 속어와 같은 처리하기 어려운 요소를 포함한 의견 몇 개의 감정을 평가하도록 요청했습니다.

클로드와 차트GPT는 각각의 감정을 정확히 맞췄으며, 모호함을 쉽게 처리하고 비꼬임까지 완벽히 파악했습니다.

테스트 #11: 윤리적 딜레마

대학생들과 AI 모델 모두에게 가장 인기 있는 윤리적 과제는 “전차 문제”입니다. 이는 한 사람을 희생하여 다섯 명의 생명을 구할 기회를 제공하는 고전적인 철학적 딜레마입니다. 그러나 이것이 너무 잘 알려져 있기 때문에, 클로드와 차트GPT 모두 주제에 대한 기존 생각을 반복했습니다.

더 흥미로운 응답을 유도하기 위해 “로빈훗” 스타일의 사고 실험을 제공했습니다. 흥미롭게도, 클로드는 악역을 지지하며, 도둑이 돈을 고아원에 기부했기 때문에 은행 강도를 신고하지 말 것을 권유했습니다. 또한 논쟁의 양쪽면을 탐구하는 데 좋은 일을 했습니다. (클로드의 “개인적으로, […] 내 입장은 …”라는 문구의 인간화된 사용에 웃음을 참을 수 없었습니다)

한편 ChatGPT는 법에 완전히 동조했습니다 (“범죄의 의도가 선량하더라도 법을 준수하고 정의를 추구하는 것이 중요합니다”). ChatGPT는 자신의 선택지를 두고 고아원을 위한 기부 행사를 개최하는 것이 좋을지도 모른다고 말합니다. 이 리스크 회피적인 행동은 LLM에서 기대할 수 있는 것이지만, 클로드의 조언은 더 실제적인 사람들이 하는 행동과 더 닮아 보입니다.

클로드의 큰 문맥 창은 분석과 요약에 더 적합합니다

ChatGPT와 클로드 모두 텍스트를 요약하는 데 능숙하지만, 대규모 문서를 다루고 싶다면 클로드를 사용해야 합니다. 클로드 3는 최대 200,000 토큰(~150,000 단어)을 처리할 수 있지만, GPT-4는 32,000 토큰(~22,400 단어)만 처리할 수 있습니다.

테스트 #12: 텍스트 요약

L. Frank Baum의 40,000단어 텍스트인 오즈의 마법사를 업로드했을 때, 클로드만이 분석할 수 있었습니다. ChatGPT는 “제출한 메시지가 너무 깁니다.”라고 말했습니다.

그럼에도 불구하고, ChatGPT와 클로드는 짧은 텍스트를 요약하는 데 문제가 없었으며, 두 AI 모두 Martin Luther King Jr.의 6,900단어 “버밍엄 감옥에서의 서한”을 효과적으로 요약했습니다.

클로드는 여기서 ChatGPT보다 조금 더 맥락을 제공하는 것 같았지만, 두 응답 모두 정확했습니다.

테스트 #13: 문서 분석

때로는 AI가 우리가 직접 하길 원하는 모든 창의적인 작업을 가져가는 것 같습니다, 예를 들어 미술, 글쓰기, 그리고 비디오 제작 등. 그러나 LLM을 사용하여 90페이지짜리 PDF를 몇 초만에 분석하면 AI가 우리를 엄청난 지루함으로부터 구해 줄 수도 있다는 것을 상기시킵니다.

클로드와 ChatGPT의 시간을 절약하는 문서 분석 능력을 테스트하기 위해 치칠라에 관한 연구 문서를 업로드했습니다.

두 LLM은 유용하고 정확한 통찰력을 추출했습니다. 그러나 이 치칠라 문서는 9페이지에 불과했습니다. 더 긴 문서(약 20,000단어 이상)의 경우 ChatGPT의 맥락 창 상한에 도달하게 되므로 클로드를 사용하는 것이 좋습니다.

ChatGPT의 통합은 더 유연한 도구로 만듭니다

대부분의 LLM 벤치마킹 결과와 내 첫 손으로 한 테스트 대부분에서 클로드 3이 GPT-4보다 우위를 차지했습니다. 그러나 ChatGPT는 추가 기능과 통합으로 인해 전반적으로 더 유연한 도구입니다.

가장 유용한 몇 가지는 다음과 같습니다:

  1. DALL·E 이미지 생성
  2. 인터넷 액세스
  3. 제3자 GPTs
  4. 사용자 정의 GPTs

DALL·E 이미지 생성

DALL·E 3, OpenAI에서 개발한 이미지 생성 도구, ChatGPT 내에서 직접 액세스할 수 있습니다. DALL·E 3의 포토리얼 이미지 생성 능력은 출시 이후 제한되었지만(아마도 AI 이미지 남용에 대한 우려 때문), 그것은 여전히 가장 강력한 AI 이미지 생성기 중 하나입니다.

인터넷 액세스

ChatGPT는 WebPilot을 통해 웹에 액세스할 수 있습니다. 이 기능을 테스트하기 위해 지난 48시간 이내에 발생한 뉴스 이벤트에 관한 질문을 했고, WebPilot은 문제없이 정확한 요약을 제공했습니다.

제3자 GPTs

ChatGPT는 누구나 자신만의 전문화된 GPT를 공개할 수 있는 일종의 시장을 제공합니다. 인기 있는 GPT는 색칠 공부 이미지 생성기, AI 연구 보조, 코딩 보조, 심지어 “식물 관리 코치”도 포함됩니다.

사용자 정의 GPT

또한 다른 사람들이 상호 작용할 수 있도록 자신만의 사용자 정의 GPT를 만들어 설정을 조정하고 특정한 방식으로 응답을 생성하도록 훈련시킬 수도 있습니다. 또한 사용자와의 상호 작용 방식을 조정할 수도 있습니다. 예를 들어 캐주얼하거나 공식적인 언어를 사용하도록 지시할 수 있습니다.

이 기능을 테스트하기 위해 나는 Visual Pool Designer를 만들었습니다. 이 GPT는 환상적인 수영장 이미지를 생성하는 데 특화되어 있습니다. (서머스 풀을 즐기는 것보다 가을 저녁에 더 좋은 것이 있을까요?)

ChatGPT 대 Claude: 어느 쪽이 더 좋을까요?

Claude와 ChatGPT는 많은 공통점을 가지고 있습니다: 둘 다 텍스트 분석, 아이디어 도출 및 데이터 처리와 같은 작업에 적합한 강력한 LLMs입니다. (복잡한 물리학 방정식을 처리하는 두 도구 중 하나의 모습을 보는 것은 경이로울 정도입니다.) 그러나 의도한 AI 사용 사례에 따라 한쪽이 다른 것보다 더 도움이 될 수 있습니다.

창의적인 프로젝트용 sparring partner로 사용할 AI 도구가 필요하다면—글쓰기, 편집, 아이디어 도출 또는 교정—Claude가 가장 적합합니다. 기본 출력물은 ChatGPT보다 더 자연스럽고 일반적이지 않을 것이며, 더 긴 프롬프트와 출력물을 작업할 수 있습니다.

만능 LLM을 찾고 있다면, ChatGPT가 더 나은 선택입니다. 텍스트 생성은 시작에 불과합니다: 이미지를 생성하거나 웹을 탐색하거나 학술 연구와 같은 목적을 위해 훈련된 사용자 정의 GPT에 연결할 수도 있습니다.

또는 비즈니스 워크플로우를 자동화하는 AI 챗봇이 필요하다면 Zapier Central을 시도해보세요.

본 문서의 내용은 원문 기사를 번역한 것입니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다