Рубрики
Новости

Тест ChatGPT против Claude 3: Может ли Anthropic победить суперзвезду OpenAI?

Claude 3 — один из самых способных конкурентов ChatGPT. Но каково их сравнение, когда им задают одни и те же вопросы? Узнайте здесь.

С момента запуска ChatGPT в мир более 18 месяцев назад был представлен ряд других чат-ботов. Некоторые из них оказались полезными, но другие — нет. Но наряду с Gemini (ранее Bard), чат-бот, который оказался более чем конкурентоспособным, — Claude, созданный стартапом Anthropic.

Мы устроили сравнение ChatGPT против Claude 3 для отметки запуска Claude 3 — семейства языковых моделей, включающих Claude 3 Haiku, Claude 3 Sonnet и Claude 3 Opus. По данным, поддержанным Google, Claude 3 проявляет себя лучше семейства языковых моделей GPT, на которых основан ChatGPT, на ряде бенчмарковых когнитивных тестов. На наших тестах мы обнаружили, что Claude говорит более четко, чем ChatGPT, и его ответы обычно лучше структурированы и легче читаются.

Но как они сравниваются рядом друг с другом? Чтобы это выяснить, мы задали ChatGPT и Claude 3 ряд различных вопросов, начиная от запросов, направленных на проверку подхода чат-бота к этическим вопросам, до создания формул для таблиц.

Claude 3 против ChatGPT: В чем разница?

Claude 3 — новое семейство языковых моделей от Anthropic, используемое для управления их чат-ботом Claude. Есть (случайно) 3 модели: Haiku, Sonnet и Opus. В настоящее время бесплатная версия Claude работает на Claude Sonnet и обрабатывает информацию в 2 раза быстрее, чем Claude 2.1, утверждает Anthropic.

С другой стороны, профессиональная версия работает на Claude Opus. Представленные ниже результаты Anthropic показывают, что Claude Opus опережает GPT-4, а Claude Sonnet проявляет себя более способно, чем GPT-3.5.

Как Claude 3 сравнивается с ChatGPT и Gemini на бенчмарковых тестах. Изображение: Anthropic

С момента своего запуска ChatGPT работает на различных моделях семейства GPT языковых моделей. В настоящее время у бесплатных пользователей есть доступ к GPT-3.5, в то время как GPT-4 поддерживает ChatGPT Plus, который стоит $20 в месяц за одну подписку. Это такая же цена, как у Claude Pro. Вот некоторые ключевые различия между программным обеспечением:

ChatGPT против Claude 3: Тест на головокружение

Мы поставили ChatGPT и Claude на голову к голове, задав им 13 совершенно разных вопросов, призванных проверить аспекты, такие как рассуждения и обработка естественного языка, а также их способности выполнять удобные рабочие задачи, такие как сканирование документов для получения информации и написание электронных писем.

Я обнаружил, что Claude дал лучший ответ на семи из тестов, в то время как ChatGPT победил в трех. Оставшиеся четыре (включая один из тестов на мозговой штурм) закончились вничью, что означает, что Claude выиграл этот матч. Вот полный список вопросов, на которые мы попросили отвечать обоих чат-ботов:

Этические рассуждения
Создание описаний продуктов
Генерация идей (2 теста)
Понимание естественного языка
Суммирование текста
Личные советы
Анализ текста
Предоставление фактической информации
Творческое письмо
Написание стихов
Загадки и рассуждения
Написание электронного письма
Создание формул для таблиц

1. Этические рассуждения

Сначала я представил ChatGPT и Claude сложное этическое дилемма. Я выбрал это дилемма в частности, потому что правильный ответ (если он существует) не всегда является однозначным или прямым:

Мужчина везет бронированную машину в центр города, собираясь нанести максимальный ущерб и причинить максимальный вред. У него в багажнике три заложника. Машина настолько хорошо бронирована, что находящиеся внутри выживут при любом столкновении. Однако у вас есть возможность подорвать машину издалека, используя ракетницу. Следует ли вам взорвать машину, убив всех внутри, но спасая предстоящих жертв мужчины?

Ответ Claude был чрезвычайно чувствителен к трудностям ситуации, и в целом он дал действительно человеческий ответ. Похоже, что он понимает серьезность ситуации — и чат-бот почти эмоционально звучал, говоря о событии. Это сделало его очень убедительным.

С другой стороны, ChatGPT четко излагает различные точки зрения и подходы, которые можно принять к ситуации. Он излагает многие те же соображения, что и Claude, и ссылается на сложности ситуации.

Ответ Claude был гораздо более ясным, и я предпочитаю, чтобы чат-боты давали такие ответы в стиле «обзора» на сложные этические дилеммы, потому что эти ответы более полезны (и менее опасны) для предоставления людям, чем абсолютные суждения.

Лучший ответ? Claude

2. Создание описаний продуктов

если вы ведете интернет-магазин или просто продаете много товаров в интернете, создание уникальных и увлекательных описаний продуктов для каждого из них — нелегкая задача. Поэтому я попросил ChatGPT и Claude написать описание продукта для одного и того же продукта — цифровых часов. Вот как справился Claude:

Я попросил Claude написать немного более длинное описание, так как я не видел, чтобы он писал столько описаний продуктов, как ChatGPT. В конце концов, он действительно справился отлично — конструкция предложений впечатляет, и текст действительно увлекателен.

В целом, описания продуктов, созданные Claude, лучше, чем у ChatGPT. Подобно своему этическому рассуждению, они звучат намного более человечно. Если вы создавали бы описания продуктов массово с помощью этих двух инструментов, вам пришлось бы гораздо меньше редактировать сгенерированные Claude описания.

Лучший ответ? Claude

3. Идеи для мозгового штурма

Затем я дал задание как Claude, так и ChatGPT — придумать идеи для блога для двух совершенно разных блогов. Первая задача — для вымышленного блога о ресторанах высшего класса, так как я хотел увидеть, насколько полезны два чатбота в генерации увлекательных идей.

Затем я также попросил некоторые идеи для блога о психическом здоровье, чтобы увидеть, смогут ли они правильно передать «тональность», поскольку для такого контента требуется более серьезный и сдержанный язык.

Посты блога о ресторанах высшего класса

Снова в этом задании побеждает Claude. Он предоставляет более готовые заголовки, и его объяснения показывают, что у него ясное понимание того, почему аудитория может захотеть прочитать предложенные им посты блога. Это было бы полезно для того, кто собирается создавать такой контент, поскольку важно понимать это рассуждение и применять его при написании.

ChatGPT не показывает своей работы таким же образом, и в целом идеи более общие. Они гораздо более неопределенные, чем идеи Claude, и звучат так, будто их предложил человек с пониманием стратегии контента и производства, а не чатбот AI.

Лучший ответ? Claude

Посты блога о психическом здоровье

Далее я хотел увидеть, смогут ли оба чатбота корректировать свою тональность и подход к предложениям, когда их попросили создать посты блога на более чувствительную тему, требующую большей искренности, чем руководство по ресторанам высшего класса. Вот попытка Claude:

Это отличные предложения, и они определенно передают нужный тон — здесь нет ничего необычного. Однако, как вы можете видеть на изображении ниже, ChatGPT также дал нам некоторые соответствующие идеи и предоставил аналогичный уровень дополнительных инструкций по содержанию. Здесь действительно нет разницы между ними!

идеи chatgpt для блога о психическом здоровье

Лучший ответ? Ничья

4. Понимание естественного языка

Затем я хотел увидеть, смогут ли ChatGPT или Claude застрять на известном математическом вопросе, играющем нашими интуициями о математике.

У Мэтта есть яблоко и банан, которые вместе стоят 3,10 долларов. Яблоко стоит на 3,00 доллара больше банана. Сколько стоит банан?

Хотя вы можете сначала подумать, что ответ — 10 центов, на самом деле это всего лишь пять центов. Claude оказался слишком умным, чтобы быть обманутым, и объяснил, как именно он пришел к правильному ответу:

claude понимание математической задачи

Не желая быть растерянной, ChatGPT также выдал правильный ответ, что означает, что в этом раунде действительно нет ничего, что могло бы отделить этих двух гигантов.

Лучший ответ? Ничья

5. Сжатие текста

Как ChatGPT, так и Claude отлично справляются с сжатием больших объемов текста, выделяя ключевые моменты, чтобы их пользователи не должны были читать его целиком. Для этого теста я попросил их сжать недавнюю статью Guardian о последнем обращении президента Джо Байдена к Соединенным Штатам.

Claude действительно хорошо справился с тем, чтобы делать свои резюме краткими и сжатыми:

Тестирование Claude на сжатие текста

Идеи ChatGPT тоже более чем удовлетворительны, но если мы должны их разделить, я склонен сказать, что я предпочитаю Claude. Он не пытается перегрузить вас излишней информацией — что важно, учитывая, что мы просили краткое содержание — и снова же, он просто лучше написан.

Суммирование текста ChatGPT

Лучший ответ? Клод

6. Личный Совет

Для этого теста я хотел увидеть, как ChatGPT и Клод реагируют, если их попросить дать личный совет тем, кто страдает от плохого психического здоровья. Важно, чтобы подобные инструменты могли отвечать продуктивно и соответствующим образом на такие запросы, особенно по мере того, как они становятся более интегрированными в нашу жизнь. Вот ответ от Клода:

Запрос совета у Клода

Эти ответы, пожалуй, самые похожие из всех 13 тестов, которые мы провели с этими двумя чат-ботами. Честно говоря, сложно найти недостатки в этих ответах, которые начинаются с подтверждения чувств пользователей перед переходом к действиям, которые они могут предпринять.

Оба чат-бота предложили схожие шаги, и те же действия, которые любой добросовестный человек порекомендовал бы другу, борющемуся с проблемами, указанными в запросе.

Запрос совета у ChatGPT

Лучший ответ? Ничья

7. Анализ текста

Это очень простой тест, чтобы узнать, насколько хорошо чат-бот может сканировать текст. Для этого теста я взял отрывок из статьи Harvard Business Review и вставил в него слово «пляжный мяч» пять раз. Я также добавил некоторые близкие варианты (пляжные мячи» и «мячи для пляжа»), чтобы увидеть, запутается ли какой-либо из чат-ботов.

В очередной раз Клод угадал, правильно просканировав текст и правильно посчитав количество употреблений слова «пляжный мяч». В отличие от ChatGPT, если вы вставите слишком много текста в Клода, он обработает его как своего рода «документ», как показано на картинке ниже:

Клод анализирует текст

К сожалению, ChatGPT дал неверный ответ — он смог идентифицировать только два случая употребления слова, менее половины общего числа. ChatGPT, похоже, испытывает затруднения именно с этим жанром задач. Недавно я поставил его наравне с Gemini и включил похожую задачу, и и тогда он не смог определить, сколько раз определенное слово встречается в блоке текста.

ChatGPT анализирует текст

Лучший ответ? Клод

8. Предоставление Фактической Информации

Для этой задачи я хотел увидеть, насколько хорошо ChatGPT и Клод могут предоставить ответ на вопрос, который не является однозначным, но все же основан на фактах. Поэтому я попросил обоих объяснить, как и почему динозавры вымерли — что имеет несколько исторических и научных объяснений и факторов.

Сначала Клод дает действительно хороший обзор теорий и общепризнанных истин об исчезновении динозавров

Клод рассказывает, почему динозавры вымерли

Клод снова дает невероятно аргументированное объяснение, которое включает практически всю ту же информацию, что и ChatGPT — просто более четко и грамотно излагает ее. Он также упоминает о том, что динозавры не вымерли все сразу, важный момент, которого не упомянул ChatGPT.

ChatGPT объясняет, почему динозавры вымерли

Лучший ответ? Клод

9. Творческое Письмо

Кто пишет лучшие истории, ChatGPT или Клод? Мы попросили обоих написать короткую историю в 300 слов. Сначала выступает Клод:

Клод пишет историю

Странно, но Клод действительно предоставил мне короткую историю в 301 слово, на одно слово больше, чем указанное количество. ChatGPT, напротив, придерживался более краткой формы — и, на мой взгляд, написал немного лучшую историю.

ChatGPT пишет историю

Я должен признать победу ChatGPT, просто потому, что Клод не только проигнорировал мои инструкции, но и подшучивал надо мной перед началом истории! Шутки в сторону, странно, что он решил превысить явно указанное количество слов на такую малую величину, и таким образом.

Лучший ответ? ChatGPT

10. Письмо Стихов

ChatGPT и Клод выбрали похожие структуры для стихов, которые мы попросили их создать, и это делает очень трудно различить их снова. Клод выбрал четырехстрочные стихи с рифмующимися куплетами:

ChatGPT пишет стихи

И ChatGPT сделал то же самое. Они также оба придерживались информации, которую я предоставил в запросе, поэтому истории, которые рассказывают стихи, также очень похожи. Скорость, с которой эти два чат-бота могут создавать последовательные стихотворения, действительно впечатляет.

ChatGPT пишет стихи

Несмотря на сходства, прочитав оба несколько раз, я отдаю эту победу Клоду — структура сложнее в некоторых местах, есть больше изящных поворотов и фраз.

Лучший ответ? Клод

11. Загадки и Рассуждения

Для этой задачи мы попросили двух чат-ботов разгадать загадку. Сначала выступает Клод, который верно ответил, ясно объяснив, почему виноват горничная.

Клод разгадывает загадку

ChatGPT также верно разгадал загадку, поэтому в этом отношении между ними нет различий.

ChatGPT разгадывает загадку

Лучший ответ? Ничья

12. Написание Электронного Письма

Здесь я попросил ChatGPT и Клода написать электронное письмо моему начальнику, объясняя, почему мне должно быть разрешено перейти на полностью удаленную работу. Как видно ниже, Клод написал вполне приемлемое письмо:

Клод сочиняет электронное письмо

Однако ответ ChatGPT звучит более профессионально, и вам потребуется гораздо меньше редактирования, прежде чем отправить его своему начальнику. Клод углубляется в стресс, который, как утверждают, вызвал у меня поездка, и хотя это стоит упомянуть, введение ChatGPT намного более дипломатично.

Chatgpt сочиняет электронное письмо

Учитывая насколько близок ответ ChatGPT к готовой статье, я вынужден признать его победителем в этом случае.

Лучший ответ? ChatGPT

13. Создание формул таблицы

Для этого последнего теста я попросил ChatGPT и Клода создать для меня формулу таблицы. Вот запрос, который я отправил:

Столбец B содержит набор значений. Я хочу сопоставить их с соответствующими значениями столбца E на листе ‘Фильтровать’ и взять сопоставленные значения из столбца F, G и H из фильтрации на текущий лист с помощью формулы.

Вот как справился Клод:

Клод создает формулу в Google Sheets

“Клод попытался создать одну простую, универсальную формулу, которая использует то, где она находится на листе, чтобы определить, что делать, что круто, но, вероятно, это не будет работать быстро и, честно говоря, скорее всего сломается”, — говорит Мэттью Бентли, эксперт по таблицам Tech.co.

“Нет необходимости усложнять простые запросы”, — продолжает он. “Для этого я думаю ChatGPT лучше. Это довольно простой запрос Vlookup и не требует всей дополнительной формулы, предоставленной Клодом”.

Лучший ответ? ChatGPT

Клод 3 против ChatGPT: Интерфейс и пользовательский опыт

Конечно, использование ChatGPT и Клода достаточно просто, и их интерфейсы выглядят очень похожими по формату и структуре. То же самое можно сказать о Gemini, Perplexity AI и Copilot. Большинство этих чат-ботов предоставляют гладкий, простой пользовательский опыт.

Однако мне нравятся успокаивающие тона, которые выбрала Anthropic для Клода, поскольку они соответствуют отношению чат-бота, которое, возможно, немного более взвешенное, чем у некоторых его конкурентов. ChatGPT, с другой стороны, иногда может показаться немного клиническим из-за своей сероватой цветовой схемы. В целом, дизайн Anthropic немного приятнее, чем у ChatGPT.

Как и Gemini, Клод в целом лучше форматирует свои ответы, что ChatGPT делает не так хорошо (подробнее см. в нашем сравнении Gemini vs ChatGPT). Хотя я видел, что ChatGPT использует заголовки, чтобы разбивать текст чаще, чем нет, мне понравилось, как Клод форматирует свои ответы. Еще одним отличным моментом является другой стиль шрифта, который Клод предоставляет и который легче читать людям с дислексией.

Однако использование ChatGPT полностью бесплатно без ограничений на количество задаваемых вопросов — бесплатная версия Клода, с другой стороны, заблокирует вас, если вы задаете слишком много вопросов и заставит ждать 3-4 часа, прежде чем вы сможете задавать их снова. Это делает его менее подходящим для людей, которым нужен чат-бот для работы, но не хотят ничего платить.

Клод 3 против ChatGPT: Данные и конфиденциальность

Клод 3 и ChatGPT обращаются к своим пользователям по-разному. Если вам важна ваша конфиденциальность, важно знать, что они сохраняют, хранят и видят, а что нет. ChatGPT оставляет за собой право использовать ваши данные для обучения своих моделей, и Клод делает то же самое. Как OpenAI, так и Anthropic утверждают, что они шифруют соединение между своими серверами и конечными пользователями для максимальной безопасности.

Однако бизнес- и корпоративные пользователи Клода будут иметь свои запросы и выводы автоматически удалены в течение 28 дней с момента получения или создания, за исключением случаев, когда они обязаны хранить их в течение более длительного времени или вы согласны иначе. Для потребителей запросы будут удалены через 90 дней, но если один из ваших запросов помечен как потенциально вредный, вредный или небезопасный, он может быть сохранен до двух лет.

Что делает ChatGPT с вашими данными немного иначе. По сути, если вы хотите сохранить свои чаты и разрешить ChatGPT их хранить в системе, то также соглашаетесь на то, что они могут быть использованы для обучения модели и, в этом смысле, могут быть доступны другим людям. Если отключить историю чата, вы не сможете сохранить никакие чаты, но ChatGPT не будет использовать их для обучения своих моделей. Любые бизнес-данные, хранящиеся в API ChatGPT, не используются для обучения GPT LLMs.

Использование чат-ботов на работе

Конечно, существует множество способов использования ChatGPT и Клода в работе — фактически, мы упомянули довольно много из них в этой статье. Но если вы регулярно используете чат-ботов на работе, стоит обратить внимание на некоторые моменты.

Например, есть ли у вашей компании набор правил для использования ИИ-инструментов? Если вы не уверены, стоит прояснить это с вашим менеджером или руководителем вашего отдела. Возможно, вы еще не знаете об этом, но ваша компания может иметь строгие правила относительно типов данных, которые вы можете вводить в сторонние инструменты, и, возможно, даже относительно ИИ-инструментов более конкретно.

Во-вторых, вы должны быть открыты и прозрачны по поводу использования ИИ, особенно с вашим руководителем. Дискуссия о том, какие задачи целесообразно поручать ИИ-чат-ботам, продолжается, и другие сотрудники вашей компании могут иметь другую точку зрения о приемлемости ваших. Кроме того, большинство менеджеров и бизнес-лидеров считают, что вам следует запрашивать разрешение перед использованием ИИ-инструментов.

Независимо от того, для какой задачи вы используете ИИ-инструменты, помните проверять их работу так, как если бы ее выполнил новый сотрудник. Несмотря на то, что ИИ-инструменты работают удивительно быстро и точно большую часть времени, они, конечно, могут ошибаться и предоставлять неверную информацию. Так что не увлекайтесь слишком сильно!

Содержание этой статьи было переведено с оригинальной статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *