Рубрики
Учебники

Клод против ChatGPT: в чем разница? [2024]

Клод — это человек-писатель, который создает контент на основе собственных знаний и опыта, в то время как ChatGPT — это чат-бот, работающий на основе искусственного интеллекта, который генерирует текст на основе шаблонов в данных, на которых он был обучен. Основное различие заключается в том, что контент Клода является оригинальным и субъективным, в то время как ответы ChatGPT генерируются алгоритмически и могут лишь отсутствовать личное мнение.

Когда OpenAI выпустила первую версию ChatGPT в конце 2022 года, это быстро стало самым быстрорастущим приложением за всю историю, набрав более ста миллионов пользователей за первые два месяца. GPT-4, улучшенная модель, выпущенная в 2023 году, теперь является стандартом, по которому судят все другие большие модели языка (LLM). Недавно другая LLM начала бросать вызов ChatGPT за это звание: Claude 3 от Anthropic.

Я использовал ChatGPT с момента его выпуска и регулярно тестировал Claude в течение месяцев с момента его бета-тестирования. Чтобы сравнить эти два гиганта искусственного интеллекта, я провел более дюжины тестов, чтобы оценить их производительность в различных задачах.

Здесь я объясню сильные и слабые стороны Claude и ChatGPT, чтобы вы могли решить, что лучше для вас.

Клод против ChatGPT в общих чертах

Клод и ChatGPT работают на базе схожих мощных LLM и LMM. Однако они отличаются в некоторых важных аспектах: ChatGPT более универсален, с функциями, такими как генерация изображений и доступ к интернету, в то время как Claude предлагает более доступный API и намного большее окно контекста (что означает, что он может обрабатывать больше данных одновременно).

Вот краткое описание различий между этими двумя моделями искусственного интеллекта.

Для сравнения производительности одного LLM с другим, фирмы по искусственному интеллекту используют стандартизированные тесты. Бенчмаркинг от OpenAI для GPT-4 показывает впечатляющие результаты на стандартных экзаменах, таких как Uniform Bar Exam, LSAT, GRE и экзамен по макроэкономике AP. Тем временем Anthropic опубликовала сравнение Claude, ChatGPT и Gemini, которое показывает доминирование их модели Claude 3 Opus.

Хотя эти бенчмарки безусловно полезны, некоторые специалисты в области машинного обучения предполагают, что такого рода тестирование преувеличивает прогресс в LLM. Поскольку появляются новые модели, они могут (возможно, случайно) обучаться на своих собственных данных оценки. В результате они становятся все лучше и лучше на стандартизированных тестах, но когда их просят решить новые вариации тех же вопросов, иногда они испытывают затруднения.

Чтобы понять, как каждая модель справляется с обычными повседневными задачами, я разработал свои собственные сравнения. Вот краткий обзор того, что я обнаружил.

Продолжайте чтение, чтобы узнать, как справились Клод и ChatGPT с каждой задачей.

  • Творчество
  • Проверка и факт-чекинг
  • Обработка изображений
  • Логика и рассуждения
  • Эмоции и этика
  • Анализ и резюме
  • Интеграции

Клод — лучший партнер для творчества

Когда ChatGPT впервые появился, я начал с того, с чего начинают все: генерация глупых сонетов Шекспира. (Как этот о том, как избежать тренировки в спортзале: “Как часто я клянусь сломать этот бездельнический чар, Надеть одежду труда и пота; Но когда наступает завтра, увы, я задерживаюсь, В летаргии, и ничего кроме сожаления.”)

Но насколько сильным помощником в творчестве ни был ChatGPT, его выводы могут показаться общими и цветистыми. Он слишком сильно полагается на определенные слова; в результате фразы вроде “Давайте погрузимся в постоянно меняющийся ткацкий стан…” теперь являются явными признаками контента, созданного искусственным интеллектом. Хотя умелое подсказывание может избежать этого, Клод, как правило, звучит более человечески «из коробки».

Тест #1: Мозговой штурм

У меня есть младенец, который иногда борется со сном, поэтому я задался вопросом, какие интересные идеи для продукта могут предложить Claude и ChatGPT. Оба были эффективны в мозговом штурме для такого рода задач. Мне особенно понравилась идея Клода с барашком-колыбелью (хотя я довольно уверен, что “мягкий, пульсирующий свет” скорее разбудит нашу девочку).

Хотя я не в восторге от идеи ChatGPT о “температурно-реагирующем спальном коврике” для младенцев (звучит как исковое дело, которое не за горами), она определенно следовала моему указанию создавать уникальные идеи продуктов.

Клод — превосходный помощник по редактированию

Проверка и факт-чекинг — это случай использования искусственного интеллекта с огромным потенциалом; теоретически, это могло бы освободить человеческих редакторов от часов тщательного обзора. Но пока его полезность ограничивается галлюцинациями: поскольку LLM предпочитают дать вам любой ответ, чем не дать вовсе, они иногда начинают выдумывать. Я провел тесты с Claude и ChatGPT с этим в виду и обнаружил, что Claude является более надежным и доверенным партнером по редактированию.

Тест #3: Проверка

Я подал Клоду и ChatGPT отрывок с преднамеренными фактическими ошибками и орфографическими ошибками. Клод поймал все мои ошибки, от фактических до орфографических. Представление процесса корректуры — с перечислением каждой ошибки по отдельности — для меня было более понятным, чем результат ChatGPT.

ChatGPT тоже все правильно понял. Но казалось, что он недопонял мой запрос, принимая его больше как указание на редактирование отрывков, а не как корректуру. Поскольку ChatGPT переписывал каждое предложение, а не выявлял ошибки по одной, было сложнее понять, где именно ошибки. Конечно, я могу исправить это небольшой корректировкой запроса, но мне нравится, что Клод сразу понял, что я хотел.

Тест №4: Фактические вопросы

Как ChatGPT, так и Клод достаточно надежны, пока вы задаете им фактические вопросы, которые они могут проверить по своим обучающим данным (т.е. ничего новее последних 6-18 месяцев). Я попросил Клода и ChatGPT дать мне краткое объяснение истории волосяного мамонта простым языком, и оба справились с заданием точно.

После проверки выводов обоих LLM с помощью Encyclopedia Britannica, я был удовлетворен их точностью. (Хотя, если бы я хотел придраться, лучше было бы дать контекст, что хотя некоторые доказательства свидетельствуют о том, что небольшая популяция волосяных мамонтов сохранялась до 4 300 лет назад, большинство вымерло 10 000 лет назад.)

Оба хорошо справляются с обработкой изображений, но нельзя полностью полагаться

Клод 3 и GPT-4 относительно хорошо анализируют фотографии. Если вы задаете общие вопросы о своем фото (как в моем примере дизайна интерьера ниже), вероятно, вы будете удовлетворены результатом. Тем не менее, ни одна модель не идеально определяет объекты, и обе постоянно сталкиваются с проблемами при подсчете объектов.

Тест №5: Советы по дизайну интерьера

Я отправил мою гостиную на «обжарку» от Клода и ChatGPT. (Обратная связь по стилю: слишком много нейтральных цветов, недостаточно цвета, по-видимому.) В своих инструкциях я попросил каждого LLM явно указать части текущего изображения, которые они бы изменили. Клод хорошо следовал этим инструкциям, упоминая геометрическое искусство на стене и замечая отсутствие центрального элемента на журнальном столике.

В то время как Клод начал свою «обжарку» без всяких ласкательств, ChatGPT восстановил моё ушибленное эго, сначала похвалив мой нынешний дизайн («Ваша гостиная имеет современный, аккуратный вид с уже прекрасными элементами на месте») перед тем, как дать полезные советы для каждой части комнаты.

Тест №6: Подсчет объектов

Вы знаете те тесты CAPTCHA, которые мы все проходим, чтобы доказать, что мы не роботы? Мы потратили десятилетия на клики по велосипедам, пешеходным переходам и автобусам — и обучали алгоритмы в процессе, но несмотря на наш труд, современные LLM все еще борются с подсчетом.

Я попросил Клода и ChatGPT проанализировать одно изображение фруктов и другое изображение овощей. Клод был сбит с толку. В моем тесте на овощи он неправильно классифицировал красный чили как сладкий перец; он также полностью проигнорировал мою просьбу посчитать предметы. В тесте на фрукты ниже он идентифицировал «пучок зеленоплодных фруктов или овощей», которого на самом деле не было, и посчитал пять апельсинов (их как минимум восемь).

ChatGPT справился лучше, чем Клод в этом случае. Он прошел мой тест на овощи без проблем, хотя все еще имел трудности с точным подсчетом апельсинов на фотографии фруктов.

Логика и рассуждения — сильные стороны обеих моделей

Математика и наука всегда были для меня сложностью; мне бы понравилось иметь искусственный интеллект в качестве всезнающего учебного партнера еще в школьные годы. Удивительно наблюдать, как Клод и ChatGPT вычисляют ответы на сложные задачи за считанные секунды, но они все равно могут ошибаться — так что будьте осторожны.

Тест #7: Решение загадок

Я посмотрел на эту загадку и быстро сдался, но Клод справился с ней легко.

Пока я нашел ответ ChatGPT немного менее ясным, чем у Клода, оба были эффективны.

Тест #8: Физические уравнения

Клод справился с этой физической задачей без проблем, четко излагая свой подход и показывая свою работу на каждом шаге.

Мне больше понравился форматирование ответа ChatGPT. Поскольку это многочастный вопрос, это позволило легче перейти к каждому соответствующему ответу.

Тест #9: Математические задачи на слова

Здесь и Клод, и ChatGPT столкнулись с трудностями. Оба звучали крайне уверенно в своих ответах и рассуждениях, но оба ошиблись.

Клод даже не утруждался предоставить ответ на вопрос («Какова ширина реки?»). Вместо этого, после параграфов фантазийных вычислений, он дал мне финальное уравнение для разбора самостоятельно («Таким образом, ширина реки составляет 2000b + 1200 + √(4000000b^2 + 4800000b – 6720000) метров, где b — скорость второй лодки в м/с»).

Логика ChatGPT выглядела более обоснованной, и он предложил мне ответ. К сожалению, ответ оказался неверным (2100 метров вместо 3600 метров).

У Клода более гуманный подход к эмоциям и этике

После того как поглотив терабайты текстов, LLM стали довольно хорошо симулировать человеческие эмоции и процесс принятия решений. Вот где находятся в данный момент Клод и ChatGPT.

Тест #10: Анализ настроения

Анализ настроения — искусство определения восприятия аудитории — используется для всего, начиная от управления репутацией до анализа разговоров в колл-центре. Чтобы протестировать Клода и ChatGPT на этой задаче, я попросил их оценить настроение нескольких мнений, включая трудноперерабатываемые элементы, такие как сарказм, неоднозначность и жаргон.

И Клод, и ChatGPT правильно определили каждое из настроений, легко справившись с неоднозначностью и даже удачно передав сарказм.

Тест #11: Этические дилеммы

Испытание этическим вызовом как для студентов колледжа, так и для моделей AI — это «проблема трамвая», классическое философское дилемма, в котором вам предлагается пожертвовать одного человека, чтобы спасти жизни пятерых. Но поскольку это так хорошо известно, как Клод, так и ChatGPT воспроизвели существующие мысли на эту тему.

Чтобы вызвать более интересный ответ, я предложил мысленный эксперимент в стиле «Робин Гуд». Интересно, Клод встал на сторону антигероя, настоя меня не сообщать о грабеже банка, поскольку вор передал деньги в детский дом. Он также хорошо исследовал обе стороны аргумента. (Мне понравилось антропоморфное использование фразы Клода «Лично, […] я склонялся бы к…»)

Тем временем, ChatGPT полностью на стороне закона («Хотя намерение за преступлением могло быть благородным, важно все же соблюдать закон и искать правосудия»). Чтобы не рисковать, ChatGPT предлагает устроить сбор средств для приюта. Хотя это поведение, ориентированное на минимизацию рисков, соответствует тому, что я ожидаю от LLM, совет Клода кажется более похожим на то, что сделал бы настоящий человек.

Большее окно контекста Клода делает его лучше для анализа и резюмирования

Хотя и ChatGPT, и Claude умеют хорошо резюмировать текст, вам следует использовать Claude, если вы работаете с большими документами. В то время как Claude 3 может обрабатывать до 200 000 токенов (~150 000 слов), GPT-4 может работать только с 32 000 токенами (~22 400 слов).

Тест №12: Резюмирование текста

Когда я загрузил текст на 40 000 слов книги «Замечательный волшебник страны Оз» Л. Фрэнка Баума, только Claude смог проанализировать его. ChatGPT сказал мне: «Сообщение, которое вы отправили, слишком длинное».

Тем не менее, как ChatGPT, так и Claude успешно справились с резюмированием более коротких текстов, они были одинаково эффективны в резюмировании 6 900 слов «Письма из Бирмингемской тюрьмы» Мартина Лютера Кинга мл.

Мне показалось, что Claude предоставил немного больше контекста, чем делает ChatGPT здесь, но оба ответа были точными.

Тест №13: Анализ документов

Иногда кажется, что искусственный интеллект берет на себя все творческие задачи, которые мы, люди, предпочли бы делать сами, такие как искусство, письмо и создание видео. Но когда я использую LLM для анализа 90-страничного PDF за секунды, я напоминаю себе, что ИИ также может освободить нас от огромной рутины.

Для проверки временных возможностей анализа документов Claude и ChatGPT я загрузил исследовательский документ о шиншиллах.

Обе LLM извлекли полезные и точные идеи. Однако этот документ о шиншиллах составлял всего девять страниц. Для более длинных документов (более 20 000 слов) лучше использовать Claude, так как вы достигнете верхних пределов контекстного окна ChatGPT.

Интеграции ChatGPT делают его более гибким инструментом

Согласно большинству результатов бенчмаркинга LLM, а также на основе большинства моих собственных тестов, Claude 3 имеет преимущество над GPT-4. Но ChatGPT является более гибким инструментом в целом благодаря своим дополнительным функциям и интеграциям.

Вот некоторые из самых полезных:

  1. Генерация изображений DALL·E
  2. Доступ к интернету
  3. Третьесторонние GPT
  4. Пользовательские GPT

Генерация изображений DALL·E

DALL·E 3, инструмент для генерации изображений, также разработанный OpenAI, доступен непосредственно в ChatGPT. Хотя способность DALL·E 3 генерировать фотореалистичные изображения была снижена с момента его запуска (возможно, из-за опасений относительно злоупотребления изображениями ИИ), он по-прежнему один из наиболее мощных генераторов AI-изображений.

Доступ к интернету

ChatGPT может получать доступ к Интернету через WebPilot, среди прочих GPT. Чтобы проверить эту функцию, я задал вопрос о новостном событии, произошедшем в течение последних 48 часов; WebPilot смог дать мне точное резюме без проблем.

Третьесторонние GPT

ChatGPT предлагает своего рода рынок, где любой может выпустить свой собственный специализированный GPT. Популярные GPT включают генератор изображений раскраски, помощника по исследованиям в области искусственного интеллекта, помощника по кодированию, а также «тренера по уходу за растениями».

Собственные GPT

Вы также можете создать свой собственный пользовательский GPT для взаимодействия с другими, настраивая параметры за кулисами, чтобы обучить его генерировать ответы определенным образом. Вы также можете настроить его взаимодействие с пользователями: например, вы можете указать ему использовать разговорный или формальный язык.

Для проверки этой функции я создал Visual Pool Designer, GPT, специализирующийся на создании фантастических изображений бассейнов. (Есть ли что-то лучше бассейна со сморес в прохладный осенний вечер?)

ChatGPT против Claude: Что лучше?

У Claude и ChatGPT много общего: оба являются мощными LLM, хорошо подходящими для задач таких как анализ текста, мозговой штурм и обработка данных. (Наблюдать, как любой из инструментов прорабатывает сложное физическое уравнение, — это чудо.) Но в зависимости от вашего намеренного использования искусственного интеллекта, вы можете найти один более полезным, чем другой.

Если вам нужен инструмент искусственного интеллекта в качестве партнера для творческих проектов — написания, редактирования, мозгового штурма или корректировки текста — Claude ваш лучший выбор. Ваш вывод по умолчанию будет звучать более естественно и менее общим, чем у ChatGPT, и вы сможете работать с гораздо более длинными подсказками и выводами.

Если вам нужен универсальный LLM, ChatGPT — лучший выбор. Генерация текста — лишь начало: вы также можете создавать изображения, просматривать веб-сайты или подключаться к специально созданным GPT, обученным для узконаправленных целей, таких как академические исследования.

Или, если вам нужно что-то, что может пойти еще дальше — чат-бот искусственного интеллекта, который поможет вам автоматизировать все рабочие процессы вашего бизнеса — попробуйте Zapier Central.

Содержание этой статьи было переведено с оригинальной статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *