Рубрики
Новости

Каковы особенности claude 3

Клауд 3 признан своими продвинутыми возможностями в области рассуждений, экспертных знаний, математики и языковых задач, что делает его одной из самых интеллектуальных моделей искусственного интеллекта, разработанных Anthropic

Сегодня мы анонсируем семейство моделей Клауд 3, устанавливающих новые отраслевые стандарты в широком спектре когнитивных задач. Семейство включает три передовые модели по возрастанию возможностей: Клауд 3 Haiku, Клауд 3 Sonnet и Клауд 3 Opus. Каждая последующая модель предлагает все более мощную производительность, позволяя пользователям выбирать оптимальный баланс интеллекта, скорости и стоимости для своего конкретного применения.

Opus и Sonnet теперь доступны для использования в claude.ai и API Клауда, который теперь доступен в 159 странах. Haiku будет доступен скоро.

Семейство моделей Клауд 3

claude3

Новый стандарт интеллекта

Opus, наша самая интеллектуальная модель, превосходит своих конкурентов на большинстве общих оценочных показателей для систем искусственного интеллекта, включая экспертные знания на уровне бакалавриата (MMLU), экспертные рассуждения на уровне магистратуры (GPQA), базовую математику (GSM8K) и другие. Она проявляет понимание и беглость на уровне близком к человеческому при выполнении сложных задач, занимая передовые позиции в области общего интеллекта.

Все модели Клауд 3

Ниже приведено сравнение моделей Клауд 3 с моделями наших конкурентов по нескольким показателям возможностей [1]:

Мгновенные результаты

Модели Клауд 3 могут обеспечивать живые чаты с клиентами, автозаполнения и задачи по извлечению данных, где ответы должны быть мгновенными и в реальном времени.

Haiku — самая быстрая и экономически выгодная модель на рынке в своей категории интеллекта. Она может прочитать информационно насыщенную научную статью на arXiv (~10 тыс. токенов) с графиками и диаграммами менее чем за три секунды. После запуска мы ожидаем дальнейшего улучшения производительности.

Для подавляющего большинства нагрузок Sonnet в 2 раза быстрее, чем Claude 2 и Claude 2.1 с более высоким уровнем интеллекта. Он отлично справляется с задачами, требующими быстрых ответов, такими как поиск информации или автоматизация продаж. Opus обеспечивает схожие скорости с Claude 2 и 2.1, но с более высоким уровнем интеллекта.

Сильные видовые возможности

Модели Клауд 3 обладают сложными видовыми возможностями, сопоставимыми с другими ведущими моделями. Они способны обрабатывать широкий спектр визуальных форматов, включая фотографии, диаграммы, графики и технические схемы. Мы особенно рады предоставить эту новую модальность нашим корпоративным клиентам, у которых до 50% их баз знаний закодированы в различных форматах, таких как PDF, блок-схемы или слайды презентаций.

Меньше отказов

Предыдущие модели Claude часто отказывались отвечать на бесполезные запросы, что указывало на недостаточное понимание контекста. Мы добились значительных успехов в этой области: Opus, Sonnet и Haiku гораздо меньше склонны отказываться отвечать на запросы, нарушающие границы системы, чем предыдущие поколения моделей. Как показано ниже, модели Клауд 3 обладают более тонким пониманием запросов, распознают реальный вред и гораздо реже отказываются отвечать на безвредные запросы.

Улучшенная точность

Компании всех размеров полагаются на наши модели для обслуживания своих клиентов, что делает необходимым поддержание высокой точности выводов нашей модели в масштабе. Для оценки этого мы используем большой набор сложных фактических вопросов, нацеленных на известные слабые места текущих моделей. Мы классифицируем ответы на правильные ответы, неправильные ответы (или галлюцинации) и признания неопределенности, когда модель говорит, что не знает ответа, вместо предоставления неверной информации. По сравнению с Claude 2.1, Opus демонстрирует удвоенное улучшение точности (или правильных ответов) на этих сложных открытых вопросах, показывая при этом снижение уровня неправильных ответов.

Помимо того, что наши модели Клауд 3 производят более надежные ответы, мы скоро включим ссылки в наши модели Клауд 3, чтобы они могли указывать на конкретные предложения в справочном материале для подтверждения своих ответов.

Длинный контекст и почти идеальное запоминание

Семейство моделей Клауд 3 изначально будет предлагать окно контекста 200 тыс. токенов. Однако все три модели способны принимать входные данные, превышающие 1 миллион токенов, и мы можем сделать это доступным для выбранных клиентов, которым требуется улучшенная вычислительная мощность.

Для эффективной обработки длинных контекстных запросов модели требуют надежных возможностей запоминания. Оценка «Иголка в стоге сена» (NIAH) измеряет способность модели точно вспоминать информацию из обширного корпуса данных. Мы улучшили надежность этого показателя, используя одну из 30 случайных пар «иголка/вопрос» на запрос и проводя тестирование на разнообразном корпусе документов, собираемом из массовых источников. Claude 3 Opus не только достиг почти идеального запоминания, превосходя 99% точности, но в некоторых случаях даже определил ограничения самой оценки, распознав, что «игольчатое» предложение, по-видимому, было искусственно вставлено в оригинальный текст человеком.

Ответственный дизайн

Мы разработали семейство моделей Claude 3 таким образом, чтобы они были надежными и способными. У нас есть несколько специализированных команд, отслеживающих и уменьшающих широкий спектр рисков, начиная от дезинформации и CSAM до биологического злоупотребления, вмешательства в выборы и навыков автономного реплицирования. Мы продолжаем разрабатывать методы, такие как Конституционный ИИ, которые улучшают безопасность и прозрачность наших моделей, и настроили наши модели для смягчения проблем с конфиденциальностью, которые могут возникнуть из-за новых модальностей.

Работа над устранением предвзятостей во все более сложных моделях является постоянным процессом, и мы добились прогресса с этим новым релизом. Как показано в карточке модели, Claude 3 показывает меньше предвзятостей, чем наши предыдущие модели, согласно Bias Benchmark for Question Answering (BBQ). Мы продолжаем работать над техниками, которые уменьшают предвзятости и способствуют большей нейтральности в наших моделях, обеспечивая, что они не склоняются к какой-либо определенной партийной позиции.

Хотя семейство моделей Claude 3 продвинулось в ключевых показателях биологических знаний, кибернетических знаний и автономии по сравнению с предыдущими моделями, оно остается на уровне безопасности ИИ 2 (ASL-2) согласно нашей Политике Ответственного Масштабирования. Наши оценки красной команды (проводимые в соответствии с нашими обязательствами Белого дома и обязательствами 2023 года американского исполнительного приказа) показали, что модели в настоящее время представляют незначительный потенциал для катастрофических рисков. Мы продолжим внимательно отслеживать будущие модели, чтобы оценить их близость к порогу ASL-3. Дополнительные сведения о безопасности доступны в карточке модели Claude 3.

Более прост в использовании

Модели Claude 3 лучше следуют сложным многоэтапным инструкциям. Они особенно хороши в соблюдении брендового голоса и рекомендаций по ответам, и разрабатывают клиентоориентированные опыты, на которые могут полагаться наши пользователи. Кроме того, модели Claude 3 лучше генерируют популярный структурированный вывод в форматах JSON, что упрощает инструктирование Claude для таких случаев использования, как классификация естественного языка и анализ настроений.

Детали модели

Claude 3 Опус — это наша самая интеллектуальная модель с лучшей производительностью на рынке по выполнению высоко сложных задач. Он может навигировать по открытым запросам и сценариям, не известным заранее, с замечательной беглостью и пониманием, близким к человеческому. Опус показывает нам предельные возможности генеративного искусственного интеллекта.

Стоимость

[Ввод $/миллион токенов | Вывод $/миллион токенов]

$15 | $75
Окно контекста 200К*
Потенциальные использования Автоматизация задач: планирование и выполнение сложных действий через API и базы данных, интерактивное кодированиеИсследования и разработка: обзор исследований, мозговой штурм и генерация гипотез, поиск лекарствСтратегия: продвинутый анализ диаграмм и графиков, финансы и тенденции на рынке, прогнозирование
Дифференциатор Более интеллектуален, чем любая другая доступная модель.

*1M токенов доступно для конкретных случаев использования, уточните.

Claude 3 Сонет — идеально сбалансированная модель по сочетанию интеллекта и скорости, особенно для корпоративных рабочих нагрузок. Он обладает высокой производительностью по более низкой цене по сравнению с конкурентами и разработан для высокой стойкости в масштабных развертываниях искусственного интеллекта.

Стоимость

[Ввод $/миллион токенов | Вывод $/миллион токенов]

$3 | $15
Окно контекста 200К
Потенциальные использования Обработка данных: RAG или поиск и извлечение из огромного объема знанийПродажи: рекомендации по продуктам, прогнозирование, целевой маркетингЭкономия времени: генерация кода, контроль качества, извлечение текста из изображений
Дифференциатор Более доступен, чем другие модели с аналогичным интеллектом; лучше для масштабирования.

Claude 3 Хайку — наша самая быстрая, самая компактная модель для мгновенного реагирования. Он отвечает на простые запросы и просьбы с непревзойденной скоростью. Пользователи смогут создавать безупречные опыты искусственного интеллекта, имитирующие человеческое взаимодействие.

Стоимость

[Ввод $/миллион токенов | Вывод $/миллион токенов]

$0.25 | $1.25
Окно контекста 200К
Потенциальные использования Взаимодействие с клиентами: быстрая и точная поддержка в реальном времени, переводМодерация контента: выявление рискового поведения или запросов клиентовЗадачи по экономии средств: оптимизация логистики, управление запасами, извлечение знаний из неструктурированных данных
Дифференциатор Умнее, быстрее и более доступен, чем другие модели в своей категории интеллекта.

Доступность модели

Opus и Sonnet уже доступны для использования в нашем API, которое теперь доступно в общем доступе, позволяющем разработчикам зарегистрироваться и начать использовать эти модели немедленно. Haiku будет доступен в ближайшее время. Sonnet также доступен сегодня через Amazon Bedrock и в частном предварительном просмотре в Google Cloud’s Vertex AI Model Garden — с Opus и Haiku, которые скоро появятся в обоих.

Умнее, быстрее, безопаснее

Мы считаем, что интеллект модели далеко не на пределе и планируем выпускать частые обновления семейства моделей Claude 3 в ближайшие несколько месяцев. Мы также с нетерпением ждем выпуска ряда функций для улучшения возможностей наших моделей, особенно для корпоративных случаев использования и масштабных развертываний. Эти новые функции включат использование инструментов (также известное как вызов функции), интерактивное кодирование (также известное как REPL) и более продвинутые агентные возможности.

Продвигая границы возможностей ИИ, мы также посвящаем себя обеспечению того, чтобы наши безопасные ограждения не отставали от этих скачков в производительности. Наша гипотеза заключается в том, что быть на передовой развития ИИ является наиболее эффективным способом направить его траекторию к положительным общественным результатам.

Мы с нетерпением ждем, чтобы увидеть, что вы создадите с Claude 3, и надеемся, что вы дадите нам обратную связь, чтобы сделать Claude еще более полезным помощником и творческим спутником. Чтобы начать работу с Claude, посетите anthropic.com/claude.

Примечания

  1. Эта таблица показывает сравнения с моделями, в настоящее время доступными коммерчески, которые выпустили оценки. Наша карточка модели показывает сравнения с моделями, которые были анонсированы, но пока не выпущены, такими как Gemini 1.5 Pro. Кроме того, мы хотели бы отметить, что инженеры работали над оптимизацией подсказок и нескольких образцов для оценок и сообщили более высокие оценки для новой модели GPT-4T. Источник.

Содержание этой статьи было переведено с оригинальной статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *