Рубрики
Учебники

Выявление контента AI: Bard Против ChatGPT Против Claude

Исследователи наблюдают различные возможности обнаружения контента AI, выделяют возможные новые направления для идентификации созданного AI контента

Основные моменты

  • Текстовый контент, созданный Claude, сложнее обнаружить, чем контент, созданный Bard или ChatGPT
  • Bard & ChatGPT имели относительно более высокую точность самообнаружения своего собственного оригинального контента
  • Результаты самообнаружения парафразированного контента привели к удивительным результатам среди трех протестированных моделей AI
  • Тесты кажутся указывать на то, что Claude создал наименьшее количество обнаружимых артефактов, что затруднило его обнаружение

Исследователи проверили идею о том, что модель AI может иметь преимущество в самообнаружении своего собственного контента, потому что обнаружение основано на том же обучении и наборах данных. Однако они не ожидали обнаружить, что из трех протестированных моделей AI контент, созданный одной из них, был настолько неразличим, что даже AI, который его создал, не мог его обнаружить.

Исследование провели исследователи из Департамента компьютерных наук Школы инженерии Лайла Университета Южного Методиста.

Выявление контента AI

Многие системы обнаружения AI обучены на поиске характерных сигналов созданного AI контента. Эти сигналы называются «артефактами», которые генерируются из-за базовой технологии трансформера. Но другие артефакты уникальны для каждой базовой модели (большой языковой модели, на которой основан AI).

Эти артефакты уникальны для каждого AI, и они возникают из отличительных тренировочных данных и настройки, которые всегда отличаются от одной модели AI к другой.

Исследователи обнаружили доказательства того, что именно этот уникальный характер позволяет AI иметь больший успех в самоидентификации своего собственного контента, значительно лучше, чем при попытке идентифицировать контент, сгенерированный другим AI.

Bard имеет лучшие шансы идентифицировать контент, сгенерированный Bard, и ChatGPT имеет более высокий успех в идентификации контента, созданного ChatGPT, но…

Исследователи обнаружили, что это не относится к контенту, созданному Claude. Claude испытывал затруднения с обнаружением контента, который он создал. Исследователи предложили идею, почему Claude не смог обнаружить свой собственный контент, и в этой статье это обсуждается далее.

Это идея за исследовательскими испытаниями:

«Поскольку каждую модель можно обучить по-разному, создание одного инструмента обнаружения для выявления артефактов, созданных всеми возможными инструментами генеративного AI, сложно достичь.

Здесь мы разрабатываем другой подход, называемый самообнаружение, где мы используем саму генеративную модель для обнаружения собственных артефактов для различения собственного сгенерированного текста от текста, написанного человеком.

Это имеет преимущество в том, что нам не нужно учиться обнаруживать все модели генеративного AI, а нужен только доступ к модели генеративного AI для обнаружения.

Это большое преимущество в мире, где непрерывно разрабатываются и обучаются новые модели.»

Методология

Исследователи протестировали три модели AI:

  1. ChatGPT-3.5 от OpenAI
  2. Bard от Google
  3. Claude от Anthropic

Все использованные модели были версиями сентября 2023 года.

Был создан набор данных из пятидесяти различных тем. Каждой модели AI давались точно такие же подсказки для создания эссе примерно по 250 слов для каждой из пятидесяти тем, что сгенерировало по пятьдесят эссе для каждой из трех моделей AI.

Затем каждую модель AI одинаково подталкивали к перефразированию своего собственного контента и созданию дополнительного эссе, являющегося переписанным вариантом каждого оригинального эссе.

Было также собрано пятьдесят эссе, созданных людьми, по каждой из пятидесяти тем. Все эссе, созданные людьми, были выбраны из BBC.

Исследователи затем использовали нулевое подталкивание для самообнаружения созданного AI контента.

Нулевое подталкивание — это тип подталкивания, основанный на способности моделей AI выполнять задачи, для которых они не были специально обучены.

Исследователи дополнительно пояснили свою методологию:

«Мы создали новый экземпляр каждой системы AI, инициировали его и поставили перед конкретным запросом: ‘Соответствует ли следующий текст его стилю написания и выбору слов.’ Процедура повторяется для оригинальных, перефразированных и человеческих эссе, и результаты записываются.

Мы также добавили результат инструмента обнаружения AI ZeroGPT. Мы не используем этот результат для сравнения производительности, а как базовую линию, чтобы показать, насколько сложной является задача обнаружения.»

Они также отметили, что точность на уровне 50% равна догадке, что можно считать в сущности уровнем точности, являющимся неудачей.

Результаты: Самообнаружение

Следует отметить, что исследователи признали, что их образцовая выборка была невелика, и сказали, что они не делают утверждений о том, что результаты являются окончательными.

Ниже приведена диаграмма, показывающая процент успеха самообнаружения AI первой партии эссе. Красные значения представляют самообнаружение AI, а синие показывают, насколько хорошо инструмент обнаружения AI ZeroGPT справился.

Результаты самообнаружения AI собственного текстового контента

Bard достаточно хорошо справился с обнаружением своего собственного контента, и ChatGPT также показал себя хорошо в обнаружении своего собственного контента.

ZeroGPT, инструмент обнаружения AI, успешно обнаружил контент Bard и немного менее успешно обнаружил контент ChatGPT.

ZeroGPT в основном не смог обнаружить контент, созданный Claude, показав худшие результаты, чем порог в 50%.

Claude был выбросом из группы, потому что он не смог самообнаружить свой собственный контент, показав значительно худшие результаты по сравнению с Bard и ChatGPT.

Исследователи предположили, что дело может быть в том, что выход Claude содержит меньше обнаружимых артефактов, что объясняет, почему как Claude, так и ZeroGPT не смогли обнаружить эссе Claude как созданные AI.

Таким образом, хотя Claude не смог надежно самообнаружить свой собственный контент, это оказалось признаком того, что вывод от Claude был более качественным в терминах выдачи меньшего количества артефактов AI.

ZeroGPT лучше справился с обнаружением контента, созданного Bard, чем с обнаружением контента ChatGPT и Claude. Исследователи предположили, что Bard создает более обнаружимые артефакты, что делает его легче обнаружить.

Таким образом, в плане самообнаружения контента Bard может создавать более обнаружимые артефакты, а Claude — меньше артефактов.

Результаты: Самообнаружение Перефразированного Контента

Исследователи предположили, что модели AI смогут самообнаружить свой собственный перефразированный текст, потому что артефакты, созданные моделью (как обнаруженные в оригинальных эссе), должны также присутствовать в переписанном тексте.

Однако исследователи признали, что подсказки для написания текста и перефразирования отличаются, потому что каждая переписка отличается от оригинала, что может привести к разным результатам самообнаружения для перефразированного текста.

Результаты самообнаружения перефразированного текста действительно отличались от самообнаружения оригинального теста.

Bard смог самообнаружить перефразированный контент схожим образом.
ChatGPT не смог самообнаружить перефразированный контент на уровне гораздо выше 50% (что равно догадке).
Производительность ZeroGPT была подобна результатам предыдущего теста, немного ухудшившись.
Самым интересным результатом оказался Claude от Anthropic.

Claude смог самообнаружить перефразированный контент (но не смог обнаружить оригинальное эссе в предыдущем тесте).

Это интересный результат, что оригинальные эссе Claude, по-видимому, содержали настолько мало артефактов, сигнализирующих о том, что они были созданы AI, что даже Claude не смог их обнаружить.

Тем не менее, он смог самообнаружить пересказ, в то время как ZeroGPT не смог.

Исследователи прокомментировали этот тест:

«Факт, что перефразирование мешает ChatGPT самообнаруживаться, в то время как повышает способность Claude к самообнаружению, очень интересен и может быть результатом внутренних механизмов этих двух трансформерных моделей.»

Скриншот самодетекции AI для перефразированного контента

Эти тесты дали почти непредсказуемые результаты, особенно в отношении Claude от Anthropic, и этот тренд продолжался при тестировании на то, насколько хорошо модели искусственного интеллекта обнаруживают контент друг друга, что имело интересную особенность.

Результаты: Модели AI обнаруживают контент друг друга

Следующий тест показал, насколько хорошо каждая модель AI обнаруживает контент, созданный другими моделями AI.

Если правда, что Bard создает больше артефактов, чем другие модели, смогут ли другие модели легко обнаружить контент, созданный Bard?

Результаты показывают, что да, контент, созданный Bard, самый легко обнаруживаемый другими моделями AI.

Что касается обнаружения контента, созданного ChatGPT, как Claude, так и Bard не смогли определить его как созданный AI (как и Claude).

ChatGPT смог обнаружить контент, созданный Claude, с более высокой скоростью, чем Bard и Claude, но эта более высокая скорость не намного лучше угадывания.

Вывод здесь состоит в том, что все они не так хорошо справлялись с обнаружением контента друг друга, что, как считают исследователи, может показать, что самодетекция была перспективной областью исследований.

Вот график, показывающий результаты этого конкретного теста:

На этом этапе следует отметить, что исследователи не утверждают, что эти результаты являются окончательными в отношении обнаружения AI в целом. Основное внимание исследования было сосредоточено на тестировании возможности моделей AI успешно обнаруживать свой собственный созданный контент. Ответ в основном положительный, они лучше справляются с самодетекцией, но результаты схожи с тем, что было найдено с ZEROGpt.

Исследователи прокомментировали:

«Самодетекция показывает схожую силу обнаружения по сравнению с ZeroGPT, но стоит отметить, что цель этого исследования — не утверждать, что самодетекция превосходит другие методы, для этого потребуется обширное исследование для сравнения с многими современными инструментами обнаружения контента AI. Здесь мы только исследуем базовую способность моделей к самодетекции».

Выводы и уроки

Результаты теста подтверждают, что обнаружение созданного AI контента — не легкая задача. Bard способен обнаруживать свой собственный контент и перефразированный контент.

ChatGPT может обнаруживать свой собственный контент, но хуже справляется с перефразированным контентом.

Claude выделяется тем, что не может надежно обнаруживать свой собственный контент, но смог обнаружить перефразированный контент, что было довольно странным и неожиданным.

Обнаружение оригинальных эссе и перефразированных эссе Claude было вызовом для ZeroGPT и других моделей AI.

Исследователи отметили о результатах Claude:

«Этот кажущийся недостаточно однозначный результат требует дальнейшего рассмотрения, поскольку вызван двумя смешанными причинами.

1) Способность модели создавать текст с очень незаметными артефактами. Поскольку цель этих систем — создавать текст, близкий к человеческому, меньшее количество артефактов, которые труднее обнаружить, приближает модель к этой цели.

2) Врожденная способность модели к самодетекции может быть повлияна на используемую архитектуру, подсказку и применяемую настройку».

Исследователи сделали еще одно наблюдение относительно Claude:

«Только Claude не может быть обнаружен. Это указывает на то, что Claude может создавать текст с меньшим количеством обнаружимых артефактов, чем другие модели.

Скорость обнаружения самодетекции следует тому же тренду, указывая на то, что Claude создает текст с меньшим количеством артефактов, что делает его труднее отличить от человеческого письма».

Но, конечно, странной частью является то, что Claude также не смог самостоятельно обнаружить свой собственный оригинальный контент, в отличие от других двух моделей, у которых был более высокий процент успешных случаев.

Исследователи отметили, что самодетекция остается интересной областью для дальнейших исследований и предложили, что дальнейшие исследования могут сосредоточиться на более крупных наборах данных с большим разнообразием созданного AI текста, тестировать дополнительные модели AI, сравнивать с большим количеством детекторов AI, и, наконец, они предложили изучить, как инженерия подсказок может влиять на уровни обнаружения.

Содержание этой статьи было переведено с оригинальной статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *