Обнаружение искусственным интеллектом контента, написанного с помощью искусственного интеллекта

Обнаружение искусственным интеллектом контента, написанного с помощью искусственного интеллекта

Обнаружение контента с помощью ИИ: Бард против ChatGPT против Клода

Исследователи наблюдают за различными возможностями обнаружения контента ИИ и выделяют новые направления для идентификации контента, созданного ИИ. В эксперименте были задействованы ChatGPT-3.5 (ЧатГПТ) от OpenAI, Bard (Бард) от Google и Клод (Клод) от Anthropic

  • Текстовый контент, созданный Клодом, труднее обнаружить, чем контент, созданный Бардом или ЧатомГПТ.
  • Бард и ЧатГПТ имеют более высокую точность при самостоятельном обнаружении собственного оригинального контента.
  • Результаты самоопределения перефразированного контента дали неожиданные результаты среди трех протестированных моделей ИИ.
  • Тесты показали, что Клод генерировал наименьшее количество обнаруживаемых артефактов, что затрудняло обнаружение.

Исследователи проверили идею о том, что модель искусственного интеллекта может иметь преимущество в самостоятельном обнаружении собственного контента, поскольку при обнаружении используется одно и то же обучение и наборы данных. Чего они не ожидали обнаружить, так это того, что из трех протестированных ими моделей ИИ контент, сгенерированный одной из них, был настолько необнаружимым, что даже ИИ, который его сгенерировал, не мог его обнаружить.

Исследование провел факультет компьютерных наук Инженерной школы Лайла Южного методистского университета. Статья по ссылке.

Обнаружение контента с помощью ИИ

Многие детекторы искусственного интеллекта обучены искать контент, созданный искусственным интеллектом, с помощью сигналов, называемыми «артефактами». Артефакты генерируются из базовой технологии преобразователя и уникальны для каждой базовой языковой модели, на которой основан ИИ. Эти артефакты уникальны для каждого ИИ и возникают в результате уникальных данных обучения и точной настройки, которые отличаются у разных моделей ИИ.  Исследователи обнаружили доказательства того, что именно эта уникальность позволяет ИИ добиваться большего успеха в самоидентификации собственного контента, что значительно лучше, чем попытки идентифицировать контент, созданный другим ИИ. У Барда больше шансов идентифицировать контент, сгенерированный Бардом, а у ЧатаГПТ более высокий уровень успеха при идентификации контента, сгенерированного ЧатомГПТ, но…

Исследователи обнаружили, что это не относится к контенту, созданному Клодом. Клоду было трудно обнаружить контент, который сгенерировал он сам. Исследователи поделились идеей о том, почему Клод не смог обнаружить собственный контент.

В этом заключается идея исследовательских тестов:

«Поскольку каждую модель можно обучать по-разному, создать один инструмент обнаружения для обнаружения артефактов, созданных всеми возможными инструментами генеративного ИИ, сложно. Здесь мы разрабатываем другой подход, называемый самообнаружением, где используется генеративная модель для обнаружения собственных артефактов, чтобы отличить собственный сгенерированный текст от текста, написанного человеком. Преимущество заключается в том, что нам не нужно учиться обнаруживать все модели ИИ, а для обнаружения нам нужен только доступ к генеративной модели ИИ. Это большое преимущество в мире, где постоянно разрабатываются и обучаются новые модели».

Методология

Исследователи протестировали три модели ИИ:

  1. ChatGPT-3.5 от OpenAI
  2. Bard от Google
  3. Клод от Anthropic

Все использованные модели были версиями от сентября 2023 года.  Был создан набор данных из пятидесяти различных тем. Каждой модели ИИ были даны одинаковые подсказки для создания эссе объемом около 250 слов по каждой из пятидесяти тем, в результате чего было создано пятьдесят эссе для каждой из трех моделей ИИ. Затем каждой модели ИИ было одинаково предложено перефразировать собственный контент и создать дополнительное эссе, которое представляло собой переписывание каждого оригинального эссе. Также были собраны пятьдесят эссе, написанных людьми, по каждой из пятидесяти тем. Все эссе, написанные людьми, были выбраны с сайта BBC. Затем исследователи использовали нулевые подсказки для самостоятельного обнаружения контента, созданного ИИ. Подсказки с нулевым выстрелом — это тип подсказок, который основан на способности моделей ИИ выполнять задачи, для выполнения которых они специально не обучены.

Далее исследователи объяснили свою методологию:

«Мы создали новый экземпляр каждой системы искусственного интеллекта, который запускался и задавал конкретный запрос: «Если следующий текст соответствует его образцу написания и выбору слов». Процедура повторяется для оригинальных, перефразированных и написанных человеком эссе, а результаты записываются. Мы также добавили результат инструмента обнаружения искусственного интеллекта ZeroGPT. Мы используем этот результат не для сравнения производительности, а в качестве основы, чтобы показать, насколько сложна задача обнаружения».

Они также отметили, что точность в 50% равна угадыванию, которое, по сути, можно рассматривать как уровень точности, который является неудачей.

Результаты: Самообнаружение

Следует отметить, что исследователи признали, что частота выборки была низкой, и заявили, что они не заявляют, что результаты являются окончательными.

Ниже приведен график, показывающий показатели успешности самообнаружения ИИ первой партии эссе. Красные значения представляют собой самообнаружение ИИ, а синие — насколько хорошо работает инструмент обнаружения ИИ ZeroGPT.

Результаты самоопределения ИИ собственного текстового контента

Обнаружение контента с помощью ИИ: Бард против ChatGPT против Клода

Бард довольно хорошо справился с обнаружением собственного контента, ЧатГПТ тоже справился с обнаружением собственного контента. ZeroGPT, инструмент обнаружения AI, очень хорошо обнаружил контент Барда и немного хуже обнаружил контент ЧатаГПТ. ZeroGPT по сути не смог обнаружить контент, сгенерированный Клодом, и его результаты были хуже, чем порог 50%. Клод выделялся из группы, потому что он не смог самостоятельно обнаружить собственный контент, и его результаты были значительно хуже, чем у Барда и ЧатаГПТ. Исследователи предположили, что выходные данные Клода могут содержать меньше обнаруживаемых артефактов, что объясняет, почему и Клод, и ZeroGPT не смогли обнаружить эссе Клода как созданные искусственным интеллектом.

Таким образом, хотя Клод не смог надежно самостоятельно обнаружить собственный контент, это оказалось признаком того, что выходные данные Клода были более высокого качества с точки зрения вывода меньшего количества артефактов ИИ. ZeroGPT показал лучшие результаты при обнаружении контента, созданного Бардом, чем при обнаружении контента ЧатаГПТ или Клода. Исследователи предположили, что, возможно, Бард генерирует больше обнаруживаемых артефактов, что облегчает обнаружение Барда. C точки зрения самообнаружения контента Бард генерирует больше обнаруживаемых артефактов, а Клод – меньше.

 

Результаты: Самоопределение перефразированного контента

Исследователи предположили, что модели ИИ смогут самостоятельно распознавать собственный перефразированный текст, поскольку артефакты, созданные моделью, также должны присутствовать в переписанном тексте. Однако исследователи признали, что подсказки для написания текста и перефразирования различны, поскольку каждое переписывание отличается от исходного текста, что, следовательно, может привести к разным результатам самоопределения перефразированного текста. Результаты самоопределения перефразированного текста действительно отличались от результатов самоопределения исходного теста эссе.

  • Бард смог самостоятельно обнаружить перефразированный контент с такой же скоростью.
  • ЧатГПТ не смог самостоятельно обнаружить перефразированный контент с частотой, намного превышающей 50% (что равносильно угадыванию).
  • Производительность ZeroGPT была аналогична результатам предыдущего теста, но немного хуже.

Пожалуй, самый интересный результат предоставил Клод из Anthropic. Клод смог самостоятельно обнаружить перефразированное содержание (но не смог обнаружить оригинальное эссе в предыдущем тесте). Интересный результат: в оригинальных эссе Клода, по-видимому, было так мало артефактов, сигнализирующих о том, что это был сгенерированный ИИ, что даже Клод не смог его обнаружить. Тем не менее, он смог самостоятельно обнаружить парафраз, а ZeroGPT — нет.

Исследователи отметили по поводу этого теста:

«Обнаружение того, что перефразирование предотвращает самообнаружение ChatGPT, одновременно увеличивая способность Клода к самообнаружению, очень интересно и может быть результатом внутренней работы этих двух моделей трансформеров».

 

Снимок экрана: самообнаружение перефразированного контента ИИ

Обнаружение контента с помощью ИИ: Бард против ChatGPT против Клода

Эти тесты дали почти непредсказуемые результаты, особенно в отношении Клода от Anthropic, и эта тенденция продолжилась с тестом того, насколько хорошо модели ИИ обнаруживают контент друг друга.

 

Результаты: модели искусственного интеллекта обнаруживают контент друг друга

Следующий тест показал, насколько хорошо каждая модель ИИ обнаруживает контент, созданный другими моделями ИИ. Если это правда, что Бард генерирует больше артефактов, чем другие модели, смогут ли другие модели легко обнаружить контент, созданный Бардом? Результаты показали, что да, контент, созданный Бардом, легче всего обнаружить с помощью других моделей искусственного интеллекта. Что касается обнаружения контента, сгенерированного ЧатомГПТ, то Клод и Бард не смогли определить его как созданный искусственным интеллектом. ЧатГПТ смог обнаружить контент, созданный Клодом, с более высокой скоростью, чем Бард и Клод, но эта более высокая скорость была не намного лучше, чем угадывание. Вывод заключается в том, что все они не так хорошо распознавали контент друг друга. По мнению исследователей самообнаружение обещает скоро стать отдельной областью исследований.

График, показывающий результаты этого конкретного теста:

Обнаружение контента с помощью ИИ: Бард против ChatGPT против Клода

Исследователи не утверждают, что эти результаты являются убедительными в отношении обнаружения ИИ в целом. Целью исследования было проверить, смогут ли модели ИИ самостоятельно обнаруживать собственный сгенерированный контент. Ответ в основном положительный, они лучше справляются с самообнаружением, но результаты аналогичны тем, что были получены с помощью ZEROGpt.

Исследователи прокомментировали:

«Самообнаружение демонстрирует аналогичную мощность обнаружения по сравнению с ZeroGPT, но обратите внимание, что цель этого исследования состоит не в том, чтобы утверждать, что самообнаружение превосходит другие методы. Мы исследуем только базовую способность моделей к самообнаружению».

 

Выводы

Результаты теста подтверждают, что обнаружение контента, созданного ИИ, — непростая задача. Bard способен распознавать собственный контент и перефразированный контент. ChatGPT может обнаруживать собственный контент, но хуже работает с перефразированным контентом. Claude выделяется, потому что он не способен надежно самостоятельно определять собственный контент, но смог обнаружить перефразированный контент, что было довольно странно и неожиданно. Обнаружение оригинальных эссе Клода и перефразированных эссе было непростой задачей для ZeroGPT и других моделей ИИ.

Исследователи отметили результаты Клода:

«Этот, казалось бы, неубедительный результат требует большего внимания, поскольку он обусловлен двумя взаимосвязанными причинами.

1) Способность модели создавать текст с очень небольшим количеством обнаруживаемых артефактов. Поскольку цель этих систем — генерировать текст, похожий на человеческий, меньшее количество артефактов, которые труднее обнаружить, означает, что модель приближается к этой цели.

2) На присущую модели способность самообнаружения могут влиять используемая архитектура, подсказка и примененная точная настройка».

У исследователей было еще одно наблюдение о Клоде:

«Только Клода невозможно обнаружить. Это указывает на то, что Клод может производить меньше обнаруживаемых артефактов, чем другие модели.

Уровень самообнаружения следует той же тенденции, указывая на то, что Клод создает текст с меньшим количеством артефактов, что затрудняет его отличие от написанного человеком».

Но, конечно, самое странное то, что Клод также не смог самостоятельно обнаружить собственный оригинальный контент, в отличие от двух других моделей, которые имели более высокий уровень успеха. Исследователи отметили, что самообнаружение остается интересной областью для дальнейших исследований, и предложили, чтобы дальнейшие исследования были сосредоточены на более крупных наборах данных с большим разнообразием текста, сгенерированного ИИ, тестировании дополнительных моделей ИИ, сравнении с большим количеством детекторов ИИ и, наконец, они предложили изучить как оперативное проектирование может повлиять на уровень обнаружения.

Источник новости.

Более подробно о о работе с контентом можно узнать здесь .