Недавнее рецензируемое исследование показало, что большие языковые модели (LLM) часто выбирают контент, написанный другими ИИ, а не человеком, когда им предлагают сравнимые варианты.
Авторы исследования утверждают, что такая тенденция может дать преимущество контенту, созданному с помощью ИИ, поскольку всё большее количество рекомендаций и информации о товарах проходит через ИИ-системы.
О исследовании
Что тестировали исследователи
Команда под руководством Уолтера Лаурито и Яна Кулвейта сравнила версии одних и тех же материалов, написанные людьми и ИИ, в трёх категориях:
- описания товаров на маркетплейсах,
- резюме научных статей,
- сюжеты фильмов.
Популярные модели, включая GPT-3.5, GPT-4-1106, Llama-3.1-70B, Mixtral-8x22B и Qwen2.5-72B, выступали в роли «выбирающих» в парных тестах, где нужно было сделать один выбор.
Авторы пишут:
«Наши результаты показывают устойчивую тенденцию систем на базе LLM предпочитать варианты, созданные LLM. Это может означать, что будущие ИИ-системы будут косвенно дискриминировать людей, предоставляя ИИ и пользователям с ИИ-продуктами несправедливое преимущество».
Основные результаты
Когда GPT-4 предоставлял версии текста, созданные ИИ, «выбирающие» модели чаще отдавали предпочтение этим текстам по сравнению с человеческими оценщиками:
- Продукты: 89% предпочтение ИИ vs 36% у людей
- Резюме научных статей: 78% vs 61%
- Краткие описания фильмов: 70% vs 58%
Авторы также отмечают эффект порядка: некоторые модели имели склонность выбирать первый вариант. В исследовании пытались нивелировать это, меняя порядок и усредняя результаты.
Почему это важно
Если маркетплейсы, чат-ассистенты или поисковые системы используют LLM для оценки или суммаризации контента, тексты, созданные с помощью ИИ, с большей вероятностью будут выделяться.
Исследователи описывают возможный «налог на вход»: компании могут чувствовать необходимость использовать инструменты ИИ для написания текстов, чтобы их контент не оказался внизу рейтинга. Это вопрос не только креативности, но и маркетинговой стратегии.
Ограничения и вопросы
Человеческий контроль в исследовании был ограничен (13 ассистентов), выборка предварительная, а парные тесты не измеряют фактическое влияние на продажи.
Результаты могут меняться в зависимости от дизайна запросов, версии модели, сферы применения и длины текста. Механизм предпочтения пока неясен, и авторы призывают к дальнейшим исследованиям в области стилометрии и методов смягчения эффекта.
Что дальше
Если рейтинги и рекомендации с участием ИИ будут расширяться, стоит рассматривать использование ИИ-технологий там, где это напрямую влияет на видимость контента.
Важно воспринимать это как экспериментальную возможность, а не жесткое правило. Человеческие авторы должны оставаться в процессе для контроля тона и достоверности, а результаты стоит проверять на основе откликов клиентов.
Ознакомиться с полной информацией, что такое SEO-продвижение можно по ссылке.