Как определить, что текст написала нейросеть

Искусственный интеллект — неплохой помощник во многих вопросах. Но безоговорочно доверять ему не стоит.

По данным Bloomberg, около 30% специалистов используют для генерации текста нейросети. В России 67% опрошенных хотят применять в работе искусственный интеллект, чтобы меньше трудиться самому и не терять в доходе. Вот только такая статистика радует далеко не всех заказчиков. Некоторые не доверяют нейросетям, поэтому предпочитают, чтобы тексты писали не роботы, а люди.

Разбираемся, почему заказчики с осторожностью относятся к технологиям и какие средства разоблачения нейротекстов существуют сегодня.

Почему к текстам от нейросетей стоит относиться с осторожностью

Вот основные причины, почему заказчики остерегаются подобных статей.

Риск нарушения авторских прав

Сегодня нет официальной позиции по вопросу, кому принадлежат авторские права на тексты, созданные с помощью ИИ. По закону автор — это человек, который творческим или интеллектуальным трудом создаёт произведение. Однако в случае с нейросетью люди только дают указания, но не пишут сами.

Так как сейчас закон не признаёт нейротексты объектами авторского права, правила использования сгенерированного технологиями контента определяются в пользовательском соглашении нейросети.

И если Open AI передаёт права на текст даже в бесплатной версии, то Gerwin ограничивает его применение в политических, дискриминационных целях или в недоброжелательной рекламе. А в Midjourney использовать контент в коммерческих целях можно только при условии генерации произведения на платном тарифе.

Риск получения неуникальной или недостоверной информации

Нейросеть получает запрос, проводит его через алгоритмы, анализирует доступную по теме информацию и выдаёт ответ. Не отрицая, что по такому же запросу от другого пользователя может выдать аналогичный или похожий текст.

И тут появляется новая опасность. Исследователи из Корнелльского университета пришли к выводу: если ответы нейросети на одинаковый вопрос сильно разнятся, то с большой вероятностью она придумывает факты.

Риск, что нейротексты понизят ресурс компании в поисковой выдаче

В конце прошлого года специалист группы качества Google Дуй Нгуен заявил, что у компании есть алгоритмы для обнаружения и понижения рейтинга материалов, созданных искусственным интеллектом. Поэтому многие опасаются, что поисковики будут искать такой контент и пессимизировать его. То есть понижать позицию в поисковой выдаче.

Прецеденты уже существуют. К примеру, маркетолог Нил Патель провёл эксперимент, создав 50 тестовых веб‑сайтов, которые разделил на две группы. Сайты первой части эксперт заполнил статьями, созданными исключительно искусственным интеллектом. На сайтах второй были размещены ИИ‑статьи, доработанные людьми, а также материалы, написанные копирайтерами без использования нейросетей.

Результаты эксперимента показали, что ресурсы первой группы потеряли несколько позиций в поисковой выдаче. И это привело к снижению трафика до 70%.

При этом представители Google добавили, что положительно относятся к развитию нейросетей и уже создали свой чат‑бот Bard. Но для компании в приоритете качественные тексты. Система, которая ранжирует результаты, в первую очередь предлагает пользователям материалы, отвечающие стандартам E‑E‑A‑T (опыт, компетентность, авторитетность, достоверность).

Тексты, соответствующие им, вызывают доверие и считаются полезными, поскольку содержат примеры, опыт, аналитическую часть, исследования. А контент, который создают нейросети, без дополнительной глубокой доработки человеком зачастую таковым не является.

Между тем, в Госдуме предложили вводить маркировку для материалов, созданных с помощью ИИ. А пока этого не произошло, определять, что текст сгенерирован нейросетью, придётся самостоятельно. Или с помощью специальных сервисов.

Как самостоятельно определить, что текст написала нейросеть

В технологическом университете МИРЭА недавно провели эксперимент, в котором приняли участие 20 преподавателей и свыше 200 студентов. Половина из них писали научную работу самостоятельно. А другие 50% воспользовались помощью нейросетей. Преподавателям же предстояло вычислить такие ИИ‑материалы.

Чтобы это сделать, педагоги обращали внимание на стилистические и орфографические особенности текста. Например, на большое количество повторяющихся слов и смыслов, фактические и логические ошибки, отсутствие оригинальных суждений. Таким способом преподаватели смогли выявить 96% работ, написанных с помощью нейросети. 4% студентов же, которых не разоблачили, признались, что потратили на редактуру ИИ‑текста много часов.

Универсальной инструкции, которая поможет вычислить текст, сгенерированный нейросетью, не существует. Однако проведённый эксперимент показывает: таким материалам присущи схожие паттерны. Рассмотрим их подробнее.

Повторы смыслов и слов

Одна из причин понижения сайта в выдаче — переоптимизация ключевыми словами. Нейросеть в ответ на запрос зачастую «отвечает по кругу». Иногда она использует разные вхождения, но смысл всё равно повторяется.

Так, на скриншоте, представленном ниже, искусственному интеллекту была поставлена задача написать продающий пост о новом щадящем способе окрашивания волос. И в небольшом тексте нейросеть неоднократно повторила одни и те же тезисы.

Почти в каждом предложении сгенерированного текста повторяется словосочетание «новый способ окрашивания». А также присутствует неоднократное дублирование смыслов о безопасности метода и индивидуальном подходе, который позволит подчеркнуть уникальность каждого клиента.

Вот несколько цитат из текста, иллюстрирующих это: «преобразить свой образ и выразить свою индивидуальность», «учитываем вашу индивидуальность», «подходящий именно вам», «создать для вас уникальный и стильный образ», «сделать вашу причёску неповторимой», «сохранить здоровье и блеск ваших волос», «безопасным для ваших волос», «бережно ухаживают за волосами, сохраняя их здоровье».

Между тем, достаточно было один раз упомянуть, что в салоне представлена новая процедура — щадящий метод окрашивания, который позволит сохранить волос живым. А также пояснить, как работает метод, в чём его новизна и почему он безопасен. И добавить, что палитра цветов разнообразна, а мастера, прошедшие обучение, не только качественно проведут окрашивание, но и помогут с выбором цвета.

Наличие в тексте большого количества штампов и клише, отсутствие чувственного опыта

Пример с окрашиванием также показывает: имитировать то, как человек говорит в жизни, нейросеть не может. Люди опечатываются, используют сленг и сокращения, намеренно искажают слова. Такая подача помогает привлечь внимание, вызвать эмоции, передать позицию автора, его чувственный опыт.

Исследования показывают: нейросеть не делится чувствами, не принимает чью‑либо позицию. Поэтому предпочитает нейтральность, штампы и клише. В указанном выше примере это «профессиональные навыки», «высококачественные материалы», «уникальная возможность».

При этом нейросеть генерирует тексты в разных стилях. Например, можно дать ей задачу подготовить материал на тему «Что влияет на стоимость нефти». Но уточнить, что писать текст следует не сухим языком, а с добавлением метафор и сравнений. Однако результат всё равно получается искусственным. Ведь у ИИ нет меры, он не «чувствует» текст так, как человек.

Увидеть, что полученный результат не сравнится с интонацией, присущей человеку, поможет один из абзацев: «Спрос и предложение — это как танец двух влюблённых на рынке нефти. Если спрос на нефть растёт, как бушующий океан, а предложение не успевает за ним, то цены поднимаются, как шампанское на новогодней вечеринке. Но если спрос снижается, а предложение растёт, то цены могут упасть, как шарик на детском празднике».

Текст кажется искусственным, а большинство оборотов в нём — неуместными. И хотя пост действительно получился «не сухим», сложно представить, что так написал бы эксперт. Кроме того, буквально каждое предложение — это метафоры и сравнения. Однако такие приёмы должны быть точечными и аккуратно встроенными в текст. Иначе за избытком образов потеряется смысл.

Наличие бессмысленных фраз и отсутствие логики

Лингвист Ноам Хомский в книге «Синтаксические структуры» отмечает: грамматически верное построение фраз в предложении не гарантирует наличия в нём логики и смысла. В пример эксперт привёл фразу colorless green ideas sleep furiously — «бесцветные зелёные идеи спят яростно».

Алгоритмы помогают нейросети строить правильные предложения с точки зрения грамматики. Однако для ИИ не существует понятия «смысл». И логика для каждого абзаца у него может быть своя, поскольку материал получен из разных источников.

К примеру, нейросеть попросили сгенерировать отзывы на гель для душа и спортивный костюм. Текст про одежду получился таким: «С помощью костюма можно расслабиться, погрузиться в мир спорта, а также выйти на прогулку. Он имеет регулировку температуры, благодаря которой чувствуешь себя комфортно в любой ситуации».

А вот отзыв на гель для душа: «Замечательный гель, не протекает, не утяжеляет кожу. Упакован в пакетик, в коробку, с крышкой. Не надо ждать ничего лишнего, чтобы он слегка рассыпался. Можно использовать, как ночной гель для душа».

Некоторые фразы в них правильно построены, но при этом кажутся абсурдными и напоминают иллюстрацию Хомского.

Отсутствие фактуры и поверхностные примеры

Искусственный интеллект даёт в текстах очевидную информацию, общие факты, использует обтекаемые фразы и примеры, которые мало раскрывают вопрос. При этом сложность темы не имеет значения. Вопрос может быть глубоким, как, например, перспективы развития инклюзии в России. Или более простым и индивидуальным, касающимся выбора техники.

В тексте про инклюзию нейросеть рассказала, как важна и актуальна эта тема. А также добавила, что инклюзия — это долгий процесс, сопровождающийся сложностями, но работы по созданию условий для людей с особенностями проводятся. И подвела итог: если не останавливаться, то развитие непременно будет.

Однако написанное не раскрывает вопрос. Важно, чтобы в тексте была конкретика. К примеру, можно проанализировать, какие из принятых законов работают, а какие — нет и почему. Раскрыть зарубежный опыт. И пояснить, какие конкретные шаги для развития инклюзии может ещё сделать государство, бизнес и каждый человек.

В тексте про покупку смартфона, сгенерированном нейросетью, также указаны очевидные факторы выбора. Например: следует определиться с операционной системой (iOS или Android), брендом, ознакомиться с отзывами и техническими характеристиками, а также учитывать собственные возможности.

Однако люди и так это понимают. Другое дело — рассказать про фишки операционных систем, указать ограничения, существующие на данный момент. Или упомянуть об инновационных решениях — например, о технологии eSIM, позволяющей иметь до пяти номеров в одном смартфоне. Или поделиться моделями устройств с завышенной ценой и их аналогами по оптимальной стоимости.

Искажение фактов, добавление придуманной информации

Нейросеть правдоподобно отвечает на практически любой вопрос, предоставляя хронику, даты, фамилии, историю происхождения. При этом информация бывает искажённой или полностью выдуманной. Такой баг в работе ИИ называют галлюцинацией.

Так, нейросети была поставлена задача: рассказать о знаменитых глухих людях, которые внесли большой вклад в развитие общества. В результате ИИ большую часть из них выдумал.

Например, астронавта Раймонда Лу или боксёра Марио Галлегоса. А 42‑м президентом США всё же был не Мэттью Клинтон, а Билл Клинтон. И слуха он не терял.

Кроме того, ИИ уверенно ответил на запрос «напиши пост о креативной амнезии». Несмотря на то, что такого термина не существует.

На вопрос, зачем бот придумывает людей и рассуждает о несуществующих терминах, он лишь приносит извинения за возможную путаницу.

Когда фальшивые факты переплетены с правдивыми данными, обнаружить галлюцинации нейросети сложнее. Особенно при беглом чтении. Но если сконцентрироваться на приведённых в тексте примерах, можно заметить те, что выглядят подозрительно, и проверить их, забив в строку поиска.

Отсутствие актуальной информации о текущих изменениях, событиях

Нейросети самообучаются при общении с пользователями, запоминая уточнения человека, его реакцию на сгенерированный контент, примеры, которыми человек делится с ботом. Эксперты отметили, что способность ИИ самообучаться стала для них неожиданностью. И что это умение помогает нейросетям совершенствоваться.

При этом машинное обучение, проводимое разработчиками на гигабайтах данных — статьях, книгах, текстах из Сети, — имеет чёткое начало и конец. И в основном нейросети не имеют доступа к поисковым системам. Поэтому информация, которая появилась после проведённого разработчиками обучения, недоступна ИИ до следующего этапа.

При этом перерыв между машинным обучением составляет месяцы, а иногда — годы. Конечно, прогресс не стоит на месте: к примеру, в мае текущего года пользователям с платной подпиской GPT Plus стал доступен ChatGPT с выходом в интернет. Однако большинство нейросетей, особенно их бесплатные версии, такой возможности пока не имеют.

Так, база бесплатной версии ChatGPT4 ограничена 2021 годом, поэтому бот не знает, кто выиграл последний Чемпионат мира по футболу в 2022 году. А нейросеть Google — Bard AI — призналась, что не может составить текст о значимых событиях, которые произошли в мире текущим летом.

Поскольку её последнее обучение было проведено разработчиками в мае 2023 года, лето для Bard AI ещё не наступило.

В таких случаях нейросети обычно не придумывают факты, а признаются, что не могут «предсказывать будущее».

Если в тексте нет актуальных сведений по теме или он выглядит оторванным от реальности, поскольку за последнее время многое изменилось, то существует вероятность, что материал писала нейросеть.

Какие сервисы могут помочь

Распознать сгенерированный искусственным интеллектом текст можно и с помощью самой нейросети. Например, это умеет бот GPT-4. Также помочь могут и специальные сервисы, которые способны выявлять алгоритмы ИИ. Ниже рассмотрим некоторые из них.

Text.ru. Сайт позиционируется как биржа копирайтинга и антиплагиата. Но недавно на портале появился и платный нейропомощник. Одна из его функций — ИИ‑детектор. В окошко следует загрузить текст, который необходимо проверить. Через несколько секунд система выдаст результат.
PR·CY. В сервис можно загружать тексты объёмом от 1 000 знаков. При этом на портале есть уточнения: некачественные, переспамленные варианты, которые писал человек, система расценит как результат работы ИИ. Так же как и тексты с яркой стилистической окраской — например, похожие на произведения Маяковского.
GPTZero. Инструмент считывает сложность, сочетание слов, структуру и длину предложений. Однако если с текстами на английском сервис неплохо справляется, то при загрузке русскоязычного материала нередко выдаёт ошибку. Из плюсов — наличие бесплатной версии.

Нейросеть может быть отличным помощником. Например, при поиске идей. Однако полностью доверять ей контент опасно. Относиться к ИИ‑материалам стоит ответственно: редактировать переспам, проверять на достоверность, логику, актуальность фактов. И корректировать стиль под «человеческий» язык, чтобы не отпугнуть аудиторию, сохранить репутацию и позиции компании в поисковой выдаче.

Обложка: Каролина Храмова / Лайфхакер