Яндекс.Метрика
  • Антон Качалов

Петербургские ученые научились распознавать следы нейросети в текстах

Это проект ИТМО
Фото: Роман Пименов / «Петербургский дневник»

Ученые из ИТМО создали инструмент, который по содержанию и стилю определяет, кем написан текст: человеком или искусственным интеллектом. Об этом рассказали в пресс-службе вуза.

Он работает с точностью до 94%. Система умеет не только находить следы ИИ, но и редактировать тексты, снижая их «машинное происхождение». Демоверсия детектора уже доступна для пользователей – например, система верно определила авторство этого текста (его написал человек).

Генеративные модели обучаются на текстах людей, но их стиль «письма» все еще остается специфическим: ИИ строит однообразные и шаблонные фразы, слишком предсказуемую структуру предложений, использует много повторов.

Перспективный способ быстро распознавать машинное происхождение текстов – использовать ИИ-алгоритмы. Но большинство из них плохо работают с текстами на русском языке и различают только две категории текстов: написанных человеком или полностью сгенерированных ИИ. Главная сложность – распознать нейросеть в тексте, который изначально написан человеком и пропущен через модель для улучшения стиля и исправления ошибок.

Для решения этой задачи ученые из лаборатории компьютерных технологий ИТМО разработали детектор, который по содержанию и стилю определяет, кем написан текст: человеком, ИИ или ИИ с перефразированием. Алгоритм работает с высокой точностью – при анализе 5,5 тысячи русскоязычных материалов он в 94% случаев правильно определил, кем написан текст: человеком или ИИ. В случае, когда среди источников текстов был третий вариант – «ИИ с перефразированием», алгоритм различал категории со средней точностью в 80%.

Исследователи обучали классификатор самостоятельно. Для этого авторы создали свой корпус из более чем четырех тысяч текстов на русском: написанных людьми (научные статьи, эссе и новости), перефразированных человеческих текстов и полностью сгенерированных ИИ (ChatGPT, Gemini, DeepSeek) текстов на те же темы.

Алгоритм пригодится в сфере образования для проверки работ, в медиа для маркировки ИИ-контента, а также поможет отслеживать халатное использование ИИ в важных отчетах и переписке внутри компаний за счет автоматической проверки текстов.

«Сейчас мы разрабатываем удобный интерфейс для нашего сервиса и готовим пакетную обработку, которая позволит анализировать несколько текстов одновременно и ускорить процесс. Осенью мы будем набирать дополнительную команду из молодых исследователей, чтобы развивать проект, а уже к весне попытаемся внедрить сервис в пилотном режиме в ИТМО – для поиска и исправления машинного текста в дипломных работах студентов», – сказал научный руководитель проекта, сотрудник факультета информационных технологий и программирования ИТМО Вячеслав Шаламов.