20.06.2023 17:52
Общество

Российскую нейросеть научили выявлять плагиат на 100 языках

Текст:  Юрий Медведев
Российская газета - Федеральный выпуск: №133 (9078)
Уникальную систему поиска мошенников, которые заимствуют чужие материалы, разработали российские ученые. Хотя в мире уже применяют различные нейросети для выявления плагиата в научных работах, литературных произведениях и документах, но у созданной нашими учеными нет аналогов. Она впервые может найти в текстах переводной плагиат среди 100 языков в любом сочетании.
Нейросеть за минуты, а иногда и секунды отыщет плагиат в текстах из сотен страниц. / Олеся Курпяева/РГ
Читать на сайте RG.RU

Отметим, что системы антиплагиат - это обоюдоострое оружие. С одной стороны, нейросеть должна ловить мошенников, которые, присвоив себе чужое, надеются сделать карьеру и занять высокие посты. Такие "лжеспециалисты" закрывают дорогу действительно способным людям и наносят вред науке. Остановить их - благое дело. Но с другой - самая умная нейросеть может ошибаться. И тогда пострадает репутация не в чем невиновного человека. Поэтому немало ученых считают, что сфера науки вполне может обойтись без таких систем. А объективно оценивать работу коллеги должны только сами ученые.

- Да, есть такие мнения, - говорит руководитель компании, разработавшей "Антиплагиат", кандидат физико-математических наук Юрий Чехович. - Скажу сразу, что нейросеть сама не принимает никаких решений, никого не обвиняет в заимствовании чужих текстов. По сути, это поисковик. Вы загружаете в систему текст диссертации или статьи, и на выходе она сообщает результат: если поймала фрагмент из какого-то другого источника, то он указывается. А вот насколько корректно автор использовал этот чужой фрагмент, привел его как цитату или выдал за свое творение, система в принципе понять не может. Это может сделать только эксперт.

Каждый день нейросеть обрабатывает до 500 тысяч материалов, а в секунду - в среднем около десятка

Таким образом, "Антиплагиат" - не вершитель судеб, не судья, а инструмент, который намного упрощает работу человека. Чтобы проверить конкретный текст на плагиат, он за несколько минут, а иногда и секунд просмотрит огромное число различных источников. Что не под силу никаким экспертам. То есть человек и машина дополняют друг друга.

Успех любой нейросети зависит от того, как ее обучили. "Антиплагиат" имеет дело с изощренными мошенниками. Они капитально работают с чужим текстом, перефразируют, меняют слова, синонимы, время и т.д. Еще более "мастеровитые" используют материалы на иностранных языках, переводят и вставляют в свою работу как собственные результаты. Словом, в их арсенале немало самых хитроумных приемов.

- Мы разработали уникальную систему, которая проверяет более 30 миллионов документов в год, - говорит Юрий Чехович. - Среди них бывают тексты в сотни, а иногда и тысячи страниц. Каждый день нейросеть обрабатывает до 500 тысяч материалов, а в секунду - в среднем около десятка.

Работодатели начали требовать от сотрудников навыков владения нейросетями

Конечно, "изюминка" системы - поиск плагиата в текстах, написанных на 100 языках. Это становится все более актуальным, так как с развитием технологий машинного перевода число заимствований из иностранных текстов стремительно растет. Их поиск кажется нереальной задачей, особенно если учесть, что они могут составлять сотни страниц. Легче найти иголку в стоге сена. Российские ученые впервые в мире ее решили. Как? Это наше ноу-хау.

Система начала поиски желающих присвоить чужое в мае этого года. На данный момент выявлено около 12 тысяч переводных заимствований и почти 140 тысяч случаев использования бота ChatGpt при подготовке статей, диссертаций и дипломов.

Новое техническое решение пользуется спросом среди вузов, институтов, крупных издательств России и стран бывшего СНГ. Так как она снимает языковые ограничения, ей интересуются во многих странах, в том числе Индии, Турции, Ближнего Востока и Латинской Америки.

Работа выполнена на грант 180 миллионов рублей по направлению "Искусственный интеллект" в рамках нацпроекта "Цифровая экономика".

Наука