Отметим, что системы антиплагиат - это обоюдоострое оружие. С одной стороны, нейросеть должна ловить мошенников, которые, присвоив себе чужое, надеются сделать карьеру и занять высокие посты. Такие "лжеспециалисты" закрывают дорогу действительно способным людям и наносят вред науке. Остановить их - благое дело. Но с другой - самая умная нейросеть может ошибаться. И тогда пострадает репутация не в чем невиновного человека. Поэтому немало ученых считают, что сфера науки вполне может обойтись без таких систем. А объективно оценивать работу коллеги должны только сами ученые.
- Да, есть такие мнения, - говорит руководитель компании, разработавшей "Антиплагиат", кандидат физико-математических наук Юрий Чехович. - Скажу сразу, что нейросеть сама не принимает никаких решений, никого не обвиняет в заимствовании чужих текстов. По сути, это поисковик. Вы загружаете в систему текст диссертации или статьи, и на выходе она сообщает результат: если поймала фрагмент из какого-то другого источника, то он указывается. А вот насколько корректно автор использовал этот чужой фрагмент, привел его как цитату или выдал за свое творение, система в принципе понять не может. Это может сделать только эксперт.
Таким образом, "Антиплагиат" - не вершитель судеб, не судья, а инструмент, который намного упрощает работу человека. Чтобы проверить конкретный текст на плагиат, он за несколько минут, а иногда и секунд просмотрит огромное число различных источников. Что не под силу никаким экспертам. То есть человек и машина дополняют друг друга.
Успех любой нейросети зависит от того, как ее обучили. "Антиплагиат" имеет дело с изощренными мошенниками. Они капитально работают с чужим текстом, перефразируют, меняют слова, синонимы, время и т.д. Еще более "мастеровитые" используют материалы на иностранных языках, переводят и вставляют в свою работу как собственные результаты. Словом, в их арсенале немало самых хитроумных приемов.
- Мы разработали уникальную систему, которая проверяет более 30 миллионов документов в год, - говорит Юрий Чехович. - Среди них бывают тексты в сотни, а иногда и тысячи страниц. Каждый день нейросеть обрабатывает до 500 тысяч материалов, а в секунду - в среднем около десятка.
Конечно, "изюминка" системы - поиск плагиата в текстах, написанных на 100 языках. Это становится все более актуальным, так как с развитием технологий машинного перевода число заимствований из иностранных текстов стремительно растет. Их поиск кажется нереальной задачей, особенно если учесть, что они могут составлять сотни страниц. Легче найти иголку в стоге сена. Российские ученые впервые в мире ее решили. Как? Это наше ноу-хау.
Система начала поиски желающих присвоить чужое в мае этого года. На данный момент выявлено около 12 тысяч переводных заимствований и почти 140 тысяч случаев использования бота ChatGpt при подготовке статей, диссертаций и дипломов.
Новое техническое решение пользуется спросом среди вузов, институтов, крупных издательств России и стран бывшего СНГ. Так как она снимает языковые ограничения, ей интересуются во многих странах, в том числе Индии, Турции, Ближнего Востока и Латинской Америки.
Работа выполнена на грант 180 миллионов рублей по направлению "Искусственный интеллект" в рамках нацпроекта "Цифровая экономика".