Искусственный интеллект успешно рецензирует научные статьи

Кажется, искусственный интеллект уже не может никого удивить, проникая практически во все сферы жизни. Но размещенное на платформе arXiv сообщение Стэнфордского университета открыло совершенно неожиданные способности нейросетей. Речь идет об особой сфере - рецензировании научных статей, которые авторы направляют в престижные журналы. Всегда считалось, что доверить такой вердикт можно только элите научного сообщества, самым авторитетным экспертам в конкретной науке. Что, кстати, делает рецензирование все более проблематичным. Причина? Число публикаций в мире растет лавинообразно, а наука просто не может обеспечить такое количество достойных экспертов. Это одна из главных причин, что на страницы изданий проникает все больше сомнительных публикаций.

Решить эту острейшую проблему берется искусственный интеллект, в частности, модель ChatGPT, основанная на архитектуре GPT-4. В эксперименте ему доверили рецензирование около 3000 статей для самого престижного журнала Nature, а также 1 700 статей для журнала ICLR. Результаты сравнили с отзывами экспертов.

Совпадение мнений машины и человека удивили самих исследователей. В отзывах для журнала Nature нейросеть более чем в половине случаев сделала те же замечания, что и эксперты. А в случае статей для журнала ICLR совпадение достигло 77%.

Более того, ИИ сумел проанализировать статьи в их "сыром" виде, без предварительной обработки. Особое внимание он уделил оценке четырех основных критериев: новизна работы; выявление элементов, которые оправдывают ее принятие; распознавание причин для ее отклонения; рекомендации по улучшению статьи.

Конечно, эти, прямо скажем, сенсационные возможности нейросетей широко обсуждались в научном сообществе. С одной стороны, около 82% опрошенных специалистов удовлетворены рецензиями машины. Более того, в ряде случаев они превосходили по качеству некоторые отзывы экспертов. Но с другой стороны у этой технологии пока есть серьезные ограничения. Она умеет анализировать и давать отзывы, но ей не хватает глубины понимания, необходимой для рассмотрения конкретных технических аспектов, а также интуиции и специальных знаний, которыми обладает эксперт. Этот нюанс понимают сами авторы исследования. Они подчеркивает важность нейросети, особенно на этапе первоначальной оценки, когда она позволяет быстро выявить различные аспекты в статье, требующие улучшения. Вывод? Применение ИИ для рецензирования, несмотря на перспективность, все еще требует корректировки, поэтому его следует рассматривать как дополнение, а не замену человеческого опыта. Синергия между этими двумя вариантами оценки может привести к более надежному и эффективному рецензированию.