Решить эту острейшую проблему берется искусственный интеллект, в частности, модель ChatGPT, основанная на архитектуре GPT-4. В эксперименте ему доверили рецензирование около 3000 статей для самого престижного журнала Nature, а также 1 700 статей для журнала ICLR. Результаты сравнили с отзывами экспертов.
Совпадение мнений машины и человека удивили самих исследователей. В отзывах для журнала Nature нейросеть более чем в половине случаев сделала те же замечания, что и эксперты. А в случае статей для журнала ICLR совпадение достигло 77%.
Более того, ИИ сумел проанализировать статьи в их "сыром" виде, без предварительной обработки. Особое внимание он уделил оценке четырех основных критериев: новизна работы; выявление элементов, которые оправдывают ее принятие; распознавание причин для ее отклонения; рекомендации по улучшению статьи.
Конечно, эти, прямо скажем, сенсационные возможности нейросетей широко обсуждались в научном сообществе. С одной стороны, около 82% опрошенных специалистов удовлетворены рецензиями машины. Более того, в ряде случаев они превосходили по качеству некоторые отзывы экспертов. Но с другой стороны у этой технологии пока есть серьезные ограничения. Она умеет анализировать и давать отзывы, но ей не хватает глубины понимания, необходимой для рассмотрения конкретных технических аспектов, а также интуиции и специальных знаний, которыми обладает эксперт. Этот нюанс понимают сами авторы исследования. Они подчеркивает важность нейросети, особенно на этапе первоначальной оценки, когда она позволяет быстро выявить различные аспекты в статье, требующие улучшения. Вывод? Применение ИИ для рецензирования, несмотря на перспективность, все еще требует корректировки, поэтому его следует рассматривать как дополнение, а не замену человеческого опыта. Синергия между этими двумя вариантами оценки может привести к более надежному и эффективному рецензированию.