В России нашли способ дешевле и быстрее обучать нейросети рассуждать

Исследователи из T-Bank AI Research совместно с Центральным университетом разработали новый метод обучения больших языковых моделей, который позволяет развивать у них способность к логическим рассуждениям без традиционных дорогостоящих подходов. Разработка была представлена на одной из ведущих международных конференций в области ИИ по эмпирическим методам обработки естественного языка (EMNLP 2025).

В материалах к разработке, с которыми ознакомилась "РГ", отмечается, что кроме снижения стоимости метод также проясняет механизм, за счет которого модели осваивают навыки рассуждений. В частности, он позволит создавать рассуждающие модели не только для крупных IT-корпораций, но и для университетских лабораторий и небольших компаний.

Как пояснили "РГ" в T-Bank AI Research, чтобы развить или улучшить рассуждения у больших языковых моделей, применяется обучение с подкреплением (reinforcement learning). Для этого корректируют миллиарды параметров - компонентов модели, в которых "хранятся" знания и правила ее работы, - что занимает большое количество памяти и требует значительных финансовых и технических ресурсов.

Команда исследователей предложила альтернативу: вместо переписывания "мозга" модели они добавляют векторы-настройки - компактные подсказки, которые усиливают правильные логические шаги предобученной модели. Векторы действуют как регуляторы громкости: модель уже умеет рассуждать, а векторы-настройки позволяют сделать "громче" правильные логические шаги.

"Представьте чат-бота, который помогает ребенку решать задачи по математике. Он знает формулы, но иногда путается и перескакивает через шаги. Благодаря обучению с подкреплением бот начинает рассуждать последовательно: ищет ошибки в предыдущих решениях, проверяет промежуточные вычисления и в итоге дает правильное решение.

Наш метод показывает, что обучать модели рассуждать можно без изменения миллионов параметров. Это открывает новый этап в развитии доступного искусственного интеллекта для бизнеса", - говорит Вячеслав Синий, исследователь научной группы AI Alignment лаборатории исследований искусственного интеллекта T-Bank AI Research.

Метод подтвердил результативность на шести мировых бенчмарках по математическому рассуждению, показав сохранение качества до 100%. В частности, у модели Qwen2.5-14B steering vectors показали качество, сравнимое с RL-обучением, при этом изменили лишь 0,0016% параметров. 100% качества полного дообучения удалось восстановить на моделях Qwen2.5-1.5B, Qwen2.5-7B, Qwen2.5-14B, Qwen2.5-Math-1.5B, Qwen2.5-Math-7B и LLaMa3.1-8B-It.

Для формирования математического рассуждения в LLM, обучающие выборки должны содержать поэтапные решения задач, поясняет Ярослав Беспалов, руководитель группы "Мультимодальные архитектуры ИИ" лаборатории "Сильный ИИ в медицине" Института AIRI.

По словам эксперта, речь может идти, например, о доказательствах теорем, где каждый шаг четко прописан. Модель обучается воспроизводить такие развернутые пошаговые решения. Этот принцип применим и к другим областям, например, в медицине, где требуются клинические рассуждения.

"Основная сложность такого подхода в крайне высоких вычислительных затратах на дообучение всей большой языковой модели. Это требует мощных ресурсов. Но вместо полного дообучения всей модели, можно обучать лишь ее определенные компоненты или "прибавки". Существует множество таких подходов, например, LoRA. Аналогично компания Anthropic разрабатывала методы, позволяющие дообучать специфические слои модели, которые отвечали за конкретную задачу. Это снижает требования к вычислительным ресурсам и позволяет проводить дообучение даже на небольших серверах. Хотя данный подход не уникален, он демонстрирует свою эффективность для обучения LLM на задачах рассуждения", - пояснил Беспалов.

Ранее Авито выпустил в открытый доступ ИИ-модели для электронной коммерции. Речь идет о текстовой A-Vibe и мультимодальной A-Vision. Созданы они на базе уже упомянутых открытых моделей Qwen3 и Qwen2.5-VL с 8 млрд параметров. Как ожидается, в результате бизнес и энтузиасты смогут получить готовые инструменты для анализа документов, автоматизации контента и создания ИИ-ассистентов, сокращая затраты на запуск и работу моделей до 50% в сравнении с другими опенсорс-нейросетями.