Яндекс разработал библиотеку, позволяющую обучать нейросети с наименьшими затратами

Яндекс разработал и открыл для всех библиотеку YaFSDP. По словам специалистов компании, она позволяет значительно ускорить обучение больших языковых моделей. Новая разработка ускоряет обучение нейросетей до 25% - результат зависит от архитектуры и параметров конкретной модели. YaFSDP также позволяет расходовать до 20% меньше ресурсов графических процессоров (GPU), необходимых для обучения.

YaFSDP оптимизирует использование вычислительных мощностей процессоров на всех этапах обучения модели - это особенно важно для стартапов и, например, научных проектов.

Яндекс разработал YaFSDP для обучения своей генеративной модели нового поколения YandexGPT 3. Однако компания уже протестировала библиотеку на сторонних нейросетях с открытым исходным кодом и обнаружила, что она позволяет значительно сократить время обучения. Например, если бы YaFSDP использовалась для модели LLaMA 2, то этап предварительного обучения сократился бы с 66 до 53 дней.

Библиотека также применима для нейросетей, генерирующих изображения.