Год назад абсолютно все считали, что единственный лидер в области генеративных моделей - это компания OpenAI. Она действительно с огромным отрывом доминировала. Однако сейчас ситуация стремительно меняется: на арену выходит DeepSeek. Компания не только догоняет лидера, но и выкладывает свои разработки в Open Source под полностью открытой лицензией с возможностью коммерческого использования.
За короткий промежуток времени они сделали два значимых релиза, которые привлекли внимание индустрии. Первый - это базовая модель с колоссальным масштабом: 650 миллиардов параметров и хорошим качеством работы. Она стала основой для их второго релиза - специализированной модели, разработанной для решения задач, связанных с рассуждением и построением длинных цепочек логических выводов. Эта способность играет ключевую роль во множестве продуктов и сервисов, а также значительно повышает эффективность процессов. Вместе с релизами DeepSeek также выпустила подробный технический отчёт, в котором детально объяснила, как они подошли к созданию моделей и какие технологические решения позволили добиться таких результатов.
В наши дни такая степень открытости - большая редкость. В этом отношении DeepSeek стала исключением, и это действительно впечатляет. Их технический отчёт отличается высокой степенью подробности. Конечно, это не означает, что кто угодно прямо сейчас сможет взять и полностью воспроизвести их достижения - остаётся достаточно пространства для интерпретации и творческой инфраструктурной работы. Тем не менее, подобный уровень открытости делает воспроизведение их подходов вполне возможным, что задаёт новый стандарт для индустрии.
Они также продемонстрировали, что модели такого масштаба можно обучать значительно дешевле, чем это сделали OpenAI, Google и Meta (признан экстремистской и запрещена в России). Их отчет, безусловно, станет катализатором огромного скачка в развитии базовых технологий в индустрии. Особенно важно, что такой подход позволяет не только воспроизводить их технологии, но и создавать более компактные, быстрые и эффективные модели для узкоспециализированных задач. Это открывает возможности для обучения моделей, адаптированных под конкретные применения, а также для разработки моделей, обладающих специализированными навыками, необходимыми для решения задач в разных сферах.
Мы в Яндексе внимательно следим за рынком Open Source и стараемся поддерживать это коммьюнити. Как только у нас появляются какие-то наработки, которые полезны миру, мы, конечно, их выкладываем в Open Source. Например, мы выложили фреймворк YaFSDP, который позволяет значительно ускорить фазу pre-training - одну из самых затратных стадий при создании генеративных текстовых моделей.