Яндекс выложил крупнейший датасет для общего доступа: зачем и для чего это нужно

Российские IT-компании стали все чаще делиться большими данными для улучшения отечественных решений. Недавно "Яндекс" выложил крупнейший датасет для развития онлайн-рекомендаций. По мнению экспертов, такая практика дает возможность молодым разработчикам быстрее обучать ИИ-модели и улучшать российские сервисы.

Сегодня качественные датасеты позволяют IT-специалистам обучать и тестировать модели в максимально приближенных к реальности условиям. Это ускоряет научные и прикладные исследования, снижает зависимость от зарубежных решений и напрямую влияет на темпы развития отечественных IT-продуктов.

"Надеюсь, что первыми, кто применит датасет от "Яндекса" для совершенствования своих рекомендательных алгоритмов, станут отечественные видеохостинги: запрос их пользователей на качественные рекомендации по-прежнему очень высокий. Но и другим российским цифровым платформам нужно в обязательном порядке обратить внимание на эту возможность", - отмечает депутат Госдумы Антон Горелкин.

В пресс-службе Ассоциации больших данных рассказали, что повышение технологического суверенитета в области ИИ начинается именно с данных. "Яндекс" выложил в открытый доступ детализированные анонимные данные о прослушивании музыки пользователями, что дает возможность тестировать рекомендательные алгоритмы на массиве реального пользовательского поведения. Потенциал таких данных выходит за пределы музыкальных сервисов: они могут быть использованы в ритейле, медиа и других отраслях.

"Публикация таких датасетов в открытый доступ возможна не всегда - из-за рисков, связанных с высокой сложностью их полного обезличивания. В этом контексте большую ценность приобретают синтетические данные. Они позволяют моделировать реальные процессы без рисков для конфиденциальности и ограничений, связанных с доступом к персональной или корпоративной информации", - поделились в пресс-службе.

Появление большого количества открытых данных может быть полезным в разных отраслях, в том числе в торговле и медиа

Евгений Фролов, руководитель научной группы "Технологии персонализации" института AIRI, рассказал, что в разработке рекомендательных систем критически важна возможность предварительного тестирования различных гипотез, моделей и алгоритмов. Наиболее информативный метод такого тестирования - А/Б-тесты, когда несколько алгоритмов запускаются в продакшен.

Проведение таких тестов требует привлечения большого числа экспертов и занимает недели, поэтому широко применяются альтернативные подходы, основанные на использовании исторических данных - заранее подготовленных датасетов с паттернами пользовательского поведения.

В мире существует очень много таких наборов данных, но многие из них устаревшие - общедоступные датасеты, ранее собранные энтузиастами или компаниями, отражают пользовательское поведение прошлого - некоторым из них уже десять или даже двадцать лет, добавляет Фролов.

"Современный ИИ требует больших и качественных корпусов данных. Крупные игроки обладают ими, но у сообщества исследователей редко есть к ним доступ. Хорошие открытые датасеты всегда на вес золота - они позволяют не только обучать более умные ИИ-модели, но и развивать сами алгоритмы обучения, так как их нужно на чем-то проверять и изучать. От этого выигрывают все, в том числе и сами обладатели датасета", - объясняет научный сотрудник Центра когнитивного моделирования Института ИИ МФТИ Петр Кудеров.

Появление большого количества открытых данных - открытых решений и моделей на их основе - создает более равные и конкурентные условия в отрасли, что стимулирует ее развитие.

Кудеров добавляет, что основное преимущество открытых наборов данных - возможность их использования. Начинающий разработчик может поработать над интересной ему задачей и получить опыт. После этого он может выложить свое решение в открытый доступ и значительно улучшить свое резюме.

"Публикация больших датасетов может стать катализатором для прогресса в разработке рекомендательных систем. В последние годы они вышли на плато по сравнению с более быстроразвивающимся технологическими областями - такими как LLM. Качество и масштаб обучающих данных напрямую влияют на релевантность рекомендаций для пользователей стриминговых сервисов, соцсетей, платформ коротких видео, маркетплейсов", - рассказал руководитель направления по развитию качества персонализации в "Яндексе" Александр Плошкин.

По его мнению, компании публикуют наборы данных, чтобы способствовать развитию экосистемы вокруг технологий и стимулировать инновации в отрасли, позволяя вузам, исследователям и разработчикам экспериментировать с новыми подходами, от чего в конечном счете зависит развитие бизнеса.