В 2024 году российские AI-компании будут активно изучать мультимодальность в больших языковых моделях

Согласно данным Bloomberg, 6,6 трлн долларов принесет повышение производительности, поскольку предприятия уже сейчас активно автоматизируют процессы и "нанимают" ИИ на рабочие должности, а 9,1 трлн долларов - другие эффекты потребления, когда пользователи приобретают персонализированные и другие подобные продукты.

В связи с такой динамикой изучение возможностей этих технологий происходит не только в академической среде, но и в AI-компаниях. Основным вопросом здесь является поиск способов сокращения размеров больших языковых моделей (LLM) с сохранением их качества и эффективности, сказала управляющий директор практики "Данные и прикладной ИИ" Axenix Лариса Малькова.

"Идет борьба за то, чтобы такие модели для своей работы требовали меньших объемов данных и, как следствие, меньших вычислительных мощностей", - объяснила она.

По ее словам, пока финансовые вложения в их создание довольно высокие. Более того, увеличение размера моделей уже не дает качественного скачка.

"Существует кривая насыщения, когда мы упираемся в предельную полезность с ростом сложности модели. Решение проблемы видится в создании Domain-Specific моделей", - уверена эксперт.

Так, например, в апреле прошлого года специалисты Smart Engines представили новый понейронный подход к обучению квантованных нейронных сетей малых разрядностей. Эти сети работают в несколько раз быстрее классических аналогов, а подход, предложенный сотрудниками, позволяет добиться того же качества, что и более сложные методы.

Еще одна разработка - это универсальная архитектура для робастной оценки гипотез Parallel Efficient Sample Consensus. Она позволяет реализовать широкий класс современных алгоритмов, а также ускорить локализацию и прослеживание документов в 2-3 раза на центральных процессорах с помощью эффективной организации данных и параллельной обработки.

Специалисты также представили работу, которая посвящена быстрой детекции машиночитаемой зоны (MRZ), необходимой для распознавания документов на смартфонах. В ее основу легла авторская архитектура нейросети, которая, например, на iPhone SE находит MRZ всего за 16 миллисекунд.

Кроме того, значительные улучшения в архитектурном проектировании и конвейерах обучения, проведенные специалистами Яндекса, позволили компьютерному зрению добиться прогресса с точки зрения точности классических тестов.

"Эти высокоточные модели сложно развернуть, поскольку их сложнее сжать с помощью стандартных методов, таких как сокращение. Мы решаем эту проблему, представляя Correlation Aware Pruner (CAP), новую неструктурированную структуру обрезки, которая значительно расширяет пределы сжимаемости для современных архитектур", - говорится в исследовании.

Что касается тем, которые будут изучаться компаниями в текущем году, то главными останутся такие тренды, как методика Domain-SpecificModeling и мультимодальность в больших языковых моделях, считает Малькова.

По мнению основателя и продюсера "РОББО" Павла Фролова, научное сообщество, в частности, займется изучением ускорения ИИ с помощью квантовых вычислений. При таких вычислениях используются кубиты, которые способны одновременно существовать в нескольких состояниях и обрабатывать большое количество информации в несколько раз быстрее, что ускоряет обучение нейросетей в десятки раз.

"Благодаря квантовым вычислениям ИИ сможет, в частности, решать задачи, которые ранее считались нерешаемыми, создавать новые материалы с желаемыми свойствами и проводить более быстрое и точное медицинское диагностирование", - подчеркнул собеседник.

Как считает профессор Сколтеха и гендиректор Института AIRI Иван Оселедец, в ближайшем будущем исследователи особое внимание уделят трем направлениям: генеративным моделям в промышленности, более эффективным методам обучения моделей и новым архитектурам - в первую очередь мультимодальным и мультиагентным.

"Следует ожидать ряд работ в области математики ИИ: на данный момент, нормального теоретического обоснования многим феноменам нет", - добавил он.