Gemini - это начало нового этапа в развитии ИИ компанией, поскольку система окажет влияние почти на все продукты Google. Более того, на сегодняшний день именно Gemini представляет собой самую мощную и универсальную ИИ-модель когда-либо созданную в Google, рассказал гендиректор корпорации Сундар Пичаи.
Gemini - мультимодальная модель, которая умеет одновременно понимать, обобщать, комбинировать и оперировать разными типами информации, в том числе изображениями и текстами. Так, Gemini способна извлекать данные из сотен тысяч документов.
"Потенциально это действительно открывает широчайшие возможности. Еще очень важно, что Google будет встраивать ее во всю свою экосистему: в Android, сервисы для бизнеса и пользователей, и пр. То есть для клиентов Google это будет, по сути, бесшовная интеграция ИИ со всеми приложениями", - говорит генеральный директор коммуникационного агентства iTrend Павел Житнюк. Он также отмечает, что с точки зрения маркетинга это очень серьезный вызов для всех конкурентов на этом поле.
Разработчики научили модель отвечать на сложные вопросы, а также понимать и генерировать код на языках программирования: Python, C++, Java и Go. У Gemini есть возможность работать на оборудовании центров обработки данных и мобильных устройствах.
Реализация нового ИИ будет происходить сразу в нескольких вариантах: Gemini Nano - версия для смартфонов на базе Android, Gemini Pro - версия для широкого спектра задач, Gemini Ultra - самая мощная версия, которая будет справляться со сложными запросами.
"По метрикам Ultra версия обходит человека в одном из самых популярных бенчмарков для проверки качества языковых моделей - MMLU. Здесь следует отметить, что в сравнении участвовала модель Ultra, которая запускалась со специальным подходом промтинга модели для "включения" режима рассуждений (chain-of-thought). Итоговое значение метрики получено при построении цепочки из 32 элементов, что в целом нельзя считать равными условиями с участвующей в сравнении GPT-4", - отмечает исполнительный директор по исследованию данных, Sber AI Андрей Кузнецов. Тем не менее, по мнению эксперта, на большинстве других бенчмарков модель Ultra также превосходит GPT-4, в том числе на мультимодальных, и это достаточно впечатляющий результат несмотря на ряд дополнительных трюков, которые применялись при замерах модели.
"Такой хороший результат можно также обосновать недавним решением Google объединить исследовательские ресурсы Google Brain и DeepMind для демонстрации возможностей команды", - резюмирует Кузнецов
Если говорить о "присутствии" Gemini в продуктах Google, то в чат-боте Bard уже начала использоваться усовершенствованная версия Gemini Pro. С помощью нее, в частности, значительно улучшились навыки понимания и рассуждения системы.
По мнению руководителя, R&D-направления в компании Embedika Геннадия Штеха главное конкурентное преимущество новой модели - это интеграция с поисковым индексом. "За счет доступа к поисковым индексам Google в сгенерированном нейросетью тексте можно изучить ссылки на первоисточники, откуда модель взяла какой-либо факт или мнение. И такая прозрачность, вероятно, может стать решающим фактором в битве с OpenAI", - отмечает эксперт.
Что касается Gemini Nano, то эта модель появится в смартфоне Google Pixel 8 Pro. Таким образом, он станет первым мобильным устройством, имеющим такую технологию. Кроме того, Google планирует в ближайшие месяцы добавить поддержку Gemini в браузер Chrome, поиск, рекламу и ряд других своих сервисов.
При этом основатель компании "РОББО" Павел Фролов предостерегает от завышенных ожиданий: "Так как поработать с нейросетью будет возможно только с 13 декабря, то пока непонятно насколько она будет качественно и быстро работать, какие языки она будет поддерживать, будет ли в ней цензура, насколько сильно упадет уровень нейросети, после погружения в бытовые вопросы и массовое пользование. А это одно из самых важных сейчас требований, ответы на которые мы получим не раньше середины декабря".
С ним согласен и Геннадий Штех: "Google заявляет, что их продукт превосходит другие специализированные решения: лучше распознает речь, лучше понимает картинки, лучше читает тексты, но на практике пока что это нельзя проверить, так как компания еще не открыла доступ к Gemini".