Прежде чем перейти к обсуждению собственно ИИ-агентов, мне кажется полезным оглянуться на историю развития Интернета
В свои ранние (1990-е и 2000-е) годы интернет представлялся пользователям, да и создавался, как исключительно информационная среда. Тогда бытовала метафора Интернета как "информационной супермагистрали", а в России символом и смыслом интернета для многих пользователей был "Живой Журнал" - сервис для публикации и комментирования пользовательских текстов, иногда немного приправленных картинками. Интернет воспринимался в первую очередь как новое технологичное медиа, и его влияние на жизнь людей тоже было в первую очередь медийным.
В начале 2010-х годов синхронно произошли два важных технологических прорыва. Во-первых, благодаря переходу сотовых сетей на стандарт 3G и массовому выпуску смартфонов, поддерживающих этот стандарт, устройства с доступом в Интернет оказались в карманах - а не только на столах - у большого процента населения. Во-вторых, в этих смартфонах впервые появились модули GPS, позволявшие локализовать положение смартфона в физическом мире. Результатом стало появление у Интернета новой, прежде технически невозможной, роли: смартфоны стали не просто мобильным терминалом для доступа к информации; они начали превращаться в пульты дистанционного управления реальностью.
В качестве примера кейс с такси. Со дня своего рождения и до 2011 года Яндекс в ответ на достаточно мощный поток поисковых запросов со словом "такси" был способен отвечать лишь ссылками на сайты таксопарков или служб вызова такси, оказывая классическую информационную услугу людям, которые в действительности нуждались в услуге транспортной. При этом создатели поисковика прекрасно осознавали, что людям нужна не просто информация, им необходимо действие: чтобы приехала машина и отвезла куда надо. Но, увы, такой операционный ответ был технически нереализуем. В 2011-ом, благодаря смартфонам с GPS, стал возможен - и был реализован совместно с перевозчиками - именно операционный ответ на запрос пользователя: он теперь мог воспользоваться сервисом "Такси". Сценарий решения задачи радикально изменился: вместо перехода со страницы результатов поиска на сайт таксопарка, чтобы найти на нем телефон, позвонить и голосом вызвать машину, человек мог открыть приложение, указать точки посадки и назначения и нажать кнопку заказа. Благодаря кооперации интернет-сервиса с оффлайн-партнерами пользователь получал вполне осязаемую транспортную услугу в физическом мире; в компании тогда любили говорить, что "интернет начал прорастать в офлайн".
Дальнейшее развитие Интернета, рост его влияния на экономику и повседневную жизнь стали определяться именно возможностями решения разнообразных практических задач окружающего мира средствами цифровых технологий. В нашу жизнь вошли маркетплейсы, сервисы доставки, стриминг контента, райд-шеринг всех сортов и т.д. - услуги в окружающем нас мире, не сводящиеся к обмену информацией и в то же время невозможные без Интернета. Информационные технологии и в промышленности тоже все больше интегрировались в операционные процессы.
Кратко изложенная выше история "прорастания интернета в офлайн" кажется мне очень важным уроком, который позволяет не только лучше понять происходящее сейчас вокруг технологий искусственного интеллекта, но и оценить значимость появления рядом с умными чат-ботами ИИ-агентов, которых не случайно все чаще называют цифровыми сотрудниками. Три года назад пользователи интернета получили массовый доступ к генеративным моделям через интерфейс привычных и всем понятных чатов, аудитория таких сервисов в мире сейчас приближается к миллиарду человек. В результате сформировалось популярное и глубоко ошибочное мнение, что ИИ - это просто новый способ работать с контентом, с информацией в ответ на запросы пользователей. Как и во времена раннего Интернета и "Живого журнала", такой взгляд некоторое время был вполне адекватен, но уже в 2025 мы начали уверенно переходить к той стадии развития ИИ-технологий, когда они напрямую начинают влиять на процессы в окружающем мире, можно сказать, что для ИИ наступил "такси"-момент, описанный выше. Ключевую роль в освоении задач реального мира играют как раз ИИ-агенты.
ИИ-агент в современном понимании термина - это основанная на моделях искусственного интеллекта (не только языковых, и часто на целом их ансамбле) умная система, которая понимает поставленную ей человеком цель, самостоятельно планирует шаги для ее достижения и с помощью доступных инструментов выполняет действия в окружающем мире (цифровом или физическом), а не просто отвечает на конкретный запрос. ИИ-агент обладает высокой степенью автономности (которой начисто лишены ставшие уже привычными ИИ-ассистенты) и способностью рассуждать. В отличие от привычного чат-бота, он не только генерирует контент, но и самостоятельно инициирует цепочку действий, сам этими действиями управляет, умеет продолжать работу по задаче, подстраиваться под новые данные и доводить дело до осязаемого результата. Он ведет себя как сотрудник, исполняющий конкретную роль в каком-то бизнес-процессе (проводит исследования, пишет код, бронирует столики в ресторане и т.д.).
В какой-то степени предшественником современных ИИ-агентов можно считать, например, знакомых жителям Москвы, Мурино или Иннополиса шестиколесных роботов-доставщиков (роверов), успешно перевозящих заказы по городским тротуарам в автономном режиме. Для того, чтобы привезти заказ, ровер должен самостоятельно проложить маршрут, а в процессе движения по нему регулярно принимать решения и совершать действия, связанные с заранее неизвестной окружающей средой: пешеходами, перекрестками, сигналами светофоров и т.д. От современных ИИ-агентов ровер, однако, принципиально отличается тем, что его агентность, самостоятельность ограничена одной-единственной узкой задачей: доставкой товара из одной точкой в другую. Ровер не умеет понимать и интерпретировать команды, а именно это умение, как и способность поддерживать диалог с человеком по ходу выполнения многоходовой задачи, является важнейшей для современных ИИ-агентов. Именно она позволяет искусственному интеллекту "прорастать в офлайн".
Современные ИИ-агенты многолики, но мне хочется выделить три важных их класса. Во-первых, это агенты, которые умеют пользоваться браузером, точнее - сайтами, через браузер доступными. Цель развития таких агентов - сделать их способными решать любую задачу, которую может решить человек, если его посадить за компьютер с доступом в интернет и установленным браузером. Как учит нас собственный опыт, круг таких задач весьма широк, поскольку браузер служит универсальным пользовательским интерфейсом к многообразию как информационных, так и вполне операционных сервисов: с его помощью можно и почту почитать, и товар домой заказать, и кино посмотреть, и многие рабочие задачи решить. Так что пока мы не построили для ИИ-агентов отдельный интернет, полезно научить их работать с сайтами, созданными для людей.
Путем интеграции ИИ-агентов в свой продукт идут все разработчики браузеров; создатели Яндекс Браузера не исключение; еще летом прошлого года было объявлено о начале тестирования агентских сценариев в браузере с помощью Алисы. Эти сценарии охватывают довольно широкий круг задач, от регулярных закупок продуктов до аналитики новостей или составления маршрута автопутешествия на основе сформулированных пожеланий. Пока способности ИИ-агентов в любом браузере еще сильно ограничены, мы в самом начале этого многообещающего пути. И, конечно же, универсальные агенты разрабатываются не только для браузеров; примером такого отдельного агента служит GigaAgent на основе GigaChat от Сбера.
Второй класс агентов узко специализирован, но в нашем мире, где информационные технологии вездесущи, его важность и трансформационный потенциал могут оказаться повыше, чем у агентов на все руки. Речь идет об агентах, способных решать задачи из области разработки программного обеспечения. Относительно компактные команды людей, умеющих управлять ансамблями агентов, которые пишут код, тестируют его и в итоге превращают в готовые программы и продукты способны увеличить и без того немалые темпы цифровизации всего нашего окружения. Сейчас уже существуют и активно используются приложения, написанные агентами под руководством одного опытного программиста за несколько дней. Особняком стоит задача ускорения развития самих моделей искусственного интеллекта: модель, которая пишет код следующей версии себя, уже не фантастика. Неудивительно, что среди глобальных разработчиков моделей для программистов сейчас существует жесткая конкуренция: рынок разработки софта велик и его роль в развитии экономик колоссальна. Как это часто бывает с ИИ-продуктами, пока явный лидер не определился.
И, наконец, третий класс агентов тоже специфичен: он предназначен для работы вместе с учеными в исследовательских центрах и лабораториях. Наш мир очень наукоемок; прогресс и в экономике, и в качестве жизни сильно зависит от научных разработок. Здесь влияние ИИ-агентов на жизнь опосредовано, но оно от этого не становится слабее. Достаточно упомянуть новые лекарства и новые материалы - в этих областях не столь давно появившиеся ИИ-агенты уже привели к появлению новинок, явным образом влияющих на вполне материальную сторону нашей жизни.
Выше я уже использовал сравнение ИИ-агентов с сотрудниками. Это не случайно: переход от метафоры "цифровой инструмент" к метафоре "цифровой сотрудник" для описания возможностей ИИ в последние несколько месяцев происходит во всем мире. Ведь странно и явно неверно называть инструментом нечто, что понимает цель, самостоятельно выбирает последовательность ведущих к ней шагов и действует через инструменты (API, роботы, внешние сервисы), а не ограничивается одной ответной репликой.
Любая метафора, однако, всегда неполна и слишком буквально ее воспринимать вредно и опасно. ИИ-агенты действительно уже способны исполнять роли, которые мы привыкли отводить людям, будь то исследование какой-то предметной области с последующим написанием отчета или создание нового мобильного приложения. Но в любой реальной организации сотрудники - это далеко не просто роли, а коллектив - куда сложнее, чем просто совокупность ролей. Поэтому нам еще предстоит научиться правильно выстраивать структуры и отношения в гибридных командах, где вместе работают люди и ИИ-агенты. И лучше бы нам побыстрее научиться этой новой коллаборации.