Красноярские ученые отучили искусственный интеллект врать

Бурное развитие искусственного интеллекта внезапно для людей уперлось в тупик: нейросети научились врать! В ответ на просьбу составить ту или иную справку по интересующему оператора явлению ИИ стал все чаще приводить недостоверные данные.

Проблема появилась из-за того, что нейросети некритично подходят к источникам информации в интернете, а написано в нем все, что душе, как говорится, угодно. В связи с этим уже не раз случались скандалы, например в прессе, когда журналисты, получив справку от ИИ, публиковали информацию без проверки, положившись на непогрешимость робота. Случается такое уже и на других направлениях, вплоть до научного.

Ученые из красноярского Университета Решетнева решили нейтрализовать проблему созданием методики, позволяющей избавить ответы нейросетей от недостоверных или совершенно выдуманных фактов. Сегодня для этого используются RAG-системы (Retrieval-Augmented Generation) - генерация с дополненной выборкой). В их рамках для нейросетей создается т.н. "база знаний" - качественные, проверенные источники, среди которых ИИ и ищет ответ для оператора. Такой подход в целом снижает риск вранья от ИИ, однако ошибки все же могут случаться из-за опечаток, противоречий в запросе или неполноты базы данных, отметили специалисты красноярского вуза.

Команда специалистов под руководством доцента кафедры систем автоматизированного и интеллектуального обеспечения Анастасии Поляковой проанализировала, в каких ситуациях ИИ чаще всего врет, и создала их классификатор. Затем была разработана автоматизированная инструкция для стресс-тестирования: согласно ей, система генерирует тестовые запросы, ответы на которые сравнивает с эталоном и оценивает точность по специальным метрикам и семантическому сходству.

Опираясь на результаты первых этапов, ученые создали прототип модуля мониторинга, который работает в режиме реального времени. Модуль записывает в журнал все входящие запросы и контекст диалога, оценивает риск выдачи недостоверного ответа и присваивает той или иной модели ИИ балл уверенности. В случае ошибки или низкой уверенности модуль подает сигнал оператору.

Отмечается, что главное достоинство методики - универсальность. Ее можно использовать и для чат-ботов, и для государственных сервисов, где работает ИИ, и в качестве помощников в любой профессиональной сфере: от медицины до юриспруденции.