Целью этой работы стала защита таких систем от хакеров, которые заставляют нейросети генерировать "вредный" контент. Подобные нападения называются джейлбрейк-атаками. Они обходят ограничения, которые разработчики закладывают в искусственный интеллект, после чего заставляют его предоставлять оскорбительную или противозаконную информацию. Об этом говорится в научном журнале Nature Machine Intelligence.
"ChatGPT - это социально значимый инструмент искусственного интеллекта, имеющий миллионы пользователей. Однако появление джейлбрейк-атак серьезно угрожает его ответственному и безопасному использованию", - утверждают эксперты.
Для того, чтобы "исправить" чат-бот, специалисты разработали метод, который похож на существующий в психологии способ самонапоминания. Он, например, помогает людям вспомнить о своих задачах и планах. Аналогичный подход ученые использовали и в отношении ChatGPT - они напомнили ему, что его ответы должны соответствовать определенным правилам.
"Этот метод инкапсулирует запрос пользователя внутри системной подсказки, которая напоминает ChatGPT о необходимости ответить ответственно", - объяснили исследователи.
Как итог, самонапоминание позволило снизить вероятность успеха джейлбрейк-атак на систему с 67,21% до 19,34%.
Ранее сообщалось, что нейросети стали чаще создавать фейковые тексты.