Разработчики активно используют для обучения ИИ данные пользователей без их согласия

Так, восемь американских изданий, в том числе New York Daily News и Denver Post, подали в суд на Microsoft и OpenAI. Они утверждают, что IT-гиганты похитили миллионы их статей, которые защищены авторским правом, без соответствующего разрешения и оплаты, пишет Axios со ссылкой на судебный документ.

Подобные претензии также высказала Американская гильдия авторов и 17 писателей. В сентябре 2023 года они подали групповой иск против OpenAI, якобы использовавшей их книги для обучения ИИ. Позднее, в январе этого года, уже художники обратились в суд, обвинив в аналогичных нарушениях генераторы изображений Midjourney, Stability AI и DeviantArt.

Проблема не обошла стороной и Россию: здесь существуют облачные сервисы, которые помогают организациям извлекать данные из документов, включая паспорта, водительские удостоверения и внутреннюю документацию компаний. При этом некоторые сервисы не скрывают того, что применяют полученные данные в обучении своих нейросетей. В результате уже обычный пользователь, а не крупное медиа, может стать жертвой пиратского метода обучения ИИ, даже не догадываясь об этом.

"Во время условного распознавания документов случаются ситуации, когда ИИ не может правильно разобрать отдельные цифры или слова или просто найти документ на изображении, например, из-за плохого освещения или иных обстоятельств. Сервисы утверждают, что в этом случае они направляют фрагменты документов на краудсорсинговую платформу, где операторы проверяют работу ИИ и в ряде случаев фактически делают за него работу, набирая текст с присланной им фотографии или скана документа", - объяснил руководитель практики "Медиаправо" юридической фирмы Intellect, эксперт Центра компетенций по направлению "Персональные данные" Роскомнадзора по УрФО и эксперт рабочей группы от делового сообщества по рекламе Аналитического центра при Правительстве РФ Михаил Хохолков.

Такой подход называется human-in-the-loop (HITL). По словам его сторонников, благодаря участию людей минимизируется риск ошибок. При этом оператором-краудсорсером может стать буквально любой человек - для этого достаточно зарегистрироваться в сервисе, добавил собеседник.

Он также подчеркнул, что обычному пользователю будет сложно узнать, используются ли его чувствительные данные для обучения или дообучения нейросетей, поскольку разработчики стараются скрыть это в целях сохранения авторитета своей компании.

"В настоящее время в согласиях на передачу и обработку персональных данных эта деятельность не регулируется. И пока все происходит по принципу: что не запрещено, то разрешено, не пойман - не вор", - сказал Хохолков.

Последствия того, что человек стал жертвой разработчиков нейросетей, могут быть разными: к примеру, фотографии из соцсетей могут применяться для создания поддельных изображений с компрометирующим контентом, а использование необезличенных финансовых данных человека ведет к раскрытию банковской тайны, отметил кандидат технических наук и директор направления экспертизы платформы Сфера Дмитрий Чувиков.

"Чтобы обезопасить себя, обычный пользователь должен быть осведомлен о принципах работы нейросетей и их применении, а также соблюдать правила безопасности при использовании таких технологий", - уверен он.

Так, в первую очередь следует обучаться в части права в цифровой сфере для умения защищать свои интересы и принимать обоснованные, быть внимательным при предоставлении личной информации, изучать политику конфиденциальности и использования данных при регистрации на новых платформах и регулярно проверять настройки конфиденциальности на всех используемых сервисах.

Также необходимо быть осмотрительным при заключении договоров: внимательно читать, каким организациям и зачем передаются данные, напомнил Хохолков.

"Если этой информации в согласии нет или она вызывает вопросы, то, если вы бережно относитесь к своим данным, стоит задуматься, подписывать что-то в этот момент или лучше отказаться", - посоветовал он.