Как рассказал Шадаев, ко второму чтению законопроекта согласована процедура обезличивания информации для баз данных, а также порядок формирования таких баз для машинного обучения нейросетей.
"При этом доступ внешних разработчиков к большим данным будет возможен только в случае подтверждения отсутствия в них сведений, которые позволят идентифицировать гражданина", - уточнил Шадаев.
Внешний доступ к данным также будет запрещен иностранным компаниям и компаниям с доминирующим иностранным участием. В приоритете - вопросы обеспечения защиты прав граждан при обработке больших данных и применении технологий ИИ.
Для организации работы с большими данными Минцифры создает соответствующую госинформсистему (ГИС) на базе Гостеха. В нее будут загружаться обезличенные датасеты как госорганами, так и бизнесом, доступ к которым будет предоставляться авторизованным разработчикам.
В Минцифры особо отметили, что такие обезличенные наборы данных нельзя будет из нее выгрузить и забрать. Но на них можно будет тестировать и обучать свои нейросети.
О своевременности озвученных решений говорит замглавы комитета Госдумы по информполитике Антон Горелкин.
"Все решения, которые предлагались ранее, имели критическую уязвимость: никто не мог гарантировать, что не появится технологии по извлечению из даталейков персональных данных конкретных граждан. Думаю, что поручение Президента теперь станет главным драйвером для быстрого поиска надежного инструмента: времени на раздумья больше нет", - сообщил Горелкин в своем Telegram-канале.
Предлагаемая Минцифры механика может обеспечить необходимый уровень их защищенности, говорит генеральный директор компании Digital Consulting Solutions Александр Скоморохин.
"Создание и обучение нейронных сетей требует больших объемов данных. Однако, сами данные могут содержать конфиденциальную информацию, которая должна быть защищена от утечки. Предоставление разработчикам доступа к обезличенным данным без возможности их скачивания или копирования позволяет обеспечить безопасность таких данных. Такой подход предполагает, что в системе будут облачно хранится предзагруженные датасеты, а также реализован функционал обработки, хранения и просмотра таких данных, что позволяет тестировать и настраивать алгоритмы без необходимости "трогать" датасеты вручную", - отмечает он.
Все озвученные инициативы не направлены на создание условий для оборота данных, полагают в Ассоциации Больших Данных (АБД), объединяющей крупнейших игроков на этом рынке.
"Предложения Минцифры не направлены на создание условий для оборота данных, а предусматривают передачу персональных данных, обрабатываемых участниками рынка, в одну информационную систему, что создает значительные риски для информационной безопасности и несанкционированного доступа к данным граждан", - сообщили в АБД.
Там сообщили, что к настоящему моменту процедура обезличивания данных и предоставления доступа не озвучена. Есть вопросы и к тому, сможет ли одна ГИС справиться с возлагаемыми на нее задачами.
"Подготовка наборов данных - сложный и трудоемкий процесс, требующий привлечения профильных специалистов в зависимости от области применения ИИ и конкретного кейса. Единственная ГИС не способна в должной степени обеспечить потребность разработчиков ИИ с учетом требований к наборам данных, а также необходимых вычислительных мощностей", - отметили в АБД.
В ассоциации полагают, что альтернативой созданию государственной информационной системы может стать риск-ориентированный подход, при котором участники рынка смогут самостоятельно управлять риском деобезличивания данных при их обработке, а "государство будет устанавливать требования к оценке такого риска".