Нейросеть Яндекса смогла сдать ЕГЭ для поступления в ВУЗ
Одно из направлений, благодаря которому сфера получила стремительное развитие - переход на архитектуру трансформер, блоки которой состоят из модулей внимания. На такой архитектуре построена модель GPT (Generative Pre-trained Transformer - генеративный предварительно обученный трансформер). Нейросеть развивается за счет обучения со стороны пользователей и именно поэтому она может показывать такие результаты при сдаче, например, тестов ЕГЭ, отмечают эксперты.
С начала 2023 года рынок образования всколыхнули новости о том, что нейросети начали использоваться для того, чтобы готовиться к экзаменах и даже сдавать их. Так, чат-бот на базе искусственного интеллекта ChatGPT сдал экзамены по праву на четырех курсах Университета Миннесоты и экзамен по бизнес-менеджменту в Уортонской школе бизнеса при Пенсильванском университете.
Позднее нейросети Chat GPT и Sage сдали экзамен по истории в Уральском федеральном университете и получили оценку "тройка". Появлялись сообщения и том, что отдельные студенты в частном порядке использовали чат-боты для сдачи экзаменов, что называется, в "боевом режиме". Параллельно появились сообщения о том, что чат-боты можно научить оценивать сданное ЕГЭ и выставлять оценки за другие аттестационные экзамены, минимизировав тем самым человеческий фактор.
Собственно сдача ЕГЭ нейросетью в комплексе оставалась последней красной линией. Преодолеть ее удалось разработчикам Яндекса. Нейросеть YandexGPT 2 набрала на ЕГЭ по литературе балл, необходимый для поступления в вуз. Это первый случай в России, когда генеративная нейросеть сдала единый госэкзамен, выполнив все его задания, включая творческое.
Пройти ЕГЭ по литературе - сложная задача для алгоритмов. Он проверяет знания сразу с нескольких сторон: там есть задания для оценки эрудиции, стиля письма и творческих способностей. YandexGPT 2 решила обе части экзамена. В первой она анализировала произведение и отвечала на вопросы о нем, во второй - писала сочинение на заданную тему.
В результате нейросеть приблизились к среднему баллу по этому предмету среди российских школьников (63 по итогам 2022 года), которые выбирают литературу и специально готовятся к экзамену. Она также преодолела минимальный порог, необходимый для поступления в ВУЗ - 40 баллов. Ее усредненная оценка составила 55 баллов.
"Стандартным тестом для оценки эрудиции языковых моделей в мире считается MMLU: он включает вопросы разной степени сложности из 57 областей знания. Так можно объективно сравнить несколько нейросетей, но нельзя оценить качество их ответов на открытые или творческие вопросы. Именно поэтому мы предложили YandexGPT 2 сдать ЕГЭ по литературе. Его задания тесно связаны с текстом, языком и пониманием культурного контекста", - говорит Алексей Гусаков, технический директор Поиска Яндекса.
Особое внимание при разработке датасета уделялось тому, чтобы применявшаяся для обучения YandexGPT база данных не содержала ответов на вопросы экзамена. Для этого разработчики получили официальные варианты ЕГЭ по литературе за 2021-2023 годы от Московского центра непрерывного математического образования и провели сравнительный анализ.
"Нейросеть решала задания практически так же, как это делал бы любой школьник: генерировала ответы на открытые вопросы и выбирала один или несколько вариантов из предложенных, если они были. После этого решения языковой модели внесли в бланки и отправили на проверку официальным экспертам ЕГЭ по литературе", - говорят в Яндексе.
ЕГЭ для YandexGPT 2 - это своего рода выпускной экзамен для российской нейросети, говорит Алина Кочетова, промпт-инженер "Михайлов и Партнёры", автор Telegram-канала "Это не я, это нейросеть!"
"Такие задачи на порядок сложнее классических промпт-запросов: задания в ЕГЭ составлены так, чтобы проверить уровень реальных знаний и владения материалом. Так что полученный высокий балл говорит о качестве модели Яндекса: им удалось быстро обучить нейросеть, правильно интерпретировать задания и дать верные ответы. Вообще очень полезно проводить подобные тестирования и испытания ИИ, ведь они мотивируют разработчиков брать новую и новую планку и наглядно показывают скорость развития технологий", - отмечает Кочетова.
В этой связи в более заметно встает вопрос, является ли достижение разработчиков вызовом для системы образования и нужно ли в связи с этим корректировать подходы к оценке знаний.
Ничего принципиально нового не случилось, но вероятно придется перепридумать некоторые задания, говорит Евгений Соколов, руководитель департамента больших данных и информационного поиска, факультет компьютерных наук НИУ ВШЭ.
"В университете, когда учишься на математической или технической специальности, обязательно есть курс линейной алгебры. И всегда студенты на семинарах на этом курсе считают обратные матрицы. Полезно пару раз эту задачу решить "руками", но в дальнейшей жизни никто так не делает. Я включаю компьютер, открываю систему компьютерной алгебры и там все автоматически считается. И это мне никак не мешает развиваться, не делает меня глупым", - говорит Соколов.
Помимо вызовов Соколов видит и возможности для развития образовательного процесса. "Мы наблюдаем появление нового инструмента, которым нужно учиться пользоваться, к которому нужно адаптировать систему образования, но в целом, безусловно, это будет на пользу. Это прогресс, которого ни в коем случае нельзя избегать", - говорит он. "Да, может быть, будет проще писать сочинение, но это означает, что нам нужно просто перепридумать эти задания. Сочинение - это ведь в первую очередь про то, чтобы школьник высказал свое мнение, отозвался о какой-то проблеме, порассуждал. Наверное, мы немножко отошли от этой концепции, потому что сочинения обросли большим количеством каких-то правил, мы в школе зачастую выучиваем правильные мнения по поводу тех или иных произведений. Может быть, генеративные нейросети как раз помогут отказаться от этого".
В связи с развитием нейросетей должны корректироваться измерительные материалы, в них должно появляться больше интерактивности, полагает Игорь Реморенко, ректор Московского городского педагогического университета.
"Автоматизированные языковые модели будут все более соврешенствоваться и в сдаче экзаменов, и в выдаче рекомендаций, и даже имитируя ту или иную человеческую роль или позицию. Поэтому не удивительно, что они также научаются сдавать экзамены. Значит ли это, что надо как-то ограничивать использование в обучении языковых моделей? Думаю, нет, если дело не касается непосредственно сдачи экзаменов. Это означает, что должны меняться измерительные материалы, степень интерактивности в них должна быть выше. Нужна новая перспективная концепция конструирования измерительных материалов Единого госэкзамена", - уверен эксперт.
Сегодня использование моделей искусственного интеллекта при выполнении творческих задач обретает повсеместный формат, однако результат этой работы больше похож на "первый драфт", а не на готовый материал, - уверен Евгений Абакумов, научный руководитель центра Информационных технологий и искусственного интеллекта Научно-технологического университета "Сириус"
"Интеграция искусственного интеллекта в образовательный процесс, как и в другие сферы нашей жизни, неизбежна. Для нас важно сейчас развертывать его инструменты и применять с учетом необходимости автоматизации и оптимизации", - говорит он.
Абакумов видит два пути взаимодействия с технологической революцией в образовании. По его словам, можно внедрять инструменты в процесс проверки работ школьников, особенно в творческой части и рассмотреть возможность добавления устной части в экзамен.
Тем не менее, в Рособрнадзоре - ведомстве, ответственном за проведение Единого госэкзамена в стране, не считают сдачу экзамена нейросетью чем-то опасным.
- Тренировать искусственный интеллект разработчики могут на любых задачах, в том числе заданиях Единого госэкзамена, - сообщили РГ в пресс-службе ведомтсва. - Но сам экзамен не ориентирован на тестирование возможностей нейросетей. Для системы ЕГЭ развитие нейросетей угрозы не несет, так как использование гаджетов во время экзаменов запрещено порядком проведения ЕГЭ, и участники реальных экзаменов никак не смогут воспользоваться помощью искусственного интеллекта.