Войти в почту

По каким предметам ИИ точнее оценивает развёрнутые ответы?

По каким предметам ИИ точнее оценивает развёрнутые ответы?

Тулеганова Гулира, методист онлайн-сервиса «Облако знаний» (ООО «Физикон Лаб»)

По каким предметам ИИ точнее оценивает развёрнутые ответы?

Задания с развёрнутым ответом в государственной итоговой аттестации позволяют более точно оценить знания школьников. Каждый ответ вручную проверяется двумя экспертами. Как правило, экспертами являются опытные учителя-предметники. По результатам двух проверок эксперты независимо друг от друга выставляют баллы. В случае существенного расхождения баллов привлекается третий эксперт. Поэтому проверка развёрнутых ответов – сложный и трудоёмкий процесс.

Оптимизировать процесс проверки развёрнутых ответов в будущем могут помочь технологии искусственного интеллекта. Российским Фондом содействия инновациям для исследований и проведения экспериментов был выбран онлайн-сервис «Облако знаний», предлагающий учителям цифровые работы по подготовке к государственной итоговой аттестации. Перед тем как технология будет функциональной, искусственный интеллект необходимо обучить. В рамках проекта были исследованы различные подходы для оценки текстовых ответов школьников на задания ОГЭ по четырём предметам:

География – 10 заданий (1 этап) и 13 заданий (2 этап); Биология – 10 заданий (1 этап); Обществознание – 6 заданий (1 этап); История – 7 заданий (1 этап).

На первом этапе для анализа использовались по 200 ответов на каждое задание. Второй этап исследования проводился только для географии, и на этом этапе уже использовались по 1000 ответов на каждое задание.

Рассмотрим подробнее полученные в рамках проекта результаты и разберёмся, по каким предметам искусственный интеллект точнее оценивает развёрнутые ответы школьников.

Как искусственный интеллект проверяет развёрнутые ответы?

Каждый ответ на задание разбивается на несколько так называемых «элементарных критериев». Элементарные критерии – это нечто среднее между привычными критериями оценивания, как в демонстрационных вариантах ОГЭ, и ответом к заданию. Однако элементарные критерии, как правило, «мельче» и составляются так, чтобы ИИ смог оценить их по простому принципу «соответствует критерию / не соответствует критерию».

ТАБЛИЦА

Задание Решение Александру пришло сообщение в социальной сети от его друга: «Привет, можешь выручить 5000 рублей до завтра? Нужно очень срочно! Пришли, пожалуйста, деньги на карту 5555 **** **** 7777». В чём состоит опасность данной ситуации для личных финансов Александра? Как ему правильно поступить в данной ситуации? Ответ запишите в поле свободного ответа. Правильный ответ может содержать следующие элементы: 1) ответ на первый вопрос, например: «скорее всего, это мошенники, которые планировали получить деньги»; 2) ответ на второй вопрос, например: «ни в коем случае не отправлять деньги; позвонить другу лично и уточнить детали обстоятельств». Ответы на вопросы могут быть приведены в иных, близких по смыслу формулировках.

Критерии оценивания Элементарные критерии 1) Даны правильные ответы на два вопроса. 2) Дан правильный ответ на один любой вопрос. 3) Приведены рассуждения общего характера, не соответствующие требованию задания. ИЛИ Ответ неправильный. 1) Опасность данной ситуации в том, что, скорее всего, это мошенники, которые планировали получить деньги, они обманут, и человек потеряет свои финансы [и аналогичные ответы] 2) Ни в коем случае не отправлять деньги на указанный номер карты [и аналогичные ответы] 3) Позвонить другу лично и уточнить детали обстоятельств [и аналогичные ответы] 4) Обратиться в службу поддержки или позвонить на "горячую линию" [и аналогичные ответы] 5) Не отвечать на сообщение [и аналогичные ответы]

Как готовятся данные для обучения искусственного интеллекта?

Для обучения нейросети используется большой массив информации из школьной и профессиональной литературы по предмету. Затем модель искусственного интеллекта обучают на базе готовых правильных и неправильных ответов на конкретное задание. Ответы делятся на две части, одна из которых используется для тренировки модели, другая – для тестирования.

Интересный факт

Качество оценки развернутых ответов моделью искусственного интеллекта зависит от количества используемых ответов для обучения модели только при небольших выборках. Начиная с 500 ответов, вероятность правильной оценки ответа остаётся примерно на одном уровне.

Графики зависимости вероятности правильной оценки ответа от количества обучающих данных для двух моделей

Как увеличить вероятность правильной оценки ответов

Модель наиболее удачно оценивает чёткие и короткие ответы на задания. Сложности наиболее вероятны, когда правильный ответ приводится в пространном перефразированном виде. Эта проблема решается увеличением массива данных по предмету для обучения модели.

Сравниваем результаты оценки развёрнутых ответов

В рамках проекта по оценке развёрнутых ответов для каждой модели и различных подходов были определены два показателя:

вероятность правильной оценки отдельного критерия; вероятность правильной оценки вопроса в целом.

Самая лучшая модель среди исследованных показала следующие результаты:

Предмет Этап Вероятность правильной оценки элементарного критерия Вероятность правильной оценки вопроса Биология 1 0,89 0,66 География 1 0,86 0,50 История 1 0,92 0,58 Обществознание 1 0,93 0,43 География 2 0,96 0,90

На первом этапе элементарные критерии по всем предметам модель оценивает примерно на одном уровне – вероятности правильной оценки критерия отличаются не более, чем на 4 %. А вопрос в целом модель заметно точнее оценивает по биологии – вероятность 66 %. По оцениванию ответов по обществознанию модель испытывает наибольшие трудности, вероятность правильной оценки составила всего 43 %.

Причиной более низкого показателя по обществознанию по сравнению с другими предметами является комплексность предмета. Обществознание охватывает различные сферы жизни общества и человека – социальную, духовную, экономическую, политическую, правовую, и включает базовые знания из социально-гуманитарных наук (философии, психологии, в том числе социальной, этики, социологии, истории, политологии, правоведения, экономики). И чтобы обучить модель искусственного интеллекта предмету, требуется огромный массив разноплановых данных.

Модель показала хороший результат на втором этапе проверки по географии – вероятность правильной оценки ответов составила уже 90 %. Это позволяет утверждать, что будущее, когда рутинную работу по оцениванию развёрнутых ответов возьмёт на себя искусственный интеллект, не за горами._____________________________«Облако знаний» — это образовательный онлайн-сервис с 12 000 интерактивных работ по 15 школьным предметам. Цифровые работы сервиса соответствуют обновлённым ФГОС, созданы на основе компетентностного подхода и имеют высокий уровень мультимедийности и интерактивности. С помощью «Облака знаний» учитель может: разнообразить урок в классе, используя цифровой контент для фронтальной работы; сэкономить время за счёт автоматической проверки работ с возможностью отправки отметок в ЭЖД; работать с разными учениками индивидуально; анализировать результаты учеников по конкретной работе, а также статистику всего класса по предмету. В рамках совместного с Фондом содействия инновациям научно-исследовательского проекта в настоящее время проводится эксперимент по использованию нейросети для автоматической проверки развёрнутых ответов школьников и адаптивного тестирования, которое позволит генерировать тестовые задания для каждого ученика на основе его ответов. Внедрение технологии искусственного интеллекта в онлайн-сервис позволит обеспечить более точную и объективную оценку знаний и умений учащихся, сократить нагрузку на педагога и повысить качество обучения.