ВведениеВ современной практике преподавания программирования автоматизированная оценка студенческих работ (Automated Assessment, AA) базируется на четырех ключевых критериях: корректности, поддерживаемости, читаемости и документированности [1]. Традиционно эти аспекты проверяются с помощью динамического анализа, оценивающего функциональность работающей программы через модульное тестирование, и статического анализа, исследующего исходный код без его запуска с помощью линтеров и метрик сложности (Холстеда, Маккейба) [2, 3]. Несмотря на эффективность динамического подхода в проверке корректности, он зачастую ограничивает обратную связь статусом «пройден/не пройден», не обеспечивая содержательной поддержки студента в вопросах качества кода, релевантности использованных конструкций и соблюдения парадигм программирования [1].
С развитием технологий машинного обучения методы анализа дополнились интеллектуальными алгоритмами для прогнозирования оценок и генерации персонализированных подсказок [1, 4]. Особое место в этом ряду занимают большие языковые модели (LLM), возможности которых позволяют выйти за рамки жесткого тестирования. Внедрение LLM в учебный процесс, как показывают исследования [5, 6], открывает перспективы для автоматизации оценки тех аспектов (стиль, логика), которые ранее требовали трудоемкой ручной проверки или полуавтоматизированного подхода [2].
Настоящая работа посвящена сравнительному анализу оценок, выставляемых традиционными системами тестирования (на примере модуля расширения CodeRunner 5.5.0 в Moodle 4.1.1) и современными моделями искусственного интеллекта (YandexGPT Pro 5 и DeepSeek-V3). В рамках эксперимента на выборке из 860 решений студентов первого курса исследуется согласованность оценок LLM с результатами динамического тестирования и оценок экспертов.
Предполагается, что сравнительный анализ позволит определить границы применимости LLM как дополнения к классическим методам AA для повышения качества обратной связи в массовом образовании. Гипотеза исследования базируется на предположении о том, что интеграция LLM в системы автоматизированного контроля позволяет трансформировать процесс оценки из чисто контролирующего в обучающий.
Целью данной работы является сравнительный анализ эффективности LLM в автоматизированной оценке студенческого программного кода и определение степени их корреляции с результатами объективного динамического тестирования и оценками экспертов.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Провести проверку 860 студенческих решений с использованием двух различных LLM (YandexGPT Pro 5 и DeepSeek-V3).
2. Сопоставить количественные и категориальные оценки моделей, результаты CodeRunner и оценки экспертов.
3. Оценить качество и педагогическую ценность генерируемой моделями обратной связи.
МетодологияЭкспериментальное исследование направлено на оценку эффективности использования LLM как инструмента автоматизированной проверки и рецензирования решений задач по программированию.
Для проведения эксперимента сформирован корпус из 860 уникальных решений на языках Python и C++, распределенных по 9 задачам элементарного, базового и среднего уровней сложности. Решения были получены от студентов первого курса технических специальностей в рамках дисциплин «Информатика» и «Введение в информационные технологии». Предварительная проверка всех работ осуществлялась в системе Moodle с помощью CodeRunner. Оценка формировалась на основе динамического анализа (модульное тестирование, проверка стандартных потоков ввода-вывода) в диапазоне от 0 до 1, пропорционально количеству успешно пройденных тестов.
В качестве интеллектуальных агентов проверки использованы две модели: YandexGPT Pro 5 (через API интерфейса Yandex Cloud) и DeepSeek-V3. Для обеспечения сопоставимости результатов каждой модели подавался идентичный промпт (Zero-shot), логическая структура которого приведена в таблице 1.
Таблица 1 – Структура и содержание системного запроса (промпта) для LLM
Блок промпта | Содержание инструкции | Педагогическая/техническая цель |
Ролевая установка | «Ты — система автоматической проверки задач... действуешь как строгий, но поддерживающий ментор». | Формирование академического тона и контекста оценивания. |
Жесткое ограничение | «Категорически запрещено приводить примеры исправленного кода». | Реализация метода скаффолдинга: поддержка без выдачи готового ответа. |
Дидактический контекст | Требование реализации базовых алгоритмов без использования встроенных функций. | Проверка фундаментальных навыков алгоритмизации, а не знания библиотек. |
Критерии оценки | Детализация: алгоритмическая корректность (логика), синтаксис, runtime-ошибки. | Снижение галлюцинаций модели и фокусировка на разных аспектах качества кода. |
Шкала оценивания | Количественный диапазон [0, 1]. | Стандартизация оценок для последующего статистического анализа. |
Обратная связь | «Обоснование» и «Конструктивная обратная связь» (наводка на исправление без кода). | Трансформация оценки из контролирующей в обучающую. |
Использование данной структуры позволило реализовать стратегию педагогического скаффолдинга, сфокусировав LLM на генерации концептуальных подсказок вместо готовых ответов. Согласно заданным инструкциям, от моделей требовалось выполнение следующих действий:
1. Формирование количественной оценки в диапазоне от 0 до 1.
2. Присвоение категориальной метки («правильно», «частично правильно», «неправильно»).
3. Генерация текстовой обратной связи, включающей локализацию ошибки, объяснение её причины и рекомендации по оптимизации кода.
Для валидации оценок и обратной связи, сгенерированной моделями, была сформирована контрольная выборка из 75 случайных решений, которые были независимо оценены двумя экспертами (преподавателями профильных дисциплин). Педагогическая ценность и качество сгенерированной моделями обратной связи оценивались по 5-балльной шкале Ликерта по четырем критериям:
· Точность (соответствие выявленных ошибок реальным дефектам в коде, отсутствие вымышленных ошибок или ложных утверждений).
· Конструктивность (наличие конкретных указаний по исправлению).
· Уровень поддержки (способность модели направить студента к решению без предоставления готового ответа).
· Тон (соблюдение этики и академического стиля общения).
Согласованность экспертных оценок проверялась с помощью коэффициента корреляции Спирмена, а также взвешенной каппы.
РезультатыСравнение распределений оценок прохождения тестов и оценок моделей изображено на рисунке 1.