Перязева Ю.В., Васильев А.М. Сравнительный анализ эффективности больших языковых моделей в автоматизированной оценке решений задач по программированию

СЕКЦИЯ

Искусственный интеллект и технологии на основе данных в образовании

Перязева Ю.В.,

Васильев А.М.

Санкт-Петербургский горный университет императрицы Екатерины II

г. Санкт-Петербург

Сравнительный анализ эффективности больших языковых моделей в автоматизированной оценке решений задач по программированию

В статье рассматривается эффективность использования больших языковых моделей (LLM) – YandexGPT Pro 5 и DeepSeek-V3 – в качестве инструментов автоматизированной оценки и генерации обратной связи для проверки студенческих работ по программированию. Исследование проведено на корпусе из 860 решений студентов первого курса. Сравнительный анализ включал сопоставление результатов динамического тестирования (CodeRunner в Moodle), оценок LLM и экспертного аудита. Качество обратной связи оценивалось по критериям точности, конструктивности и уровня поддержки.
Выявлено, что LLM демонстрируют более высокую дифференцирующую способность в зоне проверки частично правильных решений по сравнению с тестами. Обоснована целесообразность перехода к гибридным системам оценки, где динамическое тестирование верифицирует функциональность, а LLM формирует обучающую обратную связь и оценивает качество кода.

Peryazeva J.V.,

Vasilyev A.M.

Saint Petersburg Mining University

St. Petersburg, Russia

Сomparative analysis of large language models' efficiency in the automated assessment of programming task solutions

The article examines the effectiveness of using large language models (LLMs) – YandexGPT Pro 5 and DeepSeek‑V3 – as tools for automated assessment and feedback generation in evaluating students’ programming assignments. The study was conducted on a corpus of 860 solutions submitted by first‑year students. The comparative analysis involved comparing the results of dynamic testing (using the CodeRunner in Moodle), LLM assessments, and expert audit findings. The quality of feedback was evaluated according to the criteria of accuracy, constructiveness, and level of support.
It was found that LLMs demonstrate a higher discriminative ability in assessing partially correct solutions compared to traditional testing methods. The study justifies the feasibility of transitioning to hybrid assessment systems, where dynamic testing verifies functionality, while LLMs generate formative educational feedback and evaluate code quality.

Введение
В современной практике преподавания программирования автоматизированная оценка студенческих работ (Automated Assessment, AA) базируется на четырех ключевых критериях: корректности, поддерживаемости, читаемости и документированности [1]. Традиционно эти аспекты проверяются с помощью динамического анализа, оценивающего функциональность работающей программы через модульное тестирование, и статического анализа, исследующего исходный код без его запуска с помощью линтеров и метрик сложности (Холстеда, Маккейба) [2, 3]. Несмотря на эффективность динамического подхода в проверке корректности, он зачастую ограничивает обратную связь статусом «пройден/не пройден», не обеспечивая содержательной поддержки студента в вопросах качества кода, релевантности использованных конструкций и соблюдения парадигм программирования [1].

С развитием технологий машинного обучения методы анализа дополнились интеллектуальными алгоритмами для прогнозирования оценок и генерации персонализированных подсказок [1, 4]. Особое место в этом ряду занимают большие языковые модели (LLM), возможности которых позволяют выйти за рамки жесткого тестирования. Внедрение LLM в учебный процесс, как показывают исследования [5, 6], открывает перспективы для автоматизации оценки тех аспектов (стиль, логика), которые ранее требовали трудоемкой ручной проверки или полуавтоматизированного подхода [2].

Настоящая работа посвящена сравнительному анализу оценок, выставляемых традиционными системами тестирования (на примере модуля расширения CodeRunner 5.5.0 в Moodle 4.1.1) и современными моделями искусственного интеллекта (YandexGPT Pro 5 и DeepSeek-V3). В рамках эксперимента на выборке из 860 решений студентов первого курса исследуется согласованность оценок LLM с результатами динамического тестирования и оценок экспертов.

Предполагается, что сравнительный анализ позволит определить границы применимости LLM как дополнения к классическим методам AA для повышения качества обратной связи в массовом образовании. Гипотеза исследования базируется на предположении о том, что интеграция LLM в системы автоматизированного контроля позволяет трансформировать процесс оценки из чисто контролирующего в обучающий.

Целью данной работы является сравнительный анализ эффективности LLM в автоматизированной оценке студенческого программного кода и определение степени их корреляции с результатами объективного динамического тестирования и оценками экспертов.

Для достижения поставленной цели необходимо решить следующие задачи:
1.        Провести проверку 860 студенческих решений с использованием двух различных LLM (YandexGPT Pro 5 и DeepSeek-V3).
2.        Сопоставить количественные и категориальные оценки моделей, результаты CodeRunner и оценки экспертов.
3.        Оценить качество и педагогическую ценность генерируемой моделями обратной связи.

Методология
Экспериментальное исследование направлено на оценку эффективности использования LLM как инструмента автоматизированной проверки и рецензирования решений задач по программированию.

Для проведения эксперимента сформирован корпус из 860 уникальных решений на языках Python и C++, распределенных по 9 задачам элементарного, базового и среднего уровней сложности. Решения были получены от студентов первого курса технических специальностей в рамках дисциплин «Информатика» и «Введение в информационные технологии». Предварительная проверка всех работ осуществлялась в системе Moodle с помощью CodeRunner. Оценка формировалась на основе динамического анализа (модульное тестирование, проверка стандартных потоков ввода-вывода) в диапазоне от 0 до 1, пропорционально количеству успешно пройденных тестов.

В качестве интеллектуальных агентов проверки использованы две модели: YandexGPT Pro 5 (через API интерфейса Yandex Cloud) и DeepSeek-V3. Для обеспечения сопоставимости результатов каждой модели подавался идентичный промпт (Zero-shot), логическая структура которого приведена в таблице 1.

Таблица 1 – Структура и содержание системного запроса (промпта) для LLM

Блок промпта	Содержание инструкции	Педагогическая/техническая цель
Ролевая установка	«Ты — система автоматической проверки задач... действуешь как строгий, но поддерживающий ментор».	Формирование академического тона и контекста оценивания.
Жесткое ограничение	«Категорически запрещено приводить примеры исправленного кода».	Реализация метода скаффолдинга: поддержка без выдачи готового ответа.
Дидактический контекст	Требование реализации базовых алгоритмов без использования встроенных функций.	Проверка фундаментальных навыков алгоритмизации, а не знания библиотек.
Критерии оценки	Детализация: алгоритмическая корректность (логика), синтаксис, runtime-ошибки.	Снижение галлюцинаций модели и фокусировка на разных аспектах качества кода.
Шкала оценивания	Количественный диапазон [0, 1].	Стандартизация оценок для последующего статистического анализа.
Обратная связь	«Обоснование» и «Конструктивная обратная связь» (наводка на исправление без кода).	Трансформация оценки из контролирующей в обучающую.

Использование данной структуры позволило реализовать стратегию педагогического скаффолдинга, сфокусировав LLM на генерации концептуальных подсказок вместо готовых ответов. Согласно заданным инструкциям, от моделей требовалось выполнение следующих действий:
1. Формирование количественной оценки в диапазоне от 0 до 1.
2. Присвоение категориальной метки («правильно», «частично правильно», «неправильно»).
3. Генерация текстовой обратной связи, включающей локализацию ошибки, объяснение её причины и рекомендации по оптимизации кода.
Для валидации оценок и обратной связи, сгенерированной моделями, была сформирована контрольная выборка из 75 случайных решений, которые были независимо оценены двумя экспертами (преподавателями профильных дисциплин). Педагогическая ценность и качество сгенерированной моделями обратной связи оценивались по 5-балльной шкале Ликерта по четырем критериям:
· Точность (соответствие выявленных ошибок реальным дефектам в коде, отсутствие вымышленных ошибок или ложных утверждений).
· Конструктивность (наличие конкретных указаний по исправлению).
· Уровень поддержки (способность модели направить студента к решению без предоставления готового ответа).
· Тон (соблюдение этики и академического стиля общения).
Согласованность экспертных оценок проверялась с помощью коэффициента корреляции Спирмена, а также взвешенной каппы.

Результаты
Сравнение распределений оценок прохождения тестов и оценок моделей изображено на рисунке 1.

Рис. 1 – Распределение оценок

Статистический анализ выявил значительное отклонение всех оценочных показателей от нормального распределения (тест Шапиро-Уилка, p-value < 0.001 для всех переменных), что обосновывает применение непараметрических методов при дальнейшем анализе. Оценки LLM характеризуются выраженной отрицательной асимметрией (-0.72 для YandexGPT Pro 5 и -0.32 для DeepSeek-V3), указывающей на смещение данных в сторону высоких баллов, при этом Yandex демонстрирует более высокий средний балл (M=0.69) по сравнению с DeepSeek (M=0.61).
Особый интерес представляет анализ эксцесса. Исходный показатель оценок автоматического тестирования (CodeRunner) обладает критически высокой отрицательной величиной эксцесса (-1.86). Это свидетельствует о бимодальном распределении и поляризации оценок (решения либо полностью проходят тесты, либо не проходят вовсе). В то же время более умеренные показатели эксцесса LLM подтверждают их более высокую дифференцирующую способность: алгоритмы LLM способны ранжировать работы внутри зоны частичных решений, обеспечивая более тонкую градацию качества кода в рамках предложенной шкалы.

Для оценки взаимосвязи между методами проверки был проведен анализ согласованности оценок YandexGPT Pro 5, DeepSeek-V3 и плагина CodeRunner. Расчеты проводились с использованием коэффициента ранговой корреляции Спирмена (r_s) и коэффициента каппа Коэна для оценки согласованности категориальных оценок. Анализ выявил умеренную корреляционную связь (Рис. 2) между результатами автоматизированного динамического тестирования и оценками языковых моделей (r_s» 0.47–0.53). Тот факт, что значения корреляции Спирмена стабильно превышают показатели корреляции Пирсона для всех пар сравнения, указывает на нелинейный характер взаимосвязи. Это подтверждает, что LLM и системы динамического тестирования демонстрируют сходство в ранжировании работ (выделение лучших и худших решений), однако существенно расходятся в определении точного количественного балла.

Рис. 2 – Корреляция Спирмена

Особого внимания заслуживает высокая степень согласованности между самими моделями (r_p = 0.786 по Пирсону и r_s = 0.816 по Спирмену). Столь сильная корреляция между YandexGPT Pro 5 и DeepSeek-V3 на фоне их умеренной связи с тестами свидетельствует о существовании единых «нейросетевых паттернов» оценки. Вероятно, модели ориентируются на структурно-семантические характеристики исходного кода и соблюдение алгоритмической логики, в то время как динамическое тестирование фиксирует исключительно функциональную корректность (прохождение тест-кейсов).

Сравнительный анализ оценок (Рис. 3) выявил наличие систематического смещения между моделями. Средняя разница оценок (MD = 0.08 в пользу YandexGPT Pro 5) при стандартном отклонении SD = 0.23 указывает на то, что модель от Yandex демонстрирует более высокую лояльность к студенческим работам, выставляя баллы в среднем на 8% выше, чем DeepSeek-V3.
Несмотря на общую высокую корреляцию, наличие экстремальных отклонений в диапазоне [-1.0, 1.0] свидетельствует о случаях диаметрально противоположной интерпретации корректности кода. Такие аномалии (когда одна модель оценивает решение как полностью верное, а другая — как полностью ошибочное) подчеркивают детерминированность различий в «понимании» спецификаций задач каждой из моделей. Высокое стандартное отклонение разности (SD = 0.23) подтверждает тезис о том, что индивидуальные вердикты LLM могут существенно варьироваться. Это обосновывает необходимость внедрения механизмов перекрестной проверки или участия человека-эксперта при использовании языковых моделей в реальном образовательном процессе для обеспечения справедливости оценивания.

Рис. 3 – Распределение разницы оценок между Yandex и DeepSeek

Для оценки надежности классификации студенческих решений был проведен анализ сопряженности категориальных вердиктов («правильно», «частично», «неправильно») двух моделей. Статистический анализ показал, что коэффициент каппа Коэна составил 0.59. Согласно классификации Лэндиса и Коха, данный показатель соответствует умеренному согласию. Общий уровень прямого совпадения категориальных оценок составил 73,6%.

Детальный анализ таблицы сопряженности (матрицы ошибок) (Рис. 4) позволил выявить следующие закономерности.

Высокая согласованность на экстремумах: наибольшая точность совпадения зафиксирована в категории «правильно» (284 случая). Это подтверждает высокую уверенность обеих моделей при идентификации синтаксически и алгоритмически корректного кода.

Конфликт интерпретаций в «серой зоне»: основной массив расхождений сосредоточен в сегменте частично правильных решений. В 116 случаях YandexGPT Pro 5 классифицировал решение как «частично правильное», в то время как DeepSeek-V3 оценил его как «неправильное». Данный факт подтверждает выявленную ранее склонность YandexGPT Pro 5 к более мягкому оцениванию решений с некритичными дефектами, которые DeepSeek-V3 интерпретирует как фатальные.
Выявлены редкие случаи полной инверсии заключений (2 случая, где YandexGPT Pro 5 выставил «неправильно» против «правильно» у DeepSeek-V3, и 14 случаев обратной инверсии). Подобные аномалии свидетельствуют о фундаментальных различиях в интерпретации специфических условий задач или эпизодических «галлюцинациях» моделей относительно корректности синтаксиса конкретных языков программирования.

Рис. 4 – Таблица сопряженности категориальных оценок

Для верификации автоматизированных систем оценивания использовалась выборка из 75 решений, проверенная двумя независимыми экспертами. Анализ межэкспертного согласия выявил специфическую структуру данных. Коэффициент корреляции Пирсона между экспертами составил 0,844, что указывает на высокую линейную зависимость. Однако коэффициент ранговой корреляции Спирмена оказался заметно ниже – 0,682 (Рис. 5).

Рис. 5 – Корреляция Спирмена: Модели vs Эксперты

Такой разрыв объясняется различием в стратегиях оценивания, что подтверждается описательной статистикой. Распределение оценок Эксперта 2 максимально приближено к бинарному (медиана 1,0; эксцесс -1,21), в то время как Эксперт 1 склонен к более гибкому использованию шкалы (медиана 0,9; эксцесс -0,88). Высокий Пирсон при умеренном Спирмене доказывает, что преподаватели единодушны в классификации «крайних» случаев (полностью верных или неверных работ), но существенно расходятся в ранжировании работ среднего качества.

На этом фоне результаты моделей демонстрируют высокую валидность. Средний балл YandexGPT Pro 5 (M = 0,69) практически идентичен среднему баллу экспертов (0,70 и 0,68). При этом корреляция YandexGPT Pro 5 с консолидированным (средним) мнением экспертов (r_s= 0,736) выше, чем корреляция экспертов между собой (r_s = 0,682), что свидетельствует о способности LLM нивелировать субъективные искажения оценивания. (Рис. 5). Она сглаживает индивидуальные отклонения (такие как избыточная строгость или склонность к бинарности) и выдает результат, максимально близкий к консенсусному решению педагогического сообщества. Модель DeepSeek-V3 также показала значимую, но менее выраженную связь с экспертным мнением (r_s = 0,594).
Результаты анализа педагогической ценности ответов LLM по 5-балльной шкале Ликерта выявили, что при высоком среднем качестве обратной связи (M > 4.0 по шкале Ликерта), наблюдается низкий уровень межэкспертного согласия (Kappa < 0.3 для большинства критериев YandexGPT Pro 5) (Рис. 6).

Рис. 6 – Качество обратной связи vs Согласованность экспертов

Низкая согласованность при высоких средних баллах указывает на то, что эксперты единодушны в признании «полезности» ответов LLM, но расходятся в оценке нюансов реализации педагогических приемов. В частности, критерий Уровень поддержки у YandexGPT Pro 5 показал минимальную корреляцию (r_s= 0.018), что свидетельствует о разных педагогических подходах самих экспертов: там, где, например, один преподаватель видит удачную наводку, заставляющую студента думать, другой видит избыточную сложность, запутывающую новичка. Выявленный разрыв между качеством и согласованностью подчеркивает риск внедрения LLM: отсутствие единого эталона обратной связи.

Выводы
В ходе исследования был проведен сравнительный анализ применимости LLM (YandexGPT и DeepSeek) в автоматизированной проверке студенческих работ. Полученные результаты позволяют сделать следующие выводы:
Умеренная корреляция между ИИ-моделями и системой CodeRunner подтверждает, что LLM оценивают код комплексно, выходя за рамки функционального тестирования. Высокая согласованность между самими моделями доказывает существование единых интеллектуальных критериев оценки, отличных от жестких алгоритмических проверок.
Модель Yandex продемонстрировала исключительную близость к экспертному мнению, превзойдя по этому показателю даже уровень согласия между самими экспертами-людьми. Это делает её приоритетным инструментом для интеграции в системы AAT.
Установлено преимущество Yandex в стабильности и качестве обратной связи. Средняя оценка конструктивности и отсутствие этических отклонений позволяют минимизировать риски «галлюцинаций» и негативного влияния на мотивацию студентов. Несмотря на эффективность, выявленные случаи полной инверсии оценок (до 2%) указывают на необходимость использования LLM в качестве вспомогательного инструмента, дополняющего, а не заменяющего классическое динамическое тестирование. Оптимальным сценарием видится гибридная модель: CodeRunner для проверки корректности и YandexGPT Pro 5 для оценки стиля и генерации рекомендаций. Главная ценность LLM заключается в генерации качественной обратной связи, которую традиционные системы динамического тестирования обеспечить не могут.

Перспективным продолжением исследования является анализ воспринимаемой полезности LLM-обратной связи самими студентами. Учет студенческого мнения позволит лучше понять качество обратной связи и оценить дидактический эффект от внедрения такой гибридной системы.

Литература:
1. Messer M. et al. Automated grading and feedback tools for programming education: A systematic review // ACM Transactions on Computing Education. – 2024. – Vol. 24. – No. 1. – Pp. 1–43. – DOI 10.1145/3636515
2. Ala‑Mutka K. M. A survey of automated assessment approaches for programming assignments // Computer Science Education. – 2005. – Vol. 15. – No. 2. – Pp. 83–102. – DOI 10.1080/08993400500150747
3. Sendjaja K., Rukmono S. A., Perdana R. S. Evaluating control‑flow graph similarity for grading programming exercises // 2021 International Conference on Data and Software Engineering (ICoDSE). – IEEE, 2021. – Pp. 1–6. – DOI 10.1109/ICoDSE53690.2021.9648464
4. Poličar P. G. et al. Automated assignment grading with large language models: insights from a bioinformatics course // Bioinformatics. – 2025. – Vol. 41. – Supplement 1. – Pp. i21–i29. – arXiv:2501.14499v1
5. Karsa Z. I., Goldschmidt B. Automatic Evaluation of Programming Tasks Supported by Language Models // IEEE Access. – 2025. – Vol. 13. – Pp. 147740–147752. – DOI 10.1109/ACCESS.2025.11132331
6. Padurean et al. BugSpotter: Combining static analysis with LLM reasoning for interactive debugging exercises // Proceedings of the 2025 ACL Workshop on Language Models for Education (HSINLP). – 2025. – Pp. 112–125. – arXiv.2411.14303

ВОПРОСЫ И КОММЕНТАРИИ

Система комментирования SigComments