Доброва А.Д., Масолова Е.А. Новые образовательные практики с использованием алгоритмов машинного обучения

СЕКЦИЯ

Искусственный интеллект и технологии на основе данных в образовании

Доброва А.Д.,

Масолова Е.А.

РГПУ им. А.И. Герцена

г. Санкт-Петербург

Новые образовательные практики с использованием алгоритмов машинного обучения

В статье рассматривается потенциал методов машинного обучения для интеллектуального анализа образовательных данных. Анализ цифровых следов учащихся с применением алгоритмов машинного обучения позволяет прогнозировать успеваемость, выявлять учеников группы риска и создавать персонализированные образовательные траектории. В качестве примера, рассматривается работа таких алгоритмов, как k-ближайших соседей, линейная регрессия, дерево решений, случайный лес и методы кластеризации.

Dobrova A.D.,

Masolova E.A.

Herzen State Pedagogical University

Saint-Petersburg

New educational practices using machine learning algorithms

The article examines the potential of machine learning methods for the educational data mining (EDM). The analysis of students' digital traces, using machine learning algorithms, allows for the prediction of academic performance, the identification of at-risk students, and creation of personalized educational trajectories. The article examines the performance of algorithms such as k-nearest neighbors, linear regression, decision trees, random forests and clustering methods.

Инновации образовательной среды требуют от современного учителя не только знаний в своей специализации, но и адаптацию к новым технологиям. Среди таких технологий особую роль играют технологии, основанные на данных. Один из основоположников теории коннективизма - George Siemens, отмечает, что «современные образовательные данные позволяют выявлять закономерности в процессе обучения, создавая основу для адаптивных и персонализированных подходов» [14].

В результате активностей пользователей в цифровом пространстве собираются массивы информации, которые и не в привязке к субъекту могут быть проанализированы как цифровые следы отдельных субъектов. В общем плане «цифровые следы, представляют собой некую совокупность неструктурированных или сложно структурированных данных, хранящих разнообразную и разностороннюю, собранную по крупицам, информацию об использовании глобальной информационной сети конкретной личностью» [10]. Цифровой след можно рассматривать и в более узком контексте, например, только данные LMS и других отдельных активностей.

Коллекции цифровых следов могут составлять основу для учебной аналитики и обработки больших объемов информации. Так как такие цифровые следы могут собираться из разных источников (онлайн-платформы обучения, социальные сети и форумы, видеоконференции и т.д.), то они могут быть собраны в большие массивы данных, которые называют большими данными.  Крюкова Д.В. и др. описывают большие данные как «массивы данных достаточно большого объёма, которые практически невозможно обработать или проанализировать при помощи традиционных методов, подразумевающих использование человеческого труда и настольных компьютеров» [4]. По словам авторов ключевыми особенностями являются их объем и скорость прироста данных, что требует специализированных методов обработки информации с использованием современных информационных технологий.

Использование цифровых следов трансформирует практику аналитики учебного процесса, что способствует более объективному и гибкому принятию педагогических решений. Исследователи данной области утверждают, что «технологии анализа данных становятся новым инструментом для преобразования обучения на основе принципа персонализации, для повышения эффективности образовательной системы и управления системами образования на разных уровнях образования» [2].

У педагога, применяющего результаты интеллектуального анализа образовательных данных, появляется возможность в большей мере способствовать персонализации образовательных траекторий, усовершенствовать педагогический дизайн курсов, оптимизировать образовательное взаимодействие. Для решения подобных задач существует область исследований, которая называется интеллектуальный анализ данных в образовании (Educational data mining (EDM)).
EDM по мнению Я.Б. Ампаду представляет собой «развивающуюся дисциплину, которая занимается разработкой методов изучения уникальных типов данных, поступающих из образовательных учреждений, и использованием этих методов для лучшего понимания учащихся и условий, в которых они учатся» [11]. В EDM методы машинного обучения являются необходимым инструментарием для автоматического обнаружения паттернов в наборах данных об учащихся, построения прогностических моделей и извлечения полезных данных.

В статье А.А. Семеновой машинное обучение трактуется как «ветвь искусственного интеллекта (ИИ), направленная на разработку алгоритмов и статистических моделей, которые позволяют компьютерам обучаться и принимать решения на основе данных» [9]. «Основная цель исследований в области машинного обучения - создание универсальных алгоритмов, полезных в реальных ситуациях» [1], что позволяет решать широкий класс задач за счет автоматического обнаружения закономерностей в данных и создает основу для оптимизации различных процессов.
Авторы Е.И. Приходченко и Л.В. Рудак утверждают, что одним из основных преимуществ использования машинного обучения в образовании является «возможность создания персонализированных образовательных программ», где алгоритмы анализируют данные об учениках, чтобы предоставлять индивидуальные рекомендации [7]. Анализ образовательных данных позволяет декомпозировать учебную деятельность, для выявления затруднений и оптимальных стратегии обучения для каждого учащегося.

Несмотря на растущий интерес к применению машинного обучения для генерации образовательного контента и автоматизации рутинных задач, пока ведущую роль играет стандартная аналитика данных. Чтобы эффективно использовать данные для персонализации обучения и принятия решений, необходимо выбрать подходящий алгоритм машинного обучения. Как отмечает М.К. Беликов «машинное обучение включает в себя разные типы алгоритмов: обучение с учителем и без него, обучение с частичным привлечением учителя, обучение с подкреплением и глубокое обучение» [3]. Обучение с учителем применяется для создания прогнозов на основе исторических данных с известным результатом. Его основные задачи - классификация и регрессия. Для выявления скрытых закономерностей в данных используют обучение без учителя, чаще всего этот алгоритм используется для решения задач кластеризации. Обучение с подкреплением используют в робототехнике и создании адаптивных систем. Глубокое обучение, в свою очередь, применяется для «решения сложных задач, таких как обработка естественного языка и распознавание изображений» [3].

Существует множество алгоритмов, которые можно объединить в группы, исходя из принципов их работы. Ориентируясь на типологию, предложенную Н.А. Романовой и Л.В. Мотайленко, рассмотрим некоторые примеры реальных исследований обучения с учителем [8].

Метрические алгоритмы, например k-ближайших соседей, действуют по следующему принципу: «классифицируемый объект относится к тому классу, которому принадлежат ближайшие к нему объекты обучающей выборки» [8]. Преимущество этого метода состоит в интуитивной понятности, однако его эффективность зависит от заданных метрик сходства, что может быть затруднительно при разнородных признаках.

Например, в одной из научных работ изучалась возможность прогнозирования успеваемости студентов по конкретным дисциплинам на основе их оценок за другие, коррелирующие курсы [12]. Авторы отмечают, что курсы с показателем корреляции +0,3 и выше внесли значительный положительный вклад в прогностическую эффективность моделей машинного обучения. В исследовании было продемонстрировано применение разных алгоритмов машинного обучения, таких как метод k-ближайших соседей, деревья решений, случайный лес, нейронные сети и логистическая регрессия. Для оценки результатов использовались два вида классификации: бинарная и многоклассовая. Модели бинарной классификации неизменно показывали лучшие результаты по сравнению с моделями много классовой классификации. Среди алгоритмов были выделены k-ближайших соседей, нейронные сети и случайный лес, которые показали более высокие и стабильные результаты [12].

Принцип действия логических моделей, примером которых является дерево решений, основан на построении комбинаций логических правил для классификации. Их главным достоинством является интерпретируемость полученных правил. Однако, как отмечают Н.А. Романов и Л.В. Мотайленко «для них свойственно переобучение и высокая чувствительность к шуму» [8].
Применение деревьев решений для прогнозирования трудоустройства выпускников педагогических вузов описано в исследовании Р.С. Наговицына. Модель была обучена на исторических данных 205 выпускников, содержащих 33 признака. Наилучший результат продемонстрировала «программа, разработанная на алгоритме “решающие деревья”», результат которой составил «89 % правильности прогноза» [5]. Эта модель позволяет заранее выявить студентов, которые с большой вероятностью не пойдут работать в школы, что поможет сократить потерю потенциальных педагогов.

Линейные модели, например линейная регрессия, исходят из предположений о линейной границе между классами. Как пишут исследователи: «в основе методов лежит предположение о том, что искомый закон является линейной комбинацией своих параметров» [8]. Логическая регрессия занимает позицию на стыке линейных и вероятностных подходов. Она не только дает бинарный прогноз, но и оценивает его вероятность, оставаясь при этом интерпретируемой моделью.

Другие исследователи используют алгоритм многомерной линейной регрессии для устранения неосознанного выбора будущей профессии школьниками [13]. Эта модель изучает успеваемость по математике и физике за все года обучения, активность на занятиях и дополнительные достижения. После этого на основе этих данных вычисляет вероятность того, что ученик сможет успешно проявить себя при выборе технической специальности в вузе. Таким образом, модель предлагает ученику объективную оценку, помогая обоснованный выбор образовательной траектории, соответствующий его образовательному потенциалу.

Ансамблевые методы направлены на повышение точности и устойчивости моделей. Такие алгоритмы как случайный лес и градиентный бустинг комбинируют множество деревьев решений. Принцип действия случайного леса состоит в том, что строится ансамбль независимых деревьев, на случайных подвыборках данных, что снижает риск переобучения. Градиентный бустинг создает деревья последовательно, исправляя предыдущие ошибки, что помогает достичь максимальной точности [8].

Побединская Т.В. и Заславская О.Ю в своей работе используют алгоритмы машинного обучения для прогнозирования успеваемости обучающихся основной школы на основе их «оценок, демографических, социальных и других данных» [6]. В рамках исследования было проведено сравнение двух алгоритмов: дерево решений и случайный лес. Результаты показали, что случайный лес оказался лучшим вариантом «для решения задачи прогнозирования отметок учащихся (точность прогнозирования — 81,4 %)» [6].

Обучение без учителя в отличии от рассмотренных подходов работает с данными, у которых нет заранее известных ответов. Основной задачей модели в этом случае будет нахождение скрытых закономерностей.

В качестве примера практической реализации можно рассмотреть использование алгоритмов кластеризации, где можно автоматически сегментировать студентов на группы, основываясь на их предпочтениях, стилях обучения и уровне знаний. Это позволяет преподавателю адаптировать образовательные ресурсы, задания и темп подачи материала для каждой группы обучающихся, что способствует более глубокому пониманию и повышению мотивации, так как «студенты становятся более мотивированными, когда учебный материал соответствует их интересам и уровню знаний» [7].

Таким образом, разные модели машинного обучения позволяют создать новые эффективные и информативные образовательные практики, ориентированные на совершенствование качества разных аспектов образовательного процесса. Данный инструмент становится полезным для современного педагога за счет точного анализа образовательных данных и выявления закономерностей для принятия обоснованных педагогических решений, что также может служить основой и перспективой для персонализации обучения.

Литература:
1.      Алханов А. А. Машинное обучение и его применение в современном мире / А.А. Алханов // Вопросы устойчивого развития общества. – 2021. – № 7. С. 471-475;
2.      Баранников К. А. Аналитика обучения как способ повышения эффективности системы управления образованием / К.А. Баранников, Р.С. Сулейманов, С.М. Лесин Р.Б. Куприянов // Вестник московского университета. Серия 20: Педагогическое образование. – 2020. – № 2. – С. 16-33;
3.      Беликов М. К. Основные способы машинного обучения / М. К. Беликов // Наука и образование: сохраняя прошлое, создаём будущее. сборник статей XLIII Международной научно-практической конференции. Пенза, – 2023. – С. 19-21;
4.      Крюкова Д. В. Аналитика больших данных и методы машинного обучения, возможности их использования в образовании / Д.В. Крюкова, Я.Д. Комарова, А.Г. Тимофеев // МАК: математики Алтайскому краю. – 2023. – № 5. – С. 216-219;
5.      Наговицын Р. С. Прогнозирование трудоустройства студентов педагогического вуза на основе использования алгоритмов машинного обучения / Р. С. Наговицын // Образование и саморазвитие. – 2023. – Т. 18. № 2. С. 133-148;
6.      Побединская Т. В. Использование алгоритмов машинного обучения для прогноза успеваемости учащихся основной школы / Т. В. Побединская, О. Ю. Заславская. // Вестник МГПУ. Серия: Информатика и информатизация образования. – 2022. – № 4 (62). – С. 75-82;
7.      Приходченко Е. И. Использование машинного обучения в образовании / Е. И. Приходченко, Л.В. Рудак // Донецкие чтения 2023: образование, наука, инновации, культура и вызовы современности. Материалы VIII Международной научной конференции. Донецк, – 2023. – С. 347-349;
8.      Романов Н.А. Классификация алгоритмов машинного обучения в решении прикладных задач / Н.А. Романов, Л.В. Мотайленко. // Электромеханика. Электроэнергетика. Информационные технологии. Сборник материалов 1-го Международного научно-практического семинара. – 2018. – С. 138-141;
9.      Семенова А. А. Путь машинного обучения: междисциплинарный анализ развития технологий / А. А. Семенова // Проблемы деятельности ученого и научных коллективов. – 2024. – №10 (40). – С. 98-110;
10. Худяков В. В., Ананьев А. А. Цифровые следы / В.В. Худяков, А.А. Ананьев // Криминологический журнал. – 2023. – № 4. – С. 243–246. DOI: https://doi.org/10.24412/2687-0185-2023-4-243-246;
11. Ampadu Ya. B. Handling Big Data in Education: A Review of Educational Data Mining Techniques for Specific Educational Problems // AI, Computer Science and Robotics Technology / Ya. B. Ampadu // AI, Computer Science and Robotics Technology.– 2023. –V.2;
12. Angeioplastis A. Predicting Student Performance and Enhancing Learning Outcomes: A Data-Driven Approach Using Educational Data Mining Techniques / A. Angeioplastis, J. Aliprantis, M. Konstantakis, A. Tsimpiris // Computers. – 2025. – V. 14 (№ 3). – С. 83;
13. Mallayev O.U. Mashinaviy o‘qitish algoritmlari asosida maktab bitiruvhilarining yo‘nalishlarini aniqlash modeli / O.U. Mallayev, Sh.Sh. Usarboyev, Z.B.Q. Nurova // Alfraganus. – 2024. – № 6 (6). – С. 57-63;
14. Rudolph J. “As human beings, we cannot not learn”. An interview with professor george siemens on connectivism, moocs and learning analytics / J. Rudolph, Sh. Tan. // Journal of Applied Learning and Teaching. – 2020. – V.3 (№ 1).

ВОПРОСЫ И КОММЕНТАРИИ

Система комментирования SigComments