Инновации образовательной среды требуют от современного учителя не только знаний в своей специализации, но и адаптацию к новым технологиям. Среди таких технологий особую роль играют технологии, основанные на данных. Один из основоположников теории коннективизма - George Siemens, отмечает, что «современные образовательные данные позволяют выявлять закономерности в процессе обучения, создавая основу для адаптивных и персонализированных подходов» [14].
В результате активностей пользователей в цифровом пространстве собираются массивы информации, которые и не в привязке к субъекту могут быть проанализированы как цифровые следы отдельных субъектов. В общем плане «цифровые следы, представляют собой некую совокупность неструктурированных или сложно структурированных данных, хранящих разнообразную и разностороннюю, собранную по крупицам, информацию об использовании глобальной информационной сети конкретной личностью» [10]. Цифровой след можно рассматривать и в более узком контексте, например, только данные LMS и других отдельных активностей.
Коллекции цифровых следов могут составлять основу для учебной аналитики и обработки больших объемов информации. Так как такие цифровые следы могут собираться из разных источников (онлайн-платформы обучения, социальные сети и форумы, видеоконференции и т.д.), то они могут быть собраны в большие массивы данных, которые называют большими данными. Крюкова Д.В. и др. описывают большие данные как «массивы данных достаточно большого объёма, которые практически невозможно обработать или проанализировать при помощи традиционных методов, подразумевающих использование человеческого труда и настольных компьютеров» [4]. По словам авторов ключевыми особенностями являются их объем и скорость прироста данных, что требует специализированных методов обработки информации с использованием современных информационных технологий.
Использование цифровых следов трансформирует практику аналитики учебного процесса, что способствует более объективному и гибкому принятию педагогических решений. Исследователи данной области утверждают, что «технологии анализа данных становятся новым инструментом для преобразования обучения на основе принципа персонализации, для повышения эффективности образовательной системы и управления системами образования на разных уровнях образования» [2].
У педагога, применяющего результаты интеллектуального анализа образовательных данных, появляется возможность в большей мере способствовать персонализации образовательных траекторий, усовершенствовать педагогический дизайн курсов, оптимизировать образовательное взаимодействие. Для решения подобных задач существует область исследований, которая называется интеллектуальный анализ данных в образовании (Educational data mining (EDM)).
EDM по мнению Я.Б. Ампаду представляет собой «развивающуюся дисциплину, которая занимается разработкой методов изучения уникальных типов данных, поступающих из образовательных учреждений, и использованием этих методов для лучшего понимания учащихся и условий, в которых они учатся» [11]. В EDM методы машинного обучения являются необходимым инструментарием для автоматического обнаружения паттернов в наборах данных об учащихся, построения прогностических моделей и извлечения полезных данных.
В статье А.А. Семеновой машинное обучение трактуется как «ветвь искусственного интеллекта (ИИ), направленная на разработку алгоритмов и статистических моделей, которые позволяют компьютерам обучаться и принимать решения на основе данных» [9]. «Основная цель исследований в области машинного обучения - создание универсальных алгоритмов, полезных в реальных ситуациях» [1], что позволяет решать широкий класс задач за счет автоматического обнаружения закономерностей в данных и создает основу для оптимизации различных процессов.
Авторы Е.И. Приходченко и Л.В. Рудак утверждают, что одним из основных преимуществ использования машинного обучения в образовании является «возможность создания персонализированных образовательных программ», где алгоритмы анализируют данные об учениках, чтобы предоставлять индивидуальные рекомендации [7]. Анализ образовательных данных позволяет декомпозировать учебную деятельность, для выявления затруднений и оптимальных стратегии обучения для каждого учащегося.
Несмотря на растущий интерес к применению машинного обучения для генерации образовательного контента и автоматизации рутинных задач, пока ведущую роль играет стандартная аналитика данных. Чтобы эффективно использовать данные для персонализации обучения и принятия решений, необходимо выбрать подходящий алгоритм машинного обучения. Как отмечает М.К. Беликов «машинное обучение включает в себя разные типы алгоритмов: обучение с учителем и без него, обучение с частичным привлечением учителя, обучение с подкреплением и глубокое обучение» [3]. Обучение с учителем применяется для создания прогнозов на основе исторических данных с известным результатом. Его основные задачи - классификация и регрессия. Для выявления скрытых закономерностей в данных используют обучение без учителя, чаще всего этот алгоритм используется для решения задач кластеризации. Обучение с подкреплением используют в робототехнике и создании адаптивных систем. Глубокое обучение, в свою очередь, применяется для «решения сложных задач, таких как обработка естественного языка и распознавание изображений» [3].
Существует множество алгоритмов, которые можно объединить в группы, исходя из принципов их работы. Ориентируясь на типологию, предложенную Н.А. Романовой и Л.В. Мотайленко, рассмотрим некоторые примеры реальных исследований обучения с учителем [8].
Метрические алгоритмы, например k-ближайших соседей, действуют по следующему принципу: «классифицируемый объект относится к тому классу, которому принадлежат ближайшие к нему объекты обучающей выборки» [8]. Преимущество этого метода состоит в интуитивной понятности, однако его эффективность зависит от заданных метрик сходства, что может быть затруднительно при разнородных признаках.
Например, в одной из научных работ изучалась возможность прогнозирования успеваемости студентов по конкретным дисциплинам на основе их оценок за другие, коррелирующие курсы [12]. Авторы отмечают, что курсы с показателем корреляции +0,3 и выше внесли значительный положительный вклад в прогностическую эффективность моделей машинного обучения. В исследовании было продемонстрировано применение разных алгоритмов машинного обучения, таких как метод k-ближайших соседей, деревья решений, случайный лес, нейронные сети и логистическая регрессия. Для оценки результатов использовались два вида классификации: бинарная и многоклассовая. Модели бинарной классификации неизменно показывали лучшие результаты по сравнению с моделями много классовой классификации. Среди алгоритмов были выделены k-ближайших соседей, нейронные сети и случайный лес, которые показали более высокие и стабильные результаты [12].
Принцип действия логических моделей, примером которых является дерево решений, основан на построении комбинаций логических правил для классификации. Их главным достоинством является интерпретируемость полученных правил. Однако, как отмечают Н.А. Романов и Л.В. Мотайленко «для них свойственно переобучение и высокая чувствительность к шуму» [8].
Применение деревьев решений для прогнозирования трудоустройства выпускников педагогических вузов описано в исследовании Р.С. Наговицына. Модель была обучена на исторических данных 205 выпускников, содержащих 33 признака. Наилучший результат продемонстрировала «программа, разработанная на алгоритме “решающие деревья”», результат которой составил «89 % правильности прогноза» [5]. Эта модель позволяет заранее выявить студентов, которые с большой вероятностью не пойдут работать в школы, что поможет сократить потерю потенциальных педагогов.
Линейные модели, например линейная регрессия, исходят из предположений о линейной границе между классами. Как пишут исследователи: «в основе методов лежит предположение о том, что искомый закон является линейной комбинацией своих параметров» [8]. Логическая регрессия занимает позицию на стыке линейных и вероятностных подходов. Она не только дает бинарный прогноз, но и оценивает его вероятность, оставаясь при этом интерпретируемой моделью.
Другие исследователи используют алгоритм многомерной линейной регрессии для устранения неосознанного выбора будущей профессии школьниками [13]. Эта модель изучает успеваемость по математике и физике за все года обучения, активность на занятиях и дополнительные достижения. После этого на основе этих данных вычисляет вероятность того, что ученик сможет успешно проявить себя при выборе технической специальности в вузе. Таким образом, модель предлагает ученику объективную оценку, помогая обоснованный выбор образовательной траектории, соответствующий его образовательному потенциалу.
Ансамблевые методы направлены на повышение точности и устойчивости моделей. Такие алгоритмы как случайный лес и градиентный бустинг комбинируют множество деревьев решений. Принцип действия случайного леса состоит в том, что строится ансамбль независимых деревьев, на случайных подвыборках данных, что снижает риск переобучения. Градиентный бустинг создает деревья последовательно, исправляя предыдущие ошибки, что помогает достичь максимальной точности [8].
Побединская Т.В. и Заславская О.Ю в своей работе используют алгоритмы машинного обучения для прогнозирования успеваемости обучающихся основной школы на основе их «оценок, демографических, социальных и других данных» [6]. В рамках исследования было проведено сравнение двух алгоритмов: дерево решений и случайный лес. Результаты показали, что случайный лес оказался лучшим вариантом «для решения задачи прогнозирования отметок учащихся (точность прогнозирования — 81,4 %)» [6].
Обучение без учителя в отличии от рассмотренных подходов работает с данными, у которых нет заранее известных ответов. Основной задачей модели в этом случае будет нахождение скрытых закономерностей.
В качестве примера практической реализации можно рассмотреть использование алгоритмов кластеризации, где можно автоматически сегментировать студентов на группы, основываясь на их предпочтениях, стилях обучения и уровне знаний. Это позволяет преподавателю адаптировать образовательные ресурсы, задания и темп подачи материала для каждой группы обучающихся, что способствует более глубокому пониманию и повышению мотивации, так как «студенты становятся более мотивированными, когда учебный материал соответствует их интересам и уровню знаний» [7].
Таким образом, разные модели машинного обучения позволяют создать новые эффективные и информативные образовательные практики, ориентированные на совершенствование качества разных аспектов образовательного процесса. Данный инструмент становится полезным для современного педагога за счет точного анализа образовательных данных и выявления закономерностей для принятия обоснованных педагогических решений, что также может служить основой и перспективой для персонализации обучения.
Литература:
1. Алханов А. А. Машинное обучение и его применение в современном мире / А.А. Алханов // Вопросы устойчивого развития общества. – 2021. – № 7. С. 471-475;
2. Баранников К. А. Аналитика обучения как способ повышения эффективности системы управления образованием / К.А. Баранников, Р.С. Сулейманов, С.М. Лесин Р.Б. Куприянов // Вестник московского университета. Серия 20: Педагогическое образование. – 2020. – № 2. – С. 16-33;
3. Беликов М. К. Основные способы машинного обучения / М. К. Беликов // Наука и образование: сохраняя прошлое, создаём будущее. сборник статей XLIII Международной научно-практической конференции. Пенза, – 2023. – С. 19-21;
4. Крюкова Д. В. Аналитика больших данных и методы машинного обучения, возможности их использования в образовании / Д.В. Крюкова, Я.Д. Комарова, А.Г. Тимофеев // МАК: математики Алтайскому краю. – 2023. – № 5. – С. 216-219;
5. Наговицын Р. С. Прогнозирование трудоустройства студентов педагогического вуза на основе использования алгоритмов машинного обучения / Р. С. Наговицын // Образование и саморазвитие. – 2023. – Т. 18. № 2. С. 133-148;
6. Побединская Т. В. Использование алгоритмов машинного обучения для прогноза успеваемости учащихся основной школы / Т. В. Побединская, О. Ю. Заславская. // Вестник МГПУ. Серия: Информатика и информатизация образования. – 2022. – № 4 (62). – С. 75-82;
7. Приходченко Е. И. Использование машинного обучения в образовании / Е. И. Приходченко, Л.В. Рудак // Донецкие чтения 2023: образование, наука, инновации, культура и вызовы современности. Материалы VIII Международной научной конференции. Донецк, – 2023. – С. 347-349;
8. Романов Н.А. Классификация алгоритмов машинного обучения в решении прикладных задач / Н.А. Романов, Л.В. Мотайленко. // Электромеханика. Электроэнергетика. Информационные технологии. Сборник материалов 1-го Международного научно-практического семинара. – 2018. – С. 138-141;
9. Семенова А. А. Путь машинного обучения: междисциплинарный анализ развития технологий / А. А. Семенова // Проблемы деятельности ученого и научных коллективов. – 2024. – №10 (40). – С. 98-110;
10. Худяков В. В., Ананьев А. А. Цифровые следы / В.В. Худяков, А.А. Ананьев // Криминологический журнал. – 2023. – № 4. – С. 243–246. DOI: https://doi.org/10.24412/2687-0185-2023-4-243-246;
11. Ampadu Ya. B. Handling Big Data in Education: A Review of Educational Data Mining Techniques for Specific Educational Problems // AI, Computer Science and Robotics Technology / Ya. B. Ampadu // AI, Computer Science and Robotics Technology.– 2023. –V.2;
12. Angeioplastis A. Predicting Student Performance and Enhancing Learning Outcomes: A Data-Driven Approach Using Educational Data Mining Techniques / A. Angeioplastis, J. Aliprantis, M. Konstantakis, A. Tsimpiris // Computers. – 2025. – V. 14 (№ 3). – С. 83;
13. Mallayev O.U. Mashinaviy o‘qitish algoritmlari asosida maktab bitiruvhilarining yo‘nalishlarini aniqlash modeli / O.U. Mallayev, Sh.Sh. Usarboyev, Z.B.Q. Nurova // Alfraganus. – 2024. – № 6 (6). – С. 57-63;
14. Rudolph J. “As human beings, we cannot not learn”. An interview with professor george siemens on connectivism, moocs and learning analytics / J. Rudolph, Sh. Tan. // Journal of Applied Learning and Teaching. – 2020. – V.3 (№ 1).