Прогнозування популярності онлайн-курсів на платформі Coursera

Автор(и)

  • Ю. Антюк Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна
  • Т. Ліхоузова Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна
  • Ю. Олійник Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна

DOI:

https://doi.org/10.20535/1560-8956.48.2026.351882

Ключові слова:

інтелектуальний аналіз даних, модель прогнозування, модель класифікації

Анотація

Робота присвячена побудові та дослідженню моделей прогнозування кількості студентів за основі рейтингу, кількості модулів, тривалості, рівня складності та типу розкладу курсів за допомогою лінійної та поліноміальної множинної регресії, Random forest та XGBoost та задачу класифікації курсів на популярні (більше 20000 студентів) та непопулярні (до 20000 студентів) методами логістичної регресії, Decision tree, Random forest та SVM.
Для моделей прогнозування найкращий баланс показників R², MAE, RMSE та MSE у нормалізованій вибірці (кількість студентів <= 40000). У цій вибірці дані мають меншу дисперсію, тому моделі можуть ефективно захопити закономірності. Поліноміальні та ансамблеві моделі показують помітно кращу якість. Цей датафрейм можна використовувати як основну підвибірку для розробки надійної моделі.
В обох розглянутих випадках класифікації курсів на популярні та непопулярні, найкращі результати стабільно демонструє модель Random Forest. Вона забезпечує найвищий precision для популярних курсів — ключової метрики для даної задачі, адже помилкова класифікація непопулярного курсу як популярного може призвести до фінансових втрат. Random Forest також демонструє збалансовані значення recall, f1-міри та загальної точності accuracy як на повному датасеті, так і на датасеті із кількістю студентів до 40000. Дерево рішень також є простою й інтерпретованою моделлю з непоганою якістю, але поступається Random Forest. Моделі SVM і логістична регресія мають нижчі показники precision для класу "популярний" і менш стабільну ефективність. Результати роботи можуть бути корисними для людей, що шукають перевірені та популярні курси для навчання і для організацій, що є провайдерами курсів.

Бібл. 9, іл. 4, табл. 2

Посилання

Офіційний сайт Coursera. URL: https://www.coursera.org/programs/program-natsional-nii-tiekhnichnii-univiersitiet-ukrayini-kiyivs-kii (дата звернення: 21.05.2025)

Вебресурс Kaggle. URL: https://www.kaggle.com/datasets (дата звернення: 21.05.2025)

Seber, G. A. F., Lee, A. J. Linear Regression Analysis [Електронний ресурс]. –2-ге вид. Wiley, 2003. 512 ст.

Al-Kasasbeh, M., Al-Azzam, N., Al-Momani, A. Modeling with polynomial regression [Електронний ресурс] // Procedia Computer Science 2012. Т. 65. С. 426–432. URL: https://www.sciencedirect.com/science/article/pii/S1877705812046085 (дата звернення: 30.05.2025)

Biau, G., Scornet, E. A random forest guided tour [Електронний ресурс] // TEST. 2016. Т. 25. С. 197–227. URL: https://link.springer.com/article/10.1007/s11749-016-0481-7 (дата звернення: 30.05.2025)

Chen, T., Guestrin, C. XGBoost: A scalable tree boosting system [Електронний ресурс] // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. – New York: ACM, 2016. С. 785–794. URL: https://dl.acm.org/doi/abs/10.1145/2939672.2939785 (дата звернення: 30.05.2025)

LaValley, M.P. Logistic regression [Електронний ресурс] // Circulation. – 2008. Т. 117, № 18. С. 2395–2399. URL: https://doi.org/10.1161/CIRCULATIONAHA.106.682658 (дата звернення: 30.05.2025)

Song, Y.-Y., Lu, Y. Decision tree methods: applications for classification and prediction [Електронний ресурс] // Shanghai Arch Psychiatry. – 2015. Т. 27, № 2. С. 130–135. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4466856/ (дата звернення: 30.05.2025)

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M. та ін. Support Vector Machines [Електронний ресурс] // Scikit-learn: Machine Learning in Python. URL: https://scikit-learn.org/stable/modules/svm.html (дата звернення: 30.05.2025)

##submission.downloads##

Опубліковано

2026-02-09