Прогнозування популярності онлайн-курсів на платформі Coursera
DOI:
https://doi.org/10.20535/1560-8956.48.2026.351882Ключові слова:
інтелектуальний аналіз даних, модель прогнозування, модель класифікаціїАнотація
Робота присвячена побудові та дослідженню моделей прогнозування кількості студентів за основі рейтингу, кількості модулів, тривалості, рівня складності та типу розкладу курсів за допомогою лінійної та поліноміальної множинної регресії, Random forest та XGBoost та задачу класифікації курсів на популярні (більше 20000 студентів) та непопулярні (до 20000 студентів) методами логістичної регресії, Decision tree, Random forest та SVM.
Для моделей прогнозування найкращий баланс показників R², MAE, RMSE та MSE у нормалізованій вибірці (кількість студентів <= 40000). У цій вибірці дані мають меншу дисперсію, тому моделі можуть ефективно захопити закономірності. Поліноміальні та ансамблеві моделі показують помітно кращу якість. Цей датафрейм можна використовувати як основну підвибірку для розробки надійної моделі.
В обох розглянутих випадках класифікації курсів на популярні та непопулярні, найкращі результати стабільно демонструє модель Random Forest. Вона забезпечує найвищий precision для популярних курсів — ключової метрики для даної задачі, адже помилкова класифікація непопулярного курсу як популярного може призвести до фінансових втрат. Random Forest також демонструє збалансовані значення recall, f1-міри та загальної точності accuracy як на повному датасеті, так і на датасеті із кількістю студентів до 40000. Дерево рішень також є простою й інтерпретованою моделлю з непоганою якістю, але поступається Random Forest. Моделі SVM і логістична регресія мають нижчі показники precision для класу "популярний" і менш стабільну ефективність. Результати роботи можуть бути корисними для людей, що шукають перевірені та популярні курси для навчання і для організацій, що є провайдерами курсів.
Бібл. 9, іл. 4, табл. 2
Посилання
Офіційний сайт Coursera. URL: https://www.coursera.org/programs/program-natsional-nii-tiekhnichnii-univiersitiet-ukrayini-kiyivs-kii (дата звернення: 21.05.2025)
Вебресурс Kaggle. URL: https://www.kaggle.com/datasets (дата звернення: 21.05.2025)
Seber, G. A. F., Lee, A. J. Linear Regression Analysis [Електронний ресурс]. –2-ге вид. Wiley, 2003. 512 ст.
Al-Kasasbeh, M., Al-Azzam, N., Al-Momani, A. Modeling with polynomial regression [Електронний ресурс] // Procedia Computer Science 2012. Т. 65. С. 426–432. URL: https://www.sciencedirect.com/science/article/pii/S1877705812046085 (дата звернення: 30.05.2025)
Biau, G., Scornet, E. A random forest guided tour [Електронний ресурс] // TEST. 2016. Т. 25. С. 197–227. URL: https://link.springer.com/article/10.1007/s11749-016-0481-7 (дата звернення: 30.05.2025)
Chen, T., Guestrin, C. XGBoost: A scalable tree boosting system [Електронний ресурс] // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. – New York: ACM, 2016. С. 785–794. URL: https://dl.acm.org/doi/abs/10.1145/2939672.2939785 (дата звернення: 30.05.2025)
LaValley, M.P. Logistic regression [Електронний ресурс] // Circulation. – 2008. Т. 117, № 18. С. 2395–2399. URL: https://doi.org/10.1161/CIRCULATIONAHA.106.682658 (дата звернення: 30.05.2025)
Song, Y.-Y., Lu, Y. Decision tree methods: applications for classification and prediction [Електронний ресурс] // Shanghai Arch Psychiatry. – 2015. Т. 27, № 2. С. 130–135. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4466856/ (дата звернення: 30.05.2025)
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M. та ін. Support Vector Machines [Електронний ресурс] // Scikit-learn: Machine Learning in Python. URL: https://scikit-learn.org/stable/modules/svm.html (дата звернення: 30.05.2025)
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
1.Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у нашому журналі.
2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована нашим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у нашому журналі.
3. Політика журналу дозволяє і заохочує розміщення рукопису роботи авторами в мережі Інтернет (наприклад, на arXiv.org або на особистих веб-сайтах). Причому рукописи статей можуть бути розміщенні у відкритих архівах як до подання рукопису до редакції, так і під час його редакційного опрацювання. Це сприяє виникненню продуктивної наукової дискусії, позитивно позначається на оперативності ознайомлення наукової спільноти з результатами Ваших досліджень і як наслідок на динаміці цитування вже опублікованої у журналі роботи. Детальніше про це: The Effect of Open Access.