Рекомендаційні системи для стримінгових платформ відеоконтенту

Автор(и)

  • В. Прядченко КПІ ім. Ігоря Сікорського, Україна
  • Т. Ліхоузова КПІ ім. Ігоря Сікорського, Україна

DOI:

https://doi.org/10.20535/1560-8956.47.2025.340203

Ключові слова:

інтелектуальний аналіз даних, рекомендаційна система, TF-IDF, DOC2VEC, S-BERT

Анотація

Робота присвячена побудові та аналізу рекомендаційних систем для стримінгових платформ. Було протестовано три моделі: TF-IDF, Doc2Vec та S-BERT, кожна з яких продемонструвала різний рівень відповідності вимогам сучасної рекомендаційної системи. Найменш ефективною виявилася модель Doc2Vec. Хоча вона теоретично здатна враховувати контекст і порядок слів, на практиці вона не адаптується до змін у даних. Її архітектура передбачає фіксацію векторів після одноразового навчання, що робить модель негнучкою у змінному середовищі, характерному для стримінгових платформ. Більш того, через згладжування векторного простору Doc2Vec демонструє завищені значення подібності навіть для абсолютно несхожих фільмів, що суттєво знижує релевантність рекомендацій. Вона ігнорує персональні атрибути фільмів, які мають критичне значення для користувача. Це робить її непридатною для практичного застосування в системах рекомендацій, де потрібна як точність, так і гнучкість. Модель TF-IDF, навпаки, виявилася доволі стабільною, простою у реалізації та корисною в задачах, де ключовим є прямий збіг термінів. Вона ефективно виявляє відповідності за іменованими атрибутами, як-от режисери, актори чи сценаристи. Незважаючи на свою обмеженість у виявленні семантичних зв’язків, TF-IDF забезпечує високу швидкість обробки та легкість налаштування, що робить її доцільним вибором для базових реалізацій або як частину гібридного підходу. Найкращі результати було досягнуто за допомогою моделі S-BERT, яка продемонструвала високу якість рекомендацій як за жанровою, так і сюжетною подібністю. Завдяки архітектурі, основаній на глибокому семантичному розумінні речень, S-BERT формує векторні подання, що ефективно захоплюють сенс описів фільмів. Хоча модель не працює напряму з персональними атрибутами, вона ком-пенсує це глибинною контекстуальною обробкою. S-BERT виявилася найбільш збалансованим інструментом, придатним для застосування у виробничому середо-вищі, незважаючи на її відносну ресурсоємність. Отримані результати можуть слугувати основою для подальшого вдосконалення системи, включно з інтеграцією гібридного підходу, що об’єднає переваги кожної моделі для досягнення ще вищої релевантності рекомендацій.

Бібл. 15, іл. 8, табл. 1

Посилання

Стаття Мilvus «What is content-based filtering in recommender systems?». URL: https://milvus.io/ai-quick-reference/what-is-contentbased-filtering-in-recommender-systems (дата звернення: 20.05.2025).

Стаття IBM «What is content-based filtering?». URL: https://www.ibm.com/ think/topics/content-based-filtering (дата звернення: 20.05.2025).

Стаття Medium «Recommendation Systems: Content-Based Filtering». URL: https://medium.com/@zbeyza/recommendation-systems-content-based-filtering-e19e3b0a309e (дата звернення: 20.05.2025).

Стаття Medium «Demystifying Latent Dirichlet Allocation: Unveiling The Power of Topic Modeling». URL: https://ai.plainenglish.io/unveiling-the-power-of-latent-dirichlet-allocation-lda-unleashing-the-potential-of-topic-3947cacbafc2 (дата звернення: 20.05.2025).

Стаття Medium «https://medium.com/@readwith_emma/understanding-okapi-bm25-document-ranking-algorithm-70d81adab001». URL: https://medium.com/ @readwith_emma/ understanding-okapi-bm25-document-ranking-algorithm-70d81adab001 (дата звернення: 20.05.2025).

Стаття 360digitmg «Non-Negative Matrix Factorization : Applications & Advantages». URL: https://360digitmg.com/blog/non-negative-matrix-factorization (дата звернення: 20.05.2025).

Стаття 33rdsquare «Supercharging Text Classification with FastText: Facebook‘s Powerful NLP Library». URL: https://33rdsquare.com/tech/ai/word-representations-text-classification-using-fasttext-nlp-facebook/ (дата звернення: 20.05.2025).

Стаття spotintelligence «What is a Universal Sentence Encoder?». URL: https://spotintelligence.com/2024/01/10/universal-sentence-encoder-explained-how-to-tensorflow-tutorial/ (дата звернення: 20.05.2025).

Juni Permana A. H. J. P., Agung Toto Wibowo. Movie recommendation system based on synopsis using content-based filtering with TF-IDF and cosine similarity. International journal on information and communication technology (ijoict). 2023. Т. 9, № 2. С. 1–14. URL: https://doi.org/10.21108/ijoict.v9i2.747 (дата звернення: 21.05.2025).

N K., V N. Influence of pre-processing strategies on sentiment analysis performance: leveraging bert, TF-IDF and glove features. Journal of machine and computing. 2025. P. 464–473. URL: https://doi.org/10.53759/7669/jmc202505036 (дата звернення: 21.05.2025).

Xie S., Yang Q. A phrase disambiguation method of “quanbu V de N” based on SBERT model and syntactic rule. Lecture notes in computer science. Cham, 2023. С. 364–374. URL: https://doi.org/10.1007/978-3-031-28956-9_29 (дата звернення: 21.05.2025).

Reimers N., Gurevych I. Sentence-BERT: sentence embeddings using siamese bert-networks. Proceedings of the 2019 conference on empirical methods in natural language processing and the 9th international joint conference on natural language processing (EMNLP-IJCNLP), м. Hong Kong, China. Stroudsburg, PA, USA, 2019. URL: https://doi.org/ 10.18653/v1/d19-1410 (дата звернення: 21.05.2025).

Westin F. Time Period Categorization in Fiction: A Comparative Analysis of Machine Learning Techniques. Cataloging & Classification Quarterly. 2024. С. 1–30. URL: https://doi.org/ 10.1080/01639374.2024.2315548 (дата звернення: 21.05.2025).

Multi-co-training for document classification using various document representations: TF–IDF, LDA, and Doc2Vec / D. Kim та ін. Information Sciences. 2019. Т. 477. С. 15–29. URL: https://doi.org/10.1016/j.ins.2018.10.006 (дата звернення: 21.05.2025).

Text Vectorization Techniques for Trending Topic Clustering on Twitter: A Comparative Evaluation of TF-IDF, Doc2Vec, and Sentence-BERT / A. D. Susanto та ін. 2023 5th International Conference on Cybernetics and Intelligent System (ICORIS), м. Pangkalpinang, Indonesia, 6–7 жовт. 2023 р. 2023. URL: https://doi.org/10.1109/icoris60118.2023.10352228 (дата звернення: 21.05.2025).

##submission.downloads##

Опубліковано

2025-09-28