Порівняльне дослідження формулювань задачі виявлення пропаганди з використанням великих мовних моделей

Автор(и)

  • В. Олійник КПІ ім. Ігоря Сікорського, Україна
  • Н. Захарчин КПІ ім. Ігоря Сікорського, Україна

DOI:

https://doi.org/10.20535/1560-8956.47.2025.340158

Ключові слова:

виявлення пропаганди, великі мовні моделі, методи пропаганди, точне налаштування, обробка природної мови

Анотація

Стаття доповнює наявні дослідження на тему виявлення пропаганди за допомогою великих мовних моделей, вивчаючи декілька підходів до формулювання задачі та їх використання з різними моделями, зокрема, GPT-4o mini and Gemma / Gemma 2, ставлячи за мету знаходження найбільш ефективного підходу. Використовуючи комбінацію двох текстових корпусів англійською та російсь-кою мовами з 18-ма техніками пропаганди, було доналаштовано моделі на символьній, фразовій та класифікаційній варіації набору даних з відповідними інструкціями, щоб визначити, яка з інструкцій приносить найкращі результати. Було проведено експерименти та порівняно результати на завданнях класифікації, ідентифікації проміжків та об’єднаному завданні, та продемонстровано явну перевагу підходу на основі фраз над підходом на основі символьних проміжків. Окрім того, отримані дані показують, що точне налаштування значно покращило ефективність моделей на завданні ідентифікації проміжків та об’єднаному завданні, водночас надаючи обмеже-ний ефект для самостійної задачі класифікації.

Бібл. 12, іл. 3, табл. 5

Посилання

Da San Martino, G., Seunghak, Y., Barrón-Cedeno, A., Petrov, R., & Nakov, P. (2019). Fine-grained Analysis of Propaganda in News Articles. In Proceedings of the 2019 conference on empirical methods in natural language processing and the 9th international joint conference on natural language processing (EMNLP-IJCNLP) (pp. 5636-5646). Association for Computational Linguistics.

Gupta, P., Saxena, K., Yaseen, U., Runkler, T., & Schütze, H. "Neural architectures for fine-grained propaganda detection in news." arXiv preprint arXiv:1909.06162, 2019.

Sprenkamp, Kilian, Daniel Gordon Jones, Liudmila Zavolokina. "Large language models for propaganda detection." arXiv preprint arXiv:2310.06422, 2023.

Hasanain, M., Hasan, M. A., Kmainasi, M. B., Sartori, E., Shahroor, A. E., Martino, G. D. S., & Alam, F. "Reasoning About Persuasion: Can LLMs Enable Explainable Propaganda Detection?". arXiv preprint arXiv:2502.16550, 2025.

Szwoch, J., Staszkow, M., Rzepka, R., & Araki, K. Limitations of large language models in propaganda detection task. Applied Sciences, 14(10), 4330, 2024.

Vijayaraghavan, Prashanth, and Soroush Vosoughi. "TWEETSPIN: Fine-grained propaganda detection in social media using multi-view representations." Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2022.

Disinformation Detection Сhallenge by AI HOUSE x Mantis Analytics. Kaggle: Your Machine Learning and Data Science Community. URL: https://www.kaggle.com/competitions/ disinformation-detection-challenge/data (application date 28.04.2025)

GPT-4o mini: advancing cost-efficient intelligence. OpenAI. URL: https://openai.com/ index/gpt-4o-mini-advancing-cost-efficient-intelligence (application date: 28.04.2025)

Gemma: Open Models Based on Gemini. Research and Technology. URL: https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf (application date 28.04.2025)

Why LLMs Can't Count the R's in 'Strawberry' & What It Teaches Us. URL: https://arbisoft.com/blogs/why-ll-ms-can-t-count-the-r-s-in-strawberry-and-what-it-teaches- us#the-case-of-strawberry (application date: 28.04.2025)

Oliinyk V. Data augmentation with foreign language content in text classification using machine learning / Oliinyk V., Osadcha K. // Adaptive systems of automatic control, 2020. Vol. 1, №36. – P. 51-59.

Oliinyk V. Low-resource text classification using cross-lingual models for bullying detection in the Ukrainian language / Oliinyk V., Matviichuk І. // Adaptive systems of automatic control, 2023. Vol. 1, №42. – P. 87-100.

##submission.downloads##

Опубліковано

2025-09-28