Порівняльне дослідження формулювань задачі виявлення пропаганди з використанням великих мовних моделей
DOI:
https://doi.org/10.20535/1560-8956.47.2025.340158Ключові слова:
виявлення пропаганди, великі мовні моделі, методи пропаганди, точне налаштування, обробка природної мовиАнотація
Стаття доповнює наявні дослідження на тему виявлення пропаганди за допомогою великих мовних моделей, вивчаючи декілька підходів до формулювання задачі та їх використання з різними моделями, зокрема, GPT-4o mini and Gemma / Gemma 2, ставлячи за мету знаходження найбільш ефективного підходу. Використовуючи комбінацію двох текстових корпусів англійською та російсь-кою мовами з 18-ма техніками пропаганди, було доналаштовано моделі на символьній, фразовій та класифікаційній варіації набору даних з відповідними інструкціями, щоб визначити, яка з інструкцій приносить найкращі результати. Було проведено експерименти та порівняно результати на завданнях класифікації, ідентифікації проміжків та об’єднаному завданні, та продемонстровано явну перевагу підходу на основі фраз над підходом на основі символьних проміжків. Окрім того, отримані дані показують, що точне налаштування значно покращило ефективність моделей на завданні ідентифікації проміжків та об’єднаному завданні, водночас надаючи обмеже-ний ефект для самостійної задачі класифікації.
Бібл. 12, іл. 3, табл. 5
Посилання
Da San Martino, G., Seunghak, Y., Barrón-Cedeno, A., Petrov, R., & Nakov, P. (2019). Fine-grained Analysis of Propaganda in News Articles. In Proceedings of the 2019 conference on empirical methods in natural language processing and the 9th international joint conference on natural language processing (EMNLP-IJCNLP) (pp. 5636-5646). Association for Computational Linguistics.
Gupta, P., Saxena, K., Yaseen, U., Runkler, T., & Schütze, H. "Neural architectures for fine-grained propaganda detection in news." arXiv preprint arXiv:1909.06162, 2019.
Sprenkamp, Kilian, Daniel Gordon Jones, Liudmila Zavolokina. "Large language models for propaganda detection." arXiv preprint arXiv:2310.06422, 2023.
Hasanain, M., Hasan, M. A., Kmainasi, M. B., Sartori, E., Shahroor, A. E., Martino, G. D. S., & Alam, F. "Reasoning About Persuasion: Can LLMs Enable Explainable Propaganda Detection?". arXiv preprint arXiv:2502.16550, 2025.
Szwoch, J., Staszkow, M., Rzepka, R., & Araki, K. Limitations of large language models in propaganda detection task. Applied Sciences, 14(10), 4330, 2024.
Vijayaraghavan, Prashanth, and Soroush Vosoughi. "TWEETSPIN: Fine-grained propaganda detection in social media using multi-view representations." Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2022.
Disinformation Detection Сhallenge by AI HOUSE x Mantis Analytics. Kaggle: Your Machine Learning and Data Science Community. URL: https://www.kaggle.com/competitions/ disinformation-detection-challenge/data (application date 28.04.2025)
GPT-4o mini: advancing cost-efficient intelligence. OpenAI. URL: https://openai.com/ index/gpt-4o-mini-advancing-cost-efficient-intelligence (application date: 28.04.2025)
Gemma: Open Models Based on Gemini. Research and Technology. URL: https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf (application date 28.04.2025)
Why LLMs Can't Count the R's in 'Strawberry' & What It Teaches Us. URL: https://arbisoft.com/blogs/why-ll-ms-can-t-count-the-r-s-in-strawberry-and-what-it-teaches- us#the-case-of-strawberry (application date: 28.04.2025)
Oliinyk V. Data augmentation with foreign language content in text classification using machine learning / Oliinyk V., Osadcha K. // Adaptive systems of automatic control, 2020. Vol. 1, №36. – P. 51-59.
Oliinyk V. Low-resource text classification using cross-lingual models for bullying detection in the Ukrainian language / Oliinyk V., Matviichuk І. // Adaptive systems of automatic control, 2023. Vol. 1, №42. – P. 87-100.
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
1.Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у нашому журналі.
2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована нашим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у нашому журналі.
3. Політика журналу дозволяє і заохочує розміщення рукопису роботи авторами в мережі Інтернет (наприклад, на arXiv.org або на особистих веб-сайтах). Причому рукописи статей можуть бути розміщенні у відкритих архівах як до подання рукопису до редакції, так і під час його редакційного опрацювання. Це сприяє виникненню продуктивної наукової дискусії, позитивно позначається на оперативності ознайомлення наукової спільноти з результатами Ваших досліджень і як наслідок на динаміці цитування вже опублікованої у журналі роботи. Детальніше про це: The Effect of Open Access.