Класифікація текстових повідомлень на основі обмежених наборів даних за допомогою мультимовних моделей глибокого навчання на прикладі булінгу в українській мові

Автор(и)

  • В. Олійник КПІ ім. Ігоря Сікорського, Україна
  • І. Матвійчук КПІ ім. Ігоря Сікорського, Україна

DOI:

https://doi.org/10.20535/1560-8956.42.2023.279093

Ключові слова:

мультимовні моделі, класифікація без навчання, виявлення булінгу, XLM-RoBERTa, mBERT, LASER, MUSE

Анотація

Об’єктом дослідження є мультимовні моделі для роботи з обмеженими наборами даних. У статті зроблено огляд мультимовних моделей для роботи з обмеженими наборами даних, зроблено аналіз їхнього розвитку. Мультимовні моделі застосовуються для багатьох низькоресурних мов, проте українська не є однією із них. Метою роботи є підвищення ефективності текстової класифікації в умовах обмеженого набору даних українською мовою за допомогою використання мультимовних моделей, підходу навчання без цільової мови та використання машинного перекладу для створення або розширення датасету.

Бібл. 24, іл. 5, табл. 3

Посилання

Digital 2022: Global Overview Report – DataReportal – Global Digital Insights. DataReportal – Global Digital Insights. URL: https://datareportal.com/reports/digital-2022-global-overview-report (date of access: 31.03.2023).

Teens, kindness and cruelty on social network sites. Pew Research Center: Internet, Science & Tech. URL: https://www.pewresearch.org/internet/2011/11/09/teens-kindnessand-cruelty-on-social-network-sites/ (date of access: 31.03.2023).

The Annual Bullying Survey 2018. Ditch the Label. URL: https://www.ditchthelabel.org/research-papers/the-annual-bullying-survey-2018/ (date of access: 31.03.2023).

Automated Hate Speech Detection and the Problem of Offensive Language / T. Davidson та ін. // Eleventh International AAAI Conference on Web and Social Media. Montreal, 2017. C.512-515. URL: https://ojs.aaai.org/index.php/ICWSM/article/view/14955/14805

Waseem Z., Hovy D. Hateful Symbols or Hateful People? Predictive Features for Hate Speech Detection on Twitter // NAACL-HLT. San Diego, 2016. C.88-93. URL: https://aclanthology.org/N16-2013.pdf

Hate Speech Dataset from a White Supremacy Forum / O. de Gibert та ін. // Second Workshop on Abusive Language Online. Brussels, 2018. C.11 -20. URL: https://aclanthology.org/W18-5102.pdf

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / J. Devlin та ін. // NAACL-HLT. Minneapolis, 2019. C.4171 -4186. URL: https://aclanthology.org/N19-1423.pdf

Mozafari M., Farahbakhsh R., Crespi N. A BERT-Based Transfer Learning Approach for Hate Speech Detection in Online Social Media // Complex Networks and Their Applications VIII. Lisbon, 2019. C.928-940. URL: https://arxiv.org/pdf/1910.12574.pdf

Pires T., Schlinger E., Garrette D. How Multilingual is Multilingual BERT? // 57th Annual Meeting of the Association for Computational Linguistics. Florence, 2019. C.4996-5001. URL: http://aclanthology.lst.uni-saarland.de/P19-1493.pdf

Unsupervised Cross-lingual Representation Learning at Scale / N. Goyal та ін. // 58th Annual Meeting of the Association for Computational Linguistics. Online, 2020. C.8440-8451. URL: https://aclanthology.org/2020.acl-main.747.pdf

Word translation without parallel data / A. Conneau та ін. // International Conference on Learning Representations. Vancouver, 2018. C.1 -14. URL: https://arxiv.org/pdf/1710.04087.pdf

Artetxe M., Schwenk H. Massively Multilingual Sentence Embeddings for ZeroShot Cross-Lingual Transfer and Beyond // Transactions of the Association for Computational Linguistics. 2019. № 7. C.597-610 URL: https://aclanthology.org/Q19-1038.pdf

Detecting Aggressiveness in Mexican Spanish Social Media Content by FineTuning Transformer-Based Models / M. Tanase та ін. // Iberian Languages Evaluation Forum. Málaga, 2020. C.236-245. URL: https://ceur-ws.org/Vol-2664/mexa3t_paper1.pdf

Oliinyk V. Data augmentation with foreign language content in text classification using machine learning / V. Oliinyk, K. Osadcha // Adaptive systems of automatic control, 2020. Vol. 1, №36. – P. 51-59.

Pant P., Dadu T. Cross-lingual Inductive Transfer to Detect Offensive Language // Fourteenth Workshop on Semantic Evaluation. Barcelona, 2020. C.2183-2189. URL: https://aclanthology.org/2020.semeval-1.290.pdf

El-Alami F., Ouatik El Alaoui S., En Nahnahi N. A multilingual offensive language detection method based on transfer learning from transformer fine-tuning model // Journal of King Saud University - Computer and Information Sciences. 2022. № 34. C.6048-6056 URL: https://reader.elsevier.com/reader/sd/pii/S1319157821001804?token=400DBBEFDEB3C197C92C7220F40176C5D6E7BAB85578FD1B27E72D9BFB24B397E250E184320

F41A492475C14D38FADC&originRegion=eu-west-1&originCreation=20230304173708

Human-in-the-Loop for Data Collection: a Multi-Target Counter Narrative Dataset to Fight Online Hate Speech / M. Fanton та ін. // 59th Annual Meeting of the Association

for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Online, 2021. C.3226-3240. URL: https://aclanthology.org/2021.acllong.250.pdf

Mendeley Data. URL: https://data.mendeley.com/datasets/jf4pzyvnpj/1 (date of access: 31.03.2023).

ETHOS: a multi-label hate speech detection dataset / I. Mollas та ін. // Complex & Intelligent Systems. 2022. № 8. C.4663-4678 URL: https://link.springer.com/epdf/10.1007/s40747-021-00608-2?sharing_token=vAEM1mW2d-Ov8Qdn4X6uFfe4RwlQNchN

Byi7wbcMAY4kxySlPkGvlPpyqs8pkWizk22W8[18WApb4bq9YEpB6o_dp_uF_cfCSRpZSR_xPUofDiNQmT43lsSYH5mzYRYF11IwRWLatury5RR-7JXJ_a8NWrqecOCkk14s_qgCPn_2i0%3D

GitHub - DataforGoodIsrael/DetectHateSpeech: A small solution for targeting Homophobic and Sexist Tweets to be reported to Twitter by Data For Good, Israel. GitHub. URL: https://github.com/DataforGoodIsrael/DetectHateSpeech (date of access: 31.03.2023).

Multilingual and Multi-Aspect Hate Speech Analysis / N. Ousidhoum та ін. // Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing. Hong Kong, 2019. C.4675-4684. URL:

https://aclanthology.org/D19-1474.pdf

GitHub - IrynaMatviichuk/bullying-datasets. GitHub. URL: https://github.com/IrynaMatviichuk/bullying-datasets (date of access: 31.03.2023).

Almeida F., Xexeo G. Word Embeddings: A Survey / arXiv:1901.09069. - 2019.

Ямпольський Л.С. Нейротехнології та нейрокомп‟ютерні ситеми / Л.С. Ямпольський, О.І. Лісовиченко, В.В. Олійник // Д К.: «Дорадо-Друк» – 2016, 571 с.

##submission.downloads##

Опубліковано

2023-05-01