Класифікація текстових повідомлень на основі обмежених наборів даних за допомогою мультимовних моделей глибокого навчання на прикладі булінгу в українській мові
DOI:
https://doi.org/10.20535/1560-8956.42.2023.279093Ключові слова:
мультимовні моделі, класифікація без навчання, виявлення булінгу, XLM-RoBERTa, mBERT, LASER, MUSEАнотація
Об’єктом дослідження є мультимовні моделі для роботи з обмеженими наборами даних. У статті зроблено огляд мультимовних моделей для роботи з обмеженими наборами даних, зроблено аналіз їхнього розвитку. Мультимовні моделі застосовуються для багатьох низькоресурних мов, проте українська не є однією із них. Метою роботи є підвищення ефективності текстової класифікації в умовах обмеженого набору даних українською мовою за допомогою використання мультимовних моделей, підходу навчання без цільової мови та використання машинного перекладу для створення або розширення датасету.
Бібл. 24, іл. 5, табл. 3
Посилання
Digital 2022: Global Overview Report – DataReportal – Global Digital Insights. DataReportal – Global Digital Insights. URL: https://datareportal.com/reports/digital-2022-global-overview-report (date of access: 31.03.2023).
Teens, kindness and cruelty on social network sites. Pew Research Center: Internet, Science & Tech. URL: https://www.pewresearch.org/internet/2011/11/09/teens-kindnessand-cruelty-on-social-network-sites/ (date of access: 31.03.2023).
The Annual Bullying Survey 2018. Ditch the Label. URL: https://www.ditchthelabel.org/research-papers/the-annual-bullying-survey-2018/ (date of access: 31.03.2023).
Automated Hate Speech Detection and the Problem of Offensive Language / T. Davidson та ін. // Eleventh International AAAI Conference on Web and Social Media. Montreal, 2017. C.512-515. URL: https://ojs.aaai.org/index.php/ICWSM/article/view/14955/14805
Waseem Z., Hovy D. Hateful Symbols or Hateful People? Predictive Features for Hate Speech Detection on Twitter // NAACL-HLT. San Diego, 2016. C.88-93. URL: https://aclanthology.org/N16-2013.pdf
Hate Speech Dataset from a White Supremacy Forum / O. de Gibert та ін. // Second Workshop on Abusive Language Online. Brussels, 2018. C.11 -20. URL: https://aclanthology.org/W18-5102.pdf
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / J. Devlin та ін. // NAACL-HLT. Minneapolis, 2019. C.4171 -4186. URL: https://aclanthology.org/N19-1423.pdf
Mozafari M., Farahbakhsh R., Crespi N. A BERT-Based Transfer Learning Approach for Hate Speech Detection in Online Social Media // Complex Networks and Their Applications VIII. Lisbon, 2019. C.928-940. URL: https://arxiv.org/pdf/1910.12574.pdf
Pires T., Schlinger E., Garrette D. How Multilingual is Multilingual BERT? // 57th Annual Meeting of the Association for Computational Linguistics. Florence, 2019. C.4996-5001. URL: http://aclanthology.lst.uni-saarland.de/P19-1493.pdf
Unsupervised Cross-lingual Representation Learning at Scale / N. Goyal та ін. // 58th Annual Meeting of the Association for Computational Linguistics. Online, 2020. C.8440-8451. URL: https://aclanthology.org/2020.acl-main.747.pdf
Word translation without parallel data / A. Conneau та ін. // International Conference on Learning Representations. Vancouver, 2018. C.1 -14. URL: https://arxiv.org/pdf/1710.04087.pdf
Artetxe M., Schwenk H. Massively Multilingual Sentence Embeddings for ZeroShot Cross-Lingual Transfer and Beyond // Transactions of the Association for Computational Linguistics. 2019. № 7. C.597-610 URL: https://aclanthology.org/Q19-1038.pdf
Detecting Aggressiveness in Mexican Spanish Social Media Content by FineTuning Transformer-Based Models / M. Tanase та ін. // Iberian Languages Evaluation Forum. Málaga, 2020. C.236-245. URL: https://ceur-ws.org/Vol-2664/mexa3t_paper1.pdf
Oliinyk V. Data augmentation with foreign language content in text classification using machine learning / V. Oliinyk, K. Osadcha // Adaptive systems of automatic control, 2020. Vol. 1, №36. – P. 51-59.
Pant P., Dadu T. Cross-lingual Inductive Transfer to Detect Offensive Language // Fourteenth Workshop on Semantic Evaluation. Barcelona, 2020. C.2183-2189. URL: https://aclanthology.org/2020.semeval-1.290.pdf
El-Alami F., Ouatik El Alaoui S., En Nahnahi N. A multilingual offensive language detection method based on transfer learning from transformer fine-tuning model // Journal of King Saud University - Computer and Information Sciences. 2022. № 34. C.6048-6056 URL: https://reader.elsevier.com/reader/sd/pii/S1319157821001804?token=400DBBEFDEB3C197C92C7220F40176C5D6E7BAB85578FD1B27E72D9BFB24B397E250E184320
F41A492475C14D38FADC&originRegion=eu-west-1&originCreation=20230304173708
Human-in-the-Loop for Data Collection: a Multi-Target Counter Narrative Dataset to Fight Online Hate Speech / M. Fanton та ін. // 59th Annual Meeting of the Association
for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Online, 2021. C.3226-3240. URL: https://aclanthology.org/2021.acllong.250.pdf
Mendeley Data. URL: https://data.mendeley.com/datasets/jf4pzyvnpj/1 (date of access: 31.03.2023).
ETHOS: a multi-label hate speech detection dataset / I. Mollas та ін. // Complex & Intelligent Systems. 2022. № 8. C.4663-4678 URL: https://link.springer.com/epdf/10.1007/s40747-021-00608-2?sharing_token=vAEM1mW2d-Ov8Qdn4X6uFfe4RwlQNchN
Byi7wbcMAY4kxySlPkGvlPpyqs8pkWizk22W8[18WApb4bq9YEpB6o_dp_uF_cfCSRpZSR_xPUofDiNQmT43lsSYH5mzYRYF11IwRWLatury5RR-7JXJ_a8NWrqecOCkk14s_qgCPn_2i0%3D
GitHub - DataforGoodIsrael/DetectHateSpeech: A small solution for targeting Homophobic and Sexist Tweets to be reported to Twitter by Data For Good, Israel. GitHub. URL: https://github.com/DataforGoodIsrael/DetectHateSpeech (date of access: 31.03.2023).
Multilingual and Multi-Aspect Hate Speech Analysis / N. Ousidhoum та ін. // Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing. Hong Kong, 2019. C.4675-4684. URL:
https://aclanthology.org/D19-1474.pdf
GitHub - IrynaMatviichuk/bullying-datasets. GitHub. URL: https://github.com/IrynaMatviichuk/bullying-datasets (date of access: 31.03.2023).
Almeida F., Xexeo G. Word Embeddings: A Survey / arXiv:1901.09069. - 2019.
Ямпольський Л.С. Нейротехнології та нейрокомп‟ютерні ситеми / Л.С. Ямпольський, О.І. Лісовиченко, В.В. Олійник // Д К.: «Дорадо-Друк» – 2016, 571 с.
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у нашому журналі.
2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована нашим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у нашому журналі.
3. Політика журналу дозволяє і заохочує розміщення рукопису роботи авторами в мережі Інтернет (наприклад, на arXiv.org або на особистих веб-сайтах). Причому рукописи статей можуть бути розміщенні у відкритих архівах як до подання рукопису до редакції, так і під час його редакційного опрацювання. Це сприяє виникненню продуктивної наукової дискусії, позитивно позначається на оперативності ознайомлення наукової спільноти з результатами Ваших досліджень і як наслідок на динаміці цитування вже опублікованої у журналі роботи. Детальніше про це: The Effect of Open Access.