Data augmentation with foreign language content in text classification using machine learning

V. Oliinyk; K. Osadcha

doi:10.20535/1560-8956.36.2020.209763

Доповнення даних контентом на іноземних мовах в текстовій класи- фікації з використанням машинного навчання

Автор(и)

V. Oliinyk Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна
K. Osadcha Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна

DOI:

https://doi.org/10.20535/1560-8956.36.2020.209763

Ключові слова:

аналіз тональності тексту, класифікація тексту, репрезента- тивні дані, обробка даних, збільшення даних, машинне навчання, MLP.

Анотація

Об'єктом дослідження є метод аугментації даних в задачі класифікації те-
кстового контенту за допомогою методів машинного навчання. Метод розглядається на прикладі задачі визначення тональності відгуків відвідувачів про готелі. Показана необхідність застосування методів штучного збільшення кількості даних при недостатньому обсязі або репрезентативності датасету. Метою роботи є поліпшення точності роботи нейронної мережі в задачі класифікації текстів за рахунок збільшення обсягу даних. Для досягнення мети було запропоновано використання текстових даних, написаних на мовах інших сімейств, які будуть перекладається на цільову мову за допомогою Google перекладача, кінцевою мовою перекладу була обрана російська. Для нівелювання впливу моделі на результати використовується проста нейронна мережа - багатошаровий персептрон з варіаціями параметрів його структури. У статті досліджувався вплив даного методу аугментації даних на результати точності роботи мережі. За результатами роботи показана доцільність використання даного методу в ряді задач.

Бібл. 7, іл. 3, табл. 3

Посилання

Zhou X. Attention-based LSTM network for cross-lingual sentiment classification / Zhou X., Wan X., Xiao J. //Proceedings of the 2016 conference on empirical methods in natural language processing. – 2016. – P. 247-256.

Wan X. Cotraining for cross-lingual sentiment classification // Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 1-volume 1. – Association for Computational Linguistics, 2009. – P. 235-243.

Chen X. et al. Adversarial deep averaging networks for cross-lingual sentiment classification //Transactions of the Association for Computational Linguistics. – 2018. – Т. 6. – С. 557-570.

Kobayashi S. Contextual augmentation: Data augmentation by words with paradigmatic relations //arXiv preprint arXiv:1805.06201. – 2018.

Wei J. W., Zou K. Eda: Easy data augmentation techniques for boosting performance on text classification tasks //arXiv preprint rXiv:1901.11196. – 2019.

Романенко А.Ю. Узагальнена модель розпізнавання голосових команд / А.Ю. Романенко, В.В. Олійник // Міжвідомчий науково-технічний збірник «Адаптивні Системи Автоматичного Управління», К:Політехніка – 2017. – Т.1, №30 – С. 130-139.

Ямпольський Л.С. Нейротехнології та нейрокомп‟ютерні ситеми/Л.С. Ямпольський, О.І. Лісовиченко, В.В. Олійник // Д К.: «Дорадо-Друк» – 2016, 571 с.

##submission.downloads##

PDF (English)

Опубліковано

2020-08-11

Номер

Том 1 № 36 (2020): Адаптивні системи автоматичного управління

Розділ

Статті

Ліцензія

1.Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у нашому журналі.

2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована нашим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у нашому журналі.

3. Політика журналу дозволяє і заохочує розміщення рукопису роботи авторами в мережі Інтернет (наприклад, на arXiv.org або на особистих веб-сайтах). Причому рукописи статей можуть бути розміщенні у відкритих архівах як до подання рукопису до редакції, так і під час його редакційного опрацювання. Це сприяє виникненню продуктивної наукової дискусії, позитивно позначається на оперативності ознайомлення наукової спільноти з результатами Ваших досліджень і як наслідок на динаміці цитування вже опублікованої у журналі роботи. Детальніше про це: The Effect of Open Access.