Доповнення даних контентом на іноземних мовах в текстовій класи- фікації з використанням машинного навчання

Автор(и)

  • V. Oliinyk Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Ukraine
  • K. Osadcha Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Ukraine

DOI:

https://doi.org/10.20535/1560-8956.36.2020.209763

Ключові слова:

аналіз тональності тексту, класифікація тексту, репрезента- тивні дані, обробка даних, збільшення даних, машинне навчання, MLP.

Анотація

Об'єктом дослідження є метод аугментації даних в задачі класифікації те-
кстового контенту за допомогою методів машинного навчання. Метод розглядається на прикладі задачі визначення тональності відгуків відвідувачів про готелі. Показана необхідність застосування методів штучного збільшення кількості даних при недостатньому обсязі або репрезентативності датасету. Метою роботи є поліпшення точності роботи нейронної мережі в задачі класифікації текстів за рахунок збільшення обсягу даних. Для досягнення мети було запропоновано використання текстових даних, написаних на мовах інших сімейств, які будуть перекладається на цільову мову за допомогою Google перекладача, кінцевою мовою перекладу була обрана російська. Для нівелювання впливу моделі на результати використовується проста нейронна мережа - багатошаровий персептрон з варіаціями параметрів його структури. У статті досліджувався вплив даного методу аугментації даних на результати точності роботи мережі. За результатами роботи показана доцільність використання даного методу в ряді задач.

Бібл. 7, іл. 3, табл. 3

Посилання

Zhou X. Attention-based LSTM network for cross-lingual sentiment classification / Zhou X., Wan X., Xiao J. //Proceedings of the 2016 conference on empirical methods in natural language processing. – 2016. – P. 247-256.

Wan X. Cotraining for cross-lingual sentiment classification // Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 1-volume 1. – Association for Computational Linguistics, 2009. – P. 235-243.

Chen X. et al. Adversarial deep averaging networks for cross-lingual sentiment classification //Transactions of the Association for Computational Linguistics. – 2018. – Т. 6. – С. 557-570.

Kobayashi S. Contextual augmentation: Data augmentation by words with paradigmatic relations //arXiv preprint arXiv:1805.06201. – 2018.

Wei J. W., Zou K. Eda: Easy data augmentation techniques for boosting performance on text classification tasks //arXiv preprint rXiv:1901.11196. – 2019.

Романенко А.Ю. Узагальнена модель розпізнавання голосових команд / А.Ю. Романенко, В.В. Олійник // Міжвідомчий науково-технічний збірник «Адаптивні Системи Автоматичного Управління», К:Політехніка – 2017. – Т.1, №30 – С. 130-139.

Ямпольський Л.С. Нейротехнології та нейрокомп‟ютерні ситеми/Л.С. Ямпольський, О.І. Лісовиченко, В.В. Олійник // Д К.: «Дорадо-Друк» – 2016, 571 с.

##submission.downloads##

Опубліковано

2020-08-11