Методи та компоненти обробки природної мови
DOI:
https://doi.org/10.20535/1560-8956.36.2020.209780Ключові слова:
NLP, мовна модель, RNN, GRU, LSTM, кодер, декодер, трансфорормер, трансферне навчання, глибоке навчання, нейронна мережа.Анотація
В даний час мовні моделі дозволяють забезпечувати високу точність при
вирішенні ряду задач обробки природної мови (natural language processing – NLP). До таких завдань відносяться – машинний переклад, розпізнавання мови, пошук інформації, аналіз настроїв, узагальнення, відповіді на питання, розробка багатомовних діалогових систем і багато іншого. Стаття присвячена дослідженню та аналізу найбільш поширених в даний час методів і конструкцій для побудови і навчання мовних моделей, які дозволяють отримати найкращі результати. Розглядаються методи та компоненти, що застосовуються при створенні мовних моделей та їх частин. Особлива увага приділяється рекурентним нейронним мережам, механізмам представлення словників, архітектурі «кодера» і «декодера», концепції «уваги», а також розпаралелюванню з використанням «Transformer». Встановлено, що найбільш перспективними методами є: попереднє навчання моделей на
великих масивах даних з подальшою тонкою настройкою; нейронні мережі, засновані на увазі, як частині дизайну моделі; складний ансамбль багатовимірних представлень словників для побудови глибокого розуміння контексту. Архітектури, засновані на цих підходах, вимагають великої обчислювальної потужності для навчання моделей, що визначає напрямок подальших досліджень.
Бібл. 49, іл. 13
Посилання
Britz, D., Goldie, A., Luong, M.-T., & Le, Q. Massive exploration of neural machine translation architectures. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, 2017, pp. 1442–1451.
Cho, K., van Merrienboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. Learning phrase representations using rnn encoder–decoder for statistical machine translation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, pp. 1724–1734.
Sutskever, I., Vinyals, O., & Le, Q. Sequence to Sequence Learning with Neural Networks. In Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 2, 2014, pp. 3104–3112.
Krizhevsky, A., Sutskever, I., & Hinton, G. E. ImageNet classification with deep convolutional neural networks. Communications of the ACM, 60(6), 2017, pp. 84–90.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., Sutskever, I. Language models are unsupervised multitask learners. OpenAI Blog 1(8):9, 2019.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. Unsupervised crosslingual representation learning at scale. ArXiv:1911.02116, 2020.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. Bert: Pre-training of deep bidirectional transformers for language understanding. ArXiv:1810.04805, 2019
Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R., & Le, Q. V. Xlnet: Generalized autoregressive pretraining for language understanding. ArXiv:1906.08237, 2020.
Cho, K., van Merrienboer, B., Bahdanau, D., & Bengio, Y. On the properties of neural machine translation: Encoder–decoder approaches. Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation, 2014, pp. 103–111.
Nayak, T., & Ng, H. T. Effective modeling of encoder-decoder architecture for joint entity and relation extraction. ArXiv:1911.09886, 2019.
Dai, Z., Yang, Z., Yang, Y., Carbonell, J., Le, Q., & Salakhutdinov, R. Transformer-xl: Attentive language models beyond a fixed-length context. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019, pp. 2978–2988.
Gordon, M. A., Duh, K., & Andrews, N. (2020). Compressing bert: Studying the effects of weight pruning on transfer learning. ArXiv:2002.08307.
Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R., & Le, Q. V. Xlnet: Generalized autoregressive pretraining for language understanding. ArXiv:1906.08237, 2020.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. Bert: Pre-training of deep bidirectional transformers for language understanding. ArXiv:1810.04805, 2019.
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. Roberta: A robustly optimized bert pretraining approach. ArXiv:1907.11692, 2019.
Liu, Q., Kusner, M. J., & Blunsom, P. A survey on contextual embeddings. ArXiv:2003.07278, 2020.
Pennington, J., Socher, R., & Manning, C. Glove: Global vectors for word representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, pp. 1532–1543.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. Efficient Estimation of Word Representations in Vector Space. In Proceedings of the First International Conference on Learning Representations, 2013, pp. 1–13.
Lebret, R., & Collobert, R. Word embeddings through hellinger pca. Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, 2014, pp. 482–490.
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. Deep contextualized word representations. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), 2018, pp. 2227–2237.
Kristoffersen, M. S., Wieland, J. L., Shepstone, S. E., Tan, Z.-H., & Vinayagamoorthy, V. Deep joint embeddings of context and content for
recommendation. ArXiv:1909.06076, 2019.
Zhang, Y., & Ma, Q. Citation recommendations considering content and structural context embedding. ArXiv:2001.02344, 2020.
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. Distributed Representations of Words and Phrases and their Compositionality. In Advances in Neural Information Processing Systems 26, 2013, pp. 3111–3119.
Cho, K., van Merrienboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. Learning phrase representations using rnn encoder–decoder for statistical machine translation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, pp. 1724–1734.
Arjovsky, M., Shah, A., & Bengio, Y. Unitary Evolution Recurrent Neural Networks. In Proceedings of the 33rd International Conference on International Conference on Machine Learning - Volume 48, 2016, pp. 1120–1128.
Zilly, J., Srivastava, R., Koutník, J., & Schmidhuber, J. Recurrent Highway Networks. Proceedings of the 34th International Conference on Machine Learning, 2017, pp. 4189–4198.
Rumelhart, D., Hinton, G., & Williams, R. Learning Representations by Back-propagating Errors. Nature, 323(6088), 1986, pp. 533–536.
You, Y., & Nikolaou, M. (1993). Dynamic process modeling with recurrent neural networks. AIChE Journal, 39(10), pp. 1654–1667.
Pascanu, R., Gulcehre, C., Cho, K., & Bengio, Y. How to construct deep recurrent neural networks. ArXiv:1312.6026, 2014.
Chung, J., Ahn, S., & Bengio, Y. Hierarchical Multiscale Recurrent Neural Networks. International Conference on Learning Representations (ICLR), 2017.
Goodfellow, I., Bengio, Y., & Courville, A. Deep Learning. Sequence Modeling: Recurrent and Recursive Nets, 2016, pp. 367-415.
Semeniuta, S., Severyn, A., & Barth, E. Recurrent Dropout without Memory Loss. In Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, 2016, pp. 1757–1766.
Zhang, S., Wu, Y., Che, T., Lin, Z., Memisevic, R., Salakhutdinov, R., & Bengio, Y. Architectural Complexity Measures of Recurrent Neural Networks. Neural Information Processing Systems, 2016, pp. 1822-1830.
Bengio, Y., Simard, P., & Frasconi, P. Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural Networks, 5(2), 1994, pp. 157–166.
Chung, J., Gulcehre, С., Cho, K., & Bengio, Y. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling. NIPS 2014 Workshop on Deep Learning and Representation Learning, 2014.
Dey, R., & Salem, F. M. Gate-variants of Gated Recurrent Unit (Gru) neural networks. 2017 IEEE 60th International Midwest Symposium on Circuits and Systems (MWSCAS), 2017, pp. 1597–1600.
Sak, H., Senior, A., & Beaufays, F. Long short-term memory recurrent neural network architectures for large scale acoustic modeling. INTERSPEECH, 2014, pp. 338-342.
Li, X., & Wu, X. Constructing long short-term memory based deep recurrent neural networks for large vocabulary speech recognition. 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015, pp. 4520–4524.
Greff, K., Srivastava, R. K., Koutnik, J., Steunebrink, B. R., & Schmidhuber, J. Lstm: A search space odyssey. IEEE Transactions on Neural Networks and Learning Systems, 28(10), 2017, pp. 2222–2232.
Hochreiter, S., & Schmidhuber, J. Long short-term memoryNeural computation, 9(8), 1997, pp. 1735–1780.
Weiss, G., Goldberg, Y., & Yahav, E. On the practical computational power of finite precision rnns for language recognition. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), 2018, pp. 740–745.
Schuster, M., & Paliwal, K. Bidirectional recurrent neural networks. IEEE Transactions on Signal Processing, 45(11), 1997, pp. 2673–2681.
Berglund, M., Raiko, T., Honkala, M., Kärkkäinen, L., Vetek, A., & Karhunen, J. Bidirectional Recurrent Neural Networks as Generative Models. Neural Information Processing Systems, 2015, pp. 856-864.
Mousa, A., & Schuller, B. Contextual bidirectional long short-term memory recurrent neural network language models: A generative approach to sentiment analysis. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers, 2017, pp. 1023–1032.
Bahdanau, D., Cho, K., & Bengio, Y. Neural Machine Translation by Jointly Learning to Align and Translate. In International Conference on Learning Representations (ICLR), 2015.
Luong, T., Pham, H., & Manning, C. D. Effective approaches to attentionbased neural machine translation. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 2015, pp. 1412–1421.
Hochreiter, S., Bengio, Y., Frasconi, P., & Schmidhuber, J. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, Ł., & Polosukhin, I. Attention is All you Need. In Advances in Neural Information Processing Systems 30, 2017, pp. 5998–6008.
Howard, J., & Ruder, S. Universal language model fine-tuning for text
classification. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2018, pp. 328–339.
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у нашому журналі.
2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована нашим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у нашому журналі.
3. Політика журналу дозволяє і заохочує розміщення рукопису роботи авторами в мережі Інтернет (наприклад, на arXiv.org або на особистих веб-сайтах). Причому рукописи статей можуть бути розміщенні у відкритих архівах як до подання рукопису до редакції, так і під час його редакційного опрацювання. Це сприяє виникненню продуктивної наукової дискусії, позитивно позначається на оперативності ознайомлення наукової спільноти з результатами Ваших досліджень і як наслідок на динаміці цитування вже опублікованої у журналі роботи. Детальніше про це: The Effect of Open Access.