Інтелектуальна система керування з підкріпленим навчанням для розв’язання задач відеоігор
DOI:
https://doi.org/10.20535/1560-8956.45.2024.313065Ключові слова:
навчання з підкріпленням, глибинне навчання, представлення стану, нейронна мережа, Battle CityАнотація
Об’єктом дослідження є інтелектуальні системи керування віртуальними агентами в відеоіграх. Метою дослідження є підвищення ефективності вирішення задачі побудови інтелектуальних агентів з використанням нейронних мереж і стратегії навчання з підкріпленням для проходження відеоігор. Для досягнення мети пропонується нейромережева модель на базі модифікованого трансформера та двох повнозв’язних нейромереж для ефективного вирішення завдань відеоігор із навчанням з підкріпленням. Продемонстровано в середовищі відеоігор Battle City, що ретельна розробка функцій стану може дати набагато кращі результати без змін в алгоритмі навчання з підкріпленням, значно прискорити навчання та надати агенту можливість узагальнювати та вирішувати раніше невідомі рівні.
Бібл. 25, іл. 5, табл. 2
Посилання
Shakya, A. K., Pillai, G., & Chakrabarty, S. (2023). Reinforcement learning algorithms: A brief survey. Expert Systems with Applications, 120495. https://doi.org/10.1016/j.eswa.2023.120495
Kommey, B., Isaac, O. J., Tamakloe, E., & Opoku, D. (2024). A Reinforcement Learning Review: Past Acts, Present Facts and Future Prospects. IT Journal Research and Development, 8(2), 120–142. https://doi.org/10.25299/itjrd.2023.13474
Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller, M. (2013). Playing Atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602. https://doi.org/10.48550/arXiv.1312.5602
Mnih, V., Badia, A. P., Mirza, M., Graves, A., Lillicrap, T., Harley, T., ... & Kavukcuoglu, K. (2016, June). Asynchronous methods for deep reinforcement learning. International conference on machine learning. pp. 1928-1937. https://doi.org/10.48550/arXiv.1602.01783
Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347. https://doi.org/10.48550/arXiv.1707.06347
Haarnoja, T., Zhou, A., Hartikainen, K., Tucker, G., Ha, S., Tan, J., ... & Levine, S. (2018). Soft actor-critic algorithms and applications. arXiv preprint arXiv:1812.05905. https://doi.org/10.48550/arXiv.1812.05905
Berner, C., Brockman, G., Chan, B., Cheung, V., Dębiak, P., Dennison, C., ... & Zhang, S. (2019). Dota 2 with large scale deep reinforcement learning. arXiv preprint arXiv:1912.06680. https://doi.org/10.48550/arXiv.1912.06680
Vinyals, O., Babuschkin, I., Czarnecki, W. M., Mathieu, M., Dudzik, A., Chung, J., ... & Silver, D. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), pp. 350-354. https://doi.org/10.1038/s41586-019-1724-z
Delfosse, Q., Blüml, J., Gregori, B., Sztwiertnia, S., & Kersting, K. (2023). OCAtari: object-centric atari 2600 reinforcement learning environments. arXiv preprint arXiv:2306.08649. https://doi.org/10.48550/arXiv.2306.08649
Espeholt, L., Soyer, H., Munos, R., Simonyan, K., Mnih, V., Ward, T., ... & Kavukcuoglu, K. (2018, July). Impala: Scalable distributed deep-rl with importance weighted actor-learner architectures. International conference on machine learning. pp. 1407-1416. https://doi.org/10.48550/arXiv.1802.01561
Sarker, I. H. (2021). Deep learning: a comprehensive overview on techniques, taxonomy, applications and research directions. SN Computer Science. Vol. 2(6), 420. https://doi.org/10.1007/s42979-021-00815-1
LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), pp. 436-444. https://doi.org/10.1038/nature14539
Shymkovych, Volodymyr, Anatoliy Doroshenko, Tural Mamedov, and Olena Yatsenko (2022) Automated Design of an Artificial Neuron for Field-Programmable Gate Arrays Based on an Algebra-Algorithmic Approach. International Scientific Technical Journal "Problems of Control and Informatics" vol. 67, no. 5, pp. 61-72.https://doi.org/10.34229/2786-6505-2022-5-6
Bezliudnyi Y., Shymkovysh V., Doroshenko A.( 2021) Convolutional neural network model and software for classification of typical pests. Prombles in programming. Vol.4, pp. 95-102. https://doi.org/10.15407/pp2021.04.095
Khurana, D., Koli, A., Khatter, K., & Singh, S. (2023). Natural language processing: State of the art, current trends and challenges. Multimedia tools and applications. Vol. 82(3), pp. 3713-3744. https://doi.org/10.1007/s11042-022-13428-4
Kravets P., Nevolko P., Shymkovych V., Shymkovych L. (2020) Synthesis of High-Speed Neuro-Fuzzy-Controllers Based on FPGA. 2020 IEEE 2nd International Conference on Advanced Trends in Information Theory (ATIT). pp. 291-295. https://doi.org/10.1109/ATIT50783.2020.9349299
Chai, J., Zeng, H., Li, A., & Ngai, E. W. (2021). Deep learning in computer vision: A critical review of emerging techniques and application scenarios. Machine Learning with Applications. Vol. 6, 100134. https://doi.org/10.1016/j.mlwa.2021.100134
Kravets, P., Novatskyi, A., Shymkovych, V., Rudakova, A., Lebedenko, Y., Rudakova, H. Neural Network Model for Laboratory Stand Control System Controller with Parallel Mechanisms. In: Hu, Z., Dychka, I., He, M. (eds) Advances in Computer Science for Engineering and Education VI. ICCSEEA 2023. Lecture Notes on Data Engineering and Communications Technologies, Springer, Cham. 2023. Vol 181. pp. 47-58 https://doi.org/10.1007/978-3-031-36118-0_5
Y.S. Hryhorenko, V.M. Shymkovysh, P.I. Kravets, A.O. Novatskyi, L.L. Shymkovysh, A.Yu. Doroshenko. A convolutional neural network model and software for the classification of the presence of a medical mask on the human face. Problems in programming. 2023. Vol. 2. pp. 59-66. https://doi.org/10.15407/pp2023.02.059
Yu, Y., Si, X., Hu, C., & Zhang, J. (2019). A review of recurrent neural networks: LSTM cells and network architectures. Neural computation. Vol. 31(7), pp. 1235-1270. https://doi.org/10.1162/neco_a_01199
Bezliudnyi Y., Shymkovych V., Kravets P., Novatsky A., Shymkovych L. Pro-russian propaganda recognition and analytics system based on text classification model and
statistical data processing methods. Адаптивні системи автоматичного управління: міжвідомчий науково-технічний збірник. 2023. № 1 (42), c. 15-31. https://doi.org/10.20535/1560-8956.42.2023.278923
Kobchenko, V. R., Shymkovysh, V. M., Kravets, P. I., Novatskyi, A. O., Shymkovysh, L. L., & Doroshenko, А. Y. (2024). An intelligent chatbot for evaluating the emotional colouring of a message and responding accordingly. PROBLEMS IN PROGRAMMING, (1), 23-29.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30. https://doi.org/10.48550/arXiv.1706.03762
Islam, S., Elmekki, H., Elsebai, A., Bentahar, J., Drawel, N., Rjoub, G., & Pedrycz, W. (2023). A comprehensive survey on applications of transformers for deep learning tasks. Expert Systems with Applications, 122666. https://doi.org/10.1016/j.eswa.2023.122666
https://colab.research.google.com/drive/1aSoqbO_wysvciYfDv4hJbL6ZS7lXFnM
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у нашому журналі.
2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована нашим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у нашому журналі.
3. Політика журналу дозволяє і заохочує розміщення рукопису роботи авторами в мережі Інтернет (наприклад, на arXiv.org або на особистих веб-сайтах). Причому рукописи статей можуть бути розміщенні у відкритих архівах як до подання рукопису до редакції, так і під час його редакційного опрацювання. Це сприяє виникненню продуктивної наукової дискусії, позитивно позначається на оперативності ознайомлення наукової спільноти з результатами Ваших досліджень і як наслідок на динаміці цитування вже опублікованої у журналі роботи. Детальніше про це: The Effect of Open Access.