Швидкість навчання в методі навчання з підсиленням для системи пошуку невідомого розташування цілей

Автор(и)

  • Й. Альбрехт КПІ ім. Ігоря Сікорського, Ukraine
  • A. Писаренко КПІ ім. Ігоря Сікорського, Ukraine

DOI:

https://doi.org/10.20535/1560-8956.42.2023.278916

Ключові слова:

навчання з підкріпленням, взаємонезалежні модулі, Deep Q Learning

Анотація

Об’єктом дослідження є система з різною кількістю взаємно незалежних модулів в навчанні з підкріпленням. У статті зроблено огляд досліджень пов’язаних з навчанням з підкріпленням і також необхідність визначити залежність
швидкості навчання об’єкту дослідження від кількості взаємно незалежних модулів. Метою роботи є визначення оптимальної кількості незалежних модулів при яких об’єкт дослідження навчатиметься найшвидше, а також визначити, чи можливо порівнювати системи з однаковою кількістю взаємно незалежних модулів і системи з пов’язаними між собою модулями. У дослідженні визначено середовище з двома типами об'єктів, які приносять бали в кінцеву оцінку, та використано алгоритми Deep Q Learning з 36 вхідними даними та 5 можливими результатами для проведення експерименту. Дослідження є частиною вирішення проблеми створення системи управління зграєю дронів для пошуку положення об'єктів на невідомій місцевості. У статті обговорюється проблема визначення оптимальної кількості об'єктів, для яких навчання з підкріпленням дасть найкращі результати, і чи можна порівнювати результати між зграєю об'єктів, пов'язаних однаковими вхідними даними і однією нейронною мережею, яка ними керує, і групою взаємно незалежних модулів, які приймають рішення тільки на основі вхідних даних, отриманих незалежно. У статті наведено огляд останніх проривів у галузі комп'ютерного зору та розпізнавання мови на основі ефективного навчання нейронних
мереж на дуже великих масивах даних, які мотивують використання навчання з підкріпленням. Отримані результати дослідження вказують на те, що збільшення кількості взаємно незалежних модулів при навчання системи сповільнює навчання.

Бібл. 5, іл. 5.

Посилання

Why did td-gammon work / Jordan B. Pollack and Alan D. Blair // Advances in Neural Information Processing Systems. – 1996. – T.9 – C.10-16.

Playing Atari with Deep Reinforcement Learning/ Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller // NIPS Deep Learning Workshop. – 2013

Decentralized cooperative perception for autonomous vehicles: Learning to value the unknown/ Maxime Chaverochea, Franck Davoinea, Véronique Cherfaouia // Standalone version of the last chapter of Maxime Chaveroche's doctoral thesis. – 2022.

The ReSWARM Microgravity Flight Experiments: Planning, Control, and Model Estimation for On-Orbit Close Proximity Operations / Bryce Doerr, Keenan Albee, Monica Ekal, Rodrigo Ventura, Richard Linares // Robotics. – 2023

Deep Reinforcement Learning for Multi-Agent Systems: A Review of Challenges, Solutions and Applications / Thanh Thi Nguyen, Ngoc Duy Nguyen, Weijie Jiang, Saeid Nahavandi// IEEE Transactions on Cybernetics. – 2020.

##submission.downloads##

Опубліковано

2023-05-01