Learning rate in the reinforcement learning method for unknown location targets searching system

Й. Альбрехт; A. Писаренко

doi:10.20535/1560-8956.42.2023.278916

Швидкість навчання в методі навчання з підсиленням для системи пошуку невідомого розташування цілей

Автор(и)

Й. Альбрехт КПІ ім. Ігоря Сікорського, Ukraine
A. Писаренко КПІ ім. Ігоря Сікорського, Ukraine

DOI:

https://doi.org/10.20535/1560-8956.42.2023.278916

Ключові слова:

навчання з підкріпленням, взаємонезалежні модулі, Deep Q Learning

Анотація

Об’єктом дослідження є система з різною кількістю взаємно незалежних модулів в навчанні з підкріпленням. У статті зроблено огляд досліджень пов’язаних з навчанням з підкріпленням і також необхідність визначити залежність
швидкості навчання об’єкту дослідження від кількості взаємно незалежних модулів. Метою роботи є визначення оптимальної кількості незалежних модулів при яких об’єкт дослідження навчатиметься найшвидше, а також визначити, чи можливо порівнювати системи з однаковою кількістю взаємно незалежних модулів і системи з пов’язаними між собою модулями. У дослідженні визначено середовище з двома типами об'єктів, які приносять бали в кінцеву оцінку, та використано алгоритми Deep Q Learning з 36 вхідними даними та 5 можливими результатами для проведення експерименту. Дослідження є частиною вирішення проблеми створення системи управління зграєю дронів для пошуку положення об'єктів на невідомій місцевості. У статті обговорюється проблема визначення оптимальної кількості об'єктів, для яких навчання з підкріпленням дасть найкращі результати, і чи можна порівнювати результати між зграєю об'єктів, пов'язаних однаковими вхідними даними і однією нейронною мережею, яка ними керує, і групою взаємно незалежних модулів, які приймають рішення тільки на основі вхідних даних, отриманих незалежно. У статті наведено огляд останніх проривів у галузі комп'ютерного зору та розпізнавання мови на основі ефективного навчання нейронних
мереж на дуже великих масивах даних, які мотивують використання навчання з підкріпленням. Отримані результати дослідження вказують на те, що збільшення кількості взаємно незалежних модулів при навчання системи сповільнює навчання.

Бібл. 5, іл. 5.

Посилання

Why did td-gammon work / Jordan B. Pollack and Alan D. Blair // Advances in Neural Information Processing Systems. – 1996. – T.9 – C.10-16.

Playing Atari with Deep Reinforcement Learning/ Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller // NIPS Deep Learning Workshop. – 2013

Decentralized cooperative perception for autonomous vehicles: Learning to value the unknown/ Maxime Chaverochea, Franck Davoinea, Véronique Cherfaouia // Standalone version of the last chapter of Maxime Chaveroche's doctoral thesis. – 2022.

The ReSWARM Microgravity Flight Experiments: Planning, Control, and Model Estimation for On-Orbit Close Proximity Operations / Bryce Doerr, Keenan Albee, Monica Ekal, Rodrigo Ventura, Richard Linares // Robotics. – 2023

Deep Reinforcement Learning for Multi-Agent Systems: A Review of Challenges, Solutions and Applications / Thanh Thi Nguyen, Ngoc Duy Nguyen, Weijie Jiang, Saeid Nahavandi// IEEE Transactions on Cybernetics. – 2020.

##submission.downloads##

pdf (English)

Опубліковано

2023-05-01

Номер

Том 1 № 42 (2023): Адаптивні системи автоматичного управління

Розділ

Статті

Ліцензія

Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у нашому журналі.

2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована нашим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у нашому журналі.

3. Політика журналу дозволяє і заохочує розміщення рукопису роботи авторами в мережі Інтернет (наприклад, на arXiv.org або на особистих веб-сайтах). Причому рукописи статей можуть бути розміщенні у відкритих архівах як до подання рукопису до редакції, так і під час його редакційного опрацювання. Це сприяє виникненню продуктивної наукової дискусії, позитивно позначається на оперативності ознайомлення наукової спільноти з результатами Ваших досліджень і як наслідок на динаміці цитування вже опублікованої у журналі роботи. Детальніше про це: The Effect of Open Access.