Покращення навчання з підкріпленням для складних задач руху робота

Є. Грибенко; В. Таран

doi:10.20535/1560-8956.47.2025.340167

Покращення навчання з підкріпленням для складних задач руху робота

Автор(и)

Є. Грибенко КПІ ім. Ігоря Сікорського, Україна
В. Таран КПІ ім. Ігоря Сікорського, Україна

DOI:

https://doi.org/10.20535/1560-8956.47.2025.340167

Ключові слова:

Proximal Policy Optimization, локальні оптимуми, навчання з підкріпленням, машинне навчання, рух робота

Анотація

Метою статті є вирішення проблеми сходження або застрягання рішення в небажаних локальних оптимумах при використанні PPO, що може покращити результат навчання для задач слідування робота заданим точкам або параметрам руху. Об’єктом дослідження є процес навчання з підкріпленням в задачах руху робота. В статті зроблено огляд прийомів і методів що покращують навчання, а також виділено прийоми, що допоможуть вирішити поставлену задачу руху робота з конфліктуючими нагородами та складним дослідженням простору. Для досягнення мети статті, на основі досліджених прийомів та власних експериментів запропоновано спосіб динамічної зупинки епізоду, що покращує результат навчання методом PPO на прикладі задачі слідування робота заданим точкам руху. Спосіб було застосовано до задачі слідування роботом точок руху, і порівняно результативність при різних параметрах, а також результат без застосування методу. Випробування способу показало, що він допоміг підвищити результат навчання на поставленій задачі. Запропонований спосіб є простим у застосуванні та підходить для задач машинного навчання з щільними нагородами, в яких дослідження агентом простору станів швидко виходить за рамки бажаної поведінки. Спосіб допомагає утримувати стан агента в околі оптимальної поведінки та допомагає уникнути випадків, коли агент ігнорує частину з підкріплень і результат навчання погіршується.

Бібл. 9, іл. 6, табл. 2

Посилання

MathWorks, Inc. What Is Reinforcement Learning? [Електронний ресурс] // MathWorks.com. – 2020. – Режим доступу: https://www.mathworks.com/discovery/ reinforcement-learning.html. – (дата звернення: 25.04.2025).

Hämäläinen P., Babadi A., Ma X., Lehtinen J. PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation [Електронний ресурс] // arXiv.org. – 2018. – Режим доступу: https://arxiv.org/pdf/1810.02541. – (дата звернення: 16.04.2025).

Schulman J., Wolski F., Dhariwal P., Radford A., Klimov O. Proximal Policy Optimization Algorithms [Електронний ресурс] // arXiv.org. – 2017. – Режим доступу: https://arxiv.org/pdf/1707.06347. – (дата звернення: 16.04.2025).

Haarnoja T., Zhou A., Abbeel P., Levine S. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor [Електронний ресурс] // arXiv.org. – 2018. – Режим доступу: https://arxiv.org/pdf/1801.01290. – (дата звернення: 16.04.2025).

Unity Technologies. ML-Agents Toolkit Overview [Електронний ресурс] // Unity-Technologies.github.io. – 2022. – Режим доступу: https://unity-technologies. github.io/ ml-agents/ML-Agents-Overview/. – (дата звернення: 16.04.2025).

Unity Technologies. Unity ML-Agents Toolkit: Example Learning Environments [Електронний ресурс] // Unity-Technologies.github.io. – 2022. – Режим доступу: https://unity-technologies.github.io/ml-agents/Learning-Environment-Examples/. – (дата звернення: 25.04.2025).

Rudin N., Hoeller D., Reist P., Hutter M. Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning [Електронний ресурс] // arXiv.org. – 2021. – Режим доступу: https://arxiv.org/pdf/2109.11978. – (дата звернення: 16.04.2025).

Narvekar S., Peng B., Leonetti M., Sinapov J., Taylor M. E., Stone P. Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey [Електронний ресурс] // arXiv.org. – 2020. – Режим доступу: https://arxiv.org/pdf/2003.04960. – (дата звернення: 16.04.2025).

Babadi A., Naderi K., Hämäläinen P. Self-Imitation Learning of Locomotion Movements through Termination Curriculum [Електронний ресурс] // arXiv.org. – 2019. – Режим доступу: https://arxiv.org/pdf/1907.11842. – (дата звернення: 16.04.2025).

##submission.downloads##

Опубліковано

2025-09-28

Номер

Том 2 № 47 (2025): Адаптивні системи автоматичного управління

Розділ

Статті

Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

1.Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у нашому журналі.

2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована нашим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у нашому журналі.

3. Політика журналу дозволяє і заохочує розміщення рукопису роботи авторами в мережі Інтернет (наприклад, на arXiv.org або на особистих веб-сайтах). Причому рукописи статей можуть бути розміщенні у відкритих архівах як до подання рукопису до редакції, так і під час його редакційного опрацювання. Це сприяє виникненню продуктивної наукової дискусії, позитивно позначається на оперативності ознайомлення наукової спільноти з результатами Ваших досліджень і як наслідок на динаміці цитування вже опублікованої у журналі роботи. Детальніше про це: The Effect of Open Access.

Покращення навчання з підкріпленням для складних задач руху робота

Автор(и)

DOI:

Ключові слова:

Анотація

Посилання

##submission.downloads##

Опубліковано

Номер

Розділ

Ліцензія

Мова

Подати статтю