Методи генерації зображень з використанням мереж GAN
DOI:
https://doi.org/10.20535/1560-8956.42.2023.279109Ключові слова:
штучний інтелект, нейронні мережі, генерація зображень, глибоке навчання, мережа GAN(Generative adversarial networks)Анотація
Машинна генерація даних: тексту та зображень що будуть мати сенс для людини є досить складною задачею. Було створено багато різноманітних алгоритмів, що показували різну якість, але не могли наблизитися до результатів, що не
можна відрізнити від людської роботи. Одним з таких алгоритмів була мережа GAN, що з’явилася у 2014 році, протягом останніх восьми років досягла значних покращень через зміни у базовому алгоритмі, підвищенні якості використовуваних даних та збільшенні обчислювальних потужностей, що дозволило використовувати набагато більші об’єми якісних даних. Наразі, існують декілька модифікацій даної мережі, що активно використовуються. Отже, об’єктом дослідження даної статті є алгоритми генерації зображень, засновані на мережах GAN. У роботі зроблено огляд основних використань даної мережі для генерації зображень та типів основних алгоритмів, що можуть бути використані для цього. Загалом, усі GAN можна розділити на чотири основні категорії: Conditional GAN (CGAN), Progressive GAN (PGAN), StyleGAN, and CycleGAN, які використовуються для виконання різних задач. Дана модель складається з двох основних частин: генератора та дискримінатора. Генератор створює нові екземпляри з вхідних даних в латентному просторі, тоді як дискримінатор визначає, чи є дані згенеровані екземпляри реальними чи штучними.
Обидві моделі тренуються на основі передбачень дискримінатора, а коефіцієнти змінюються на основі алгоритму MinMax. Після цього, описано деякі з основних модифікацій мережі, такі як StyleSwin, CWGAN, Layered Recursive GAN та CVAE-GAN. Вони використовуються для покращення моделі та її основних параметрів, таких як швидкість навчання, якість отриманого результату та кількість артефактів, що можуть з’являтися під час її роботи.
Бібл. 13, іл. 5
Посилання
Durgadevi M. Generative adversarial network (gan): a general review on different variants of gan and applications // 6th International Conference on Communication and Electronics Systems (ICCES). Coimbatore, 2021. C.1 -8.
Photo-realistic single image super-resolution using a generative adversarial network / C. Ledig та ін. // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Silver Spring, 2017. C.4681 -4690.
Group consistent similarity learning via deep crf for person re-identification / D. Chen та ін. // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018. C.8649-8658.
Li C., Wand M. Precomputed real-time texture synthesis with markovian generative adversarial networks // European Conference on Computer Vision. Springer, 2016. C.702-716.
Byung-Gil H., Jong Taek L., Kil-Taek L. License Plate Image Generation using Generative Adversarial Networks for End-To-End License Plate Character Recognition from a Small Set of Real Images // Applied Sciences. 2020. № 10, 2780.
Hussain S., Anees A., Das A. High-content image generation for drug discovery using generative adversarial networks // Neural Networks. 2020. № 132. C.353-363.
Minaee, S., & Abdolrashidi, A. (2018). Iris-GAN: Learning to Generate Realistic Iris Images Using Convolutional GAN. arXiv:1812.04822.
Heim E. Constrained Generative Adversarial Networks for Interactive Image Generation // CVPR 2019. Long Beach, 2019.
Minaee S., Abdolrashidi A. Iris-GAN: Learning to Generate Realistic Iris Images Using Convolutional GAN // arXiv. 2018. № 1511.06434.
StyleSwin: Transformer-based GAN for High-resolution Image Generation / Z. Bowen та ін. // CVPR 2022. New Orleans, 2022.
CWGAN: Conditional Wasserstein Generative Adversarial Nets for Fault Data Generation / Y. Yu та ін. // 2019 IEEE International Conference on Robotics and Biomimetics (ROBIO). Dali, 2019.
Yang J., Kannan A., Batra D. LR-GAN: Layered recursive generative adversatial networks for image generation // ICLR 2017. Toulon, 2017.
Bao J. Fine-Grained Image Generation through Asymmetric Training // 2017 IEEE International Conference on Computer Vision (ICCV). Venice , 2017.
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у нашому журналі.
2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована нашим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у нашому журналі.
3. Політика журналу дозволяє і заохочує розміщення рукопису роботи авторами в мережі Інтернет (наприклад, на arXiv.org або на особистих веб-сайтах). Причому рукописи статей можуть бути розміщенні у відкритих архівах як до подання рукопису до редакції, так і під час його редакційного опрацювання. Це сприяє виникненню продуктивної наукової дискусії, позитивно позначається на оперативності ознайомлення наукової спільноти з результатами Ваших досліджень і як наслідок на динаміці цитування вже опублікованої у журналі роботи. Детальніше про це: The Effect of Open Access.