Дуальна архітектура програмного забезпечення для автоматизації розмітки даних для задач комп’ютерного зору

Автор(и)

  • О. Зарічковий КПІ ім. Ігоря Сікорського, Україна

DOI:

https://doi.org/10.20535/1560-8956.45.2024.313096

Ключові слова:

розмітка даних, автоматизація розмітки, алгоритми комп’ютерного зору, алгоритми нульового навчання, алгоритми активного навчання

Анотація

Метою даної роботи було розробити ефективну дуальну архітектуру для автоматизації процесу розмітки відеоданих. Об'єктом дослідження були різні підходи до автоматизації розмітки, зокрема методи, що базуються на нульовому навчанні та активному навчанні. У дослідженні були розглянуті існуючі методи розмітки, їхні переваги та недоліки, а також аналіз їхньої ефективності в різних умовах. Вперше запропоновано дуальну архітектуру програмного забезпечення для розмітки зображень та відеоданих, яка являє собою поєднання двох підходів до розмітки даних – використання попередньо навчених алгоритмів нульового навчання (zero-shot learning) та навчання алгоритмів машинного навчання в процесі розмітки даних, що дає змогу використати переваги обох підходів та нівелювати недоліки. На відміну від існуючих підходів запропонована дуальна архітектура дозволяє отримати пришвидшення процесу на 125% відносно підходів без автоматизації процесу розмітки даних та на 25% відносно інших підходів до автоматизації без втрати точності, а також забезпечує гнучкий підхід до різноманітних завдань розмітки.

Бібл. 7, іл. 7.

Посилання

Caruana R., Niculescu-Mizil A. (2006). An Empirical Comparison of Supervised Learning Algorithms. Proceedings of the 23rd international conference on Machine learning (ICML '06), pp. 161-168.

Hossain, M. S., Muhammad, G., Hasan, M. M. (2020). The Challenges of Data Annotation for Machine Learning: A Review. CoRR, vol. abs/2004.03705, https://arxiv.org/abs/2004.03705 (2020), last accessed 2024/07/13.

Gartner. "Gartner Forecasts Worldwide Artificial Intelligence Software Market to Reach $62 Billion in 2022", 2021. Available at: https://www.gartner.com/en/newsroom/press-releases/2021-11-22-gartner-forecasts-worldwide-artificial-intelligencesoftware-market-to-reach-62-billion-in-2022, last accessed 2024/07/13.

Зарічковий, О. А. Алгоритмічне забезпечення для розмітки надвеликих об’ємів даних для задачі детекції об’єктів методами комп’ютерного зору : магістерська дис. : 121 Інженерія програмного забезпечення / Зарічковий Олександр Анатолійович. - Київ, 2021. - 119 с. Available at: https://ela.kpi.ua/items/d34f60b3-9832-40dd-a12f-035e4b71dd6, last accessed 2024/07/13.

Kirillov A., Mintun E., Ravi N., Mao H., et al. (2023). Segment Anything. 3992-4003. 10.1109/ICCV51070.2023.00371.

Medium. "Segment Anything" - An Overview. 2023. Available at: https://medium.com/@ghadi.alhajj/segment-anything-model-an-overview-118905735135, last accessed 2024/07/13.

arXiv. “Y. Wang, K. Li, Y. Li, et al. InternVideo: General Video Foundation Models via Generative and Discriminative Learning”. Available at: https://arxiv.org/abs/2212.03191, last accessed 2024/07/13.

##submission.downloads##

Опубліковано

2024-10-15 — Оновлено 2024-10-31

Версії