Data recognition in documents and classification algorithm

В. Палій; О. Жураковська

doi:10.20535/1560-8956.42.2023.279094

Алгоритм розпізнавання даних в документах та їх класифікації

Автор(и)

В. Палій КПІ ім. Ігоря Сікорського, Україна
О. Жураковська КПІ ім. Ігоря Сікорського, Україна

DOI:

https://doi.org/10.20535/1560-8956.42.2023.279094

Ключові слова:

методи розпізнавання тексту, аналіз документів, розпізнавання даних, класифікація даних, інформаційна система для розпізнавання та класифікації

Анотація

Об’єктом дослідження є процес переведення державних публічних послуг в електронну форму, який пов’язаний із необхідністю переходу від моделі послуги, яка орієнтована на документи, до моделі послуги, яка орієнтована на дані. При моделюванні державних публічних послуг використовується загальна модель даних опису публічних послуг, які надаються державою. В основі цієї моделі лежить використання базових словників, які необхідні для класифікації даних та сутностей, пов’язаних із даною предметною областю. Таким чином, в статті розглядається актуальна задача аналізу документів для розпізнавання даних, які мають бути класифіковані з використанням базових словників. Для вирішення поставленої задачі розроблено алгоритм, який дозволяє на основі аналізу документів здійснити розпізнавання наявних в них даних. Для сформованої таким чином множини даних, пов’язаної із документом, на другому етапі роботи
алгоритму здійснюється класифікація із використанням базових словників. При створенні алгоритму враховувались результати аналізу досліджень в розпізнаванні та класифікації даних. В статті розглянуто ілюстративний приклад та наведено результати класифікації даних для базового словника «Core Person Vocabulary». Практична цінність розробленого алгоритму полягає в тому, що він використовується в алгоритмічному забезпеченні інформаційної системи для розпізнавання та класифікації даних в документах, що дає можливість перейти до нової моделі представлення публічних послуг орієнтованої на дані. Використання інформаційної системи для розпізнавання та класифікації даних в документах є важливим в процесах реінжинірингу публічних послуг, при створенні нових послуг та при переведенні публічних послуг в електронний вигляд. Це дозволяє підвищити ефективність в цілому системи надання державних публічних послуг.

Бібл. 5, іл. 4, табл. 1

Посилання

Core Public Service Vocabulary. [Online]. Available: https://ec.europa.eu/isa2/solutions/core-public-service-vocabulary-application-profile-cpsv-ap_en. Accessed on: March 22, 2023.

Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E., Gutiérrez, J., Kochut, Krys. A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques, 2017. [Online]. Available: https://www.researchgate.net/publication/ 318336890_

A_Brief_Survey_of_Text_Mining_Classification_Clustering_and_Extraction_Techniques.

Core Person Vocabulary. [Online]. Available: https://semiceu.github.io/CorePerson-Vocabulary/releases/2.00/. Accessed on: March 22, 2023.

Ranjan, N., Chakkaravarthy, M. A brief survey of machine learning algorithms for text document classification on incremental database. Test Engineering & Management, 25246-25251, 2021. [Online]. Available: https://www.researchgate.net/publication/350451142_A_Brief_

Survey_of_Machine_Learning_Algorithms_for_Text_Document_Classification_on_Incremental_D atabase.

Nihar, R., Abhishek, G., Ishwari, D., Payal, G. A survey on text analytics and classification techniques for text documents / International Journal of Development Research, 2021. [Online]. Available: https://www.researchgate.net/publication/354522993_A_

SURVEY_ON_TEXT_ANALYTICS_AND_CLASSIFICATION_TECHNIQUES_FOR_TEXT_DOCUMENTS.

##submission.downloads##

pdf (English)

Опубліковано

2023-05-01

Номер

Том 1 № 42 (2023): Адаптивні системи автоматичного управління

Розділ

Статті

Ліцензія

1.Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у нашому журналі.

2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована нашим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у нашому журналі.

3. Політика журналу дозволяє і заохочує розміщення рукопису роботи авторами в мережі Інтернет (наприклад, на arXiv.org або на особистих веб-сайтах). Причому рукописи статей можуть бути розміщенні у відкритих архівах як до подання рукопису до редакції, так і під час його редакційного опрацювання. Це сприяє виникненню продуктивної наукової дискусії, позитивно позначається на оперативності ознайомлення наукової спільноти з результатами Ваших досліджень і як наслідок на динаміці цитування вже опублікованої у журналі роботи. Детальніше про це: The Effect of Open Access.