Алгоритм розпізнавання даних в документах та їх класифікації

Автор(и)

  • В. Палій КПІ ім. Ігоря Сікорського, Україна
  • О. Жураковська КПІ ім. Ігоря Сікорського, Україна

DOI:

https://doi.org/10.20535/1560-8956.42.2023.279094

Ключові слова:

методи розпізнавання тексту, аналіз документів, розпізнавання даних, класифікація даних, інформаційна система для розпізнавання та класифікації

Анотація

Об’єктом дослідження є процес переведення державних публічних послуг в електронну форму, який пов’язаний із необхідністю переходу від моделі послуги, яка орієнтована на документи, до моделі послуги, яка орієнтована на дані. При моделюванні державних публічних послуг використовується загальна модель даних опису публічних послуг, які надаються державою. В основі цієї моделі лежить використання базових словників, які необхідні для класифікації даних та сутностей, пов’язаних із даною предметною областю. Таким чином, в статті розглядається актуальна задача аналізу документів для розпізнавання даних, які мають бути класифіковані з використанням базових словників. Для вирішення поставленої задачі розроблено алгоритм, який дозволяє на основі аналізу документів здійснити розпізнавання наявних в них даних. Для сформованої таким чином множини даних, пов’язаної із документом, на другому етапі роботи
алгоритму здійснюється класифікація із використанням базових словників. При створенні алгоритму враховувались результати аналізу досліджень в розпізнаванні та класифікації даних. В статті розглянуто ілюстративний приклад та наведено результати класифікації даних для базового словника «Core Person Vocabulary». Практична цінність розробленого алгоритму полягає в тому, що він використовується в алгоритмічному забезпеченні інформаційної системи для розпізнавання та класифікації даних в документах, що дає можливість перейти до нової моделі представлення публічних послуг орієнтованої на дані. Використання інформаційної системи для розпізнавання та класифікації даних в документах є важливим в процесах реінжинірингу публічних послуг, при створенні нових послуг та при переведенні публічних послуг в електронний вигляд. Це дозволяє підвищити ефективність в цілому системи надання державних публічних послуг.

Бібл. 5, іл. 4, табл. 1

Посилання

Core Public Service Vocabulary. [Online]. Available: https://ec.europa.eu/isa2/solutions/core-public-service-vocabulary-application-profile-cpsv-ap_en. Accessed on: March 22, 2023.

Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E., Gutiérrez, J., Kochut, Krys. A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques, 2017. [Online]. Available: https://www.researchgate.net/publication/ 318336890_

A_Brief_Survey_of_Text_Mining_Classification_Clustering_and_Extraction_Techniques.

Core Person Vocabulary. [Online]. Available: https://semiceu.github.io/CorePerson-Vocabulary/releases/2.00/. Accessed on: March 22, 2023.

Ranjan, N., Chakkaravarthy, M. A brief survey of machine learning algorithms for text document classification on incremental database. Test Engineering & Management, 25246-25251, 2021. [Online]. Available: https://www.researchgate.net/publication/350451142_A_Brief_

Survey_of_Machine_Learning_Algorithms_for_Text_Document_Classification_on_Incremental_D atabase.

Nihar, R., Abhishek, G., Ishwari, D., Payal, G. A survey on text analytics and classification techniques for text documents / International Journal of Development Research, 2021. [Online]. Available: https://www.researchgate.net/publication/354522993_A_

SURVEY_ON_TEXT_ANALYTICS_AND_CLASSIFICATION_TECHNIQUES_FOR_TEXT_DOCUMENTS.

##submission.downloads##

Опубліковано

2023-05-01