Програмне забезпечення для генерації текстів українською мовою

Автор(и)

  • Р. Довгополюк компанія IT SmartFlex, Україна
  • Ю. Олійник Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна
  • М. Кувічка компанія AllSTARSIT, Україна

DOI:

https://doi.org/10.20535/1560-8956.48.2026.351888

Ключові слова:

генерація тексту, Big Data, українська мова, NLP, великі мовні моделі, морфологічний аналіз, LDA, синтаксичний аналіз, тематичне моделювання, перевірка граматики, spaCy, LanguageTool

Анотація

Робота присвячена застосуванню великих мовних моделей у поєднанні з морфологічним та тематичним аналізом для генерації текстів українською мовою. В результаті дослідження побудовано масштабовану програмну архітектуру, що складається з модулів генерації (LLM), морфологічного аналізу (LanguageTool), тематичного аналізу (LDA) та керування процесами (Apache Airflow). Підготовлено спеціалізований набір даних з бакалаврських та магістерських робіт, що включає структуровані текстові розділи, теми та ключові слова. Виконано його попередню обробку — очищення тексту, лематизацію, фільтрацію частин мови, побудову N-грам. Створено тестовий набір для fine-tuning моделей GPT-3.5-turbo та LLaMA-3-8B. Проведено дослідження ефективності генерації для обох моделей, а також тестування якості виправлення помилок за допомогою модифікованого LanguageTool. За результатами тестування, модель GPT показала вищу якісь генерації текстів українською мовою, а новий тип правил LanguageTool підвищив якість граматичної перевірки, особливо для складних синтаксичних конструкцій.

Бібл. 19, іл. 5, табл. 3

Посилання

Radford A. Improving Language Understanding by Generative Pre-Training [Електронний ресурс] / A. Radford, K. Narasimhan, T. Salimans. – 2021. – Режим доступу до ресурсу: https://cdn.openai.com/research-covers/language-unsupervised/language_ understanding_paper.pdf.

Vaswani A. Attention Is All You Need [Електронний ресурс] / A. Vaswani, N. Shazeer, N. Parmar. – 2017. – Режим доступу до ресурсу: https://doi.org/10.48550/arXiv.1706.03762.

Touvron H. Llama 2: Open Foundation and Fine-Tuned Chat Models [Електронний ресурс] / H. Touvron, L. Martin, K. Stone. – 2023. – Режим доступу до ресурсу: https://doi.org/10.48550/arXiv.2307.09288.

Довгополюк Р. Р., Олійник Ю. О., Метод генерації текстів українською мовою, Матеріали VI Міжнародної науково-практичної конференції молодих вчених та студентів, 21-23 травня 2024 року, м. Київ, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», ФІОТ, 41-45 с.

Документація мови програмування Python. [Електронний ресурс] – Режим доступу до ресурсу: https://docs.python.org/3/.

Документація бібліотеки spaCy. [Електронний ресурс] – Режим доступу до ресурсу: https://spacy.io/usage.

Honnibal M. Introducing spaCy [Електронний ресурс] / Matthew Honnibal. – 2015. – Режим доступу до ресурсу: https://explosion.ai/blog/introducing-spacy.

LanguageTool [Електронний ресурс] – Режим доступу до ресурсу: https://languagetool.org/uk.

Blei D. Latent Dirichlet Allocation [Електронний ресурс] / D. Blei, A. Ng, M. Jordan. – 2003. – Режим доступу до ресурсу: https://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf.

Олійник Ю. О. Підхід до виявлення аномалій в потоках текстових даних / Ю. О. Олійник, О. Є. Афанасьєва, Г. Д. Аршакян. // Системні технології. – 2020. – №2. – С. 126–139.

Java Expression Language (JEXL) [Електронний ресурс] – Режим доступу до ресурсу: https://commons.apache.org/proper/commons-jexl/.

Apache Airflow [Електронний ресурс] – Режим доступу до ресурсу: https://airflow.apache.org/.

ELA KPI [Електронний ресурс] – Режим доступу до ресурсу: https://ela.kpi.ua/.

Open AI Platform [Електронний ресурс] – Режим доступу до ресурсу: https://platform.openai.com/docs/overview.

LanguageTool on GitHub [Електронний ресурс] – Режим доступу до ресурсу: https://github.com/languagetool-org/languagetool.

Google Colab [Електронний ресурс] – Режим доступу до ресурсу: https://colab.google/.

Документація PostgreSQL [Електронний ресурс] – Режим доступу до ресурсу: https://www.postgresql.org/docs/.

Довгополюк, Р. Р. Програмне забезпечення генерації текстів українською мовою : магістерська дис. : 121 Інженерія програмного забезпечення / Довгополюк Роман Русланович. - Київ, 2024. - 127 с. https://ela.kpi.ua/handle/123456789/72154.

Д. Галайко, Ю. Олійник. Застосування сховищ даних для виявлення плагіату в текстових документах / Адаптивні системи автоматичного управління. Том 2 № 45 (2024). – С. 100–108.

##submission.downloads##

Опубліковано

2026-02-09