Програмне забезпечення для генерації текстів українською мовою
DOI:
https://doi.org/10.20535/1560-8956.48.2026.351888Ключові слова:
генерація тексту, Big Data, українська мова, NLP, великі мовні моделі, морфологічний аналіз, LDA, синтаксичний аналіз, тематичне моделювання, перевірка граматики, spaCy, LanguageToolАнотація
Робота присвячена застосуванню великих мовних моделей у поєднанні з морфологічним та тематичним аналізом для генерації текстів українською мовою. В результаті дослідження побудовано масштабовану програмну архітектуру, що складається з модулів генерації (LLM), морфологічного аналізу (LanguageTool), тематичного аналізу (LDA) та керування процесами (Apache Airflow). Підготовлено спеціалізований набір даних з бакалаврських та магістерських робіт, що включає структуровані текстові розділи, теми та ключові слова. Виконано його попередню обробку — очищення тексту, лематизацію, фільтрацію частин мови, побудову N-грам. Створено тестовий набір для fine-tuning моделей GPT-3.5-turbo та LLaMA-3-8B. Проведено дослідження ефективності генерації для обох моделей, а також тестування якості виправлення помилок за допомогою модифікованого LanguageTool. За результатами тестування, модель GPT показала вищу якісь генерації текстів українською мовою, а новий тип правил LanguageTool підвищив якість граматичної перевірки, особливо для складних синтаксичних конструкцій.
Бібл. 19, іл. 5, табл. 3
Посилання
Radford A. Improving Language Understanding by Generative Pre-Training [Електронний ресурс] / A. Radford, K. Narasimhan, T. Salimans. – 2021. – Режим доступу до ресурсу: https://cdn.openai.com/research-covers/language-unsupervised/language_ understanding_paper.pdf.
Vaswani A. Attention Is All You Need [Електронний ресурс] / A. Vaswani, N. Shazeer, N. Parmar. – 2017. – Режим доступу до ресурсу: https://doi.org/10.48550/arXiv.1706.03762.
Touvron H. Llama 2: Open Foundation and Fine-Tuned Chat Models [Електронний ресурс] / H. Touvron, L. Martin, K. Stone. – 2023. – Режим доступу до ресурсу: https://doi.org/10.48550/arXiv.2307.09288.
Довгополюк Р. Р., Олійник Ю. О., Метод генерації текстів українською мовою, Матеріали VI Міжнародної науково-практичної конференції молодих вчених та студентів, 21-23 травня 2024 року, м. Київ, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», ФІОТ, 41-45 с.
Документація мови програмування Python. [Електронний ресурс] – Режим доступу до ресурсу: https://docs.python.org/3/.
Документація бібліотеки spaCy. [Електронний ресурс] – Режим доступу до ресурсу: https://spacy.io/usage.
Honnibal M. Introducing spaCy [Електронний ресурс] / Matthew Honnibal. – 2015. – Режим доступу до ресурсу: https://explosion.ai/blog/introducing-spacy.
LanguageTool [Електронний ресурс] – Режим доступу до ресурсу: https://languagetool.org/uk.
Blei D. Latent Dirichlet Allocation [Електронний ресурс] / D. Blei, A. Ng, M. Jordan. – 2003. – Режим доступу до ресурсу: https://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf.
Олійник Ю. О. Підхід до виявлення аномалій в потоках текстових даних / Ю. О. Олійник, О. Є. Афанасьєва, Г. Д. Аршакян. // Системні технології. – 2020. – №2. – С. 126–139.
Java Expression Language (JEXL) [Електронний ресурс] – Режим доступу до ресурсу: https://commons.apache.org/proper/commons-jexl/.
Apache Airflow [Електронний ресурс] – Режим доступу до ресурсу: https://airflow.apache.org/.
ELA KPI [Електронний ресурс] – Режим доступу до ресурсу: https://ela.kpi.ua/.
Open AI Platform [Електронний ресурс] – Режим доступу до ресурсу: https://platform.openai.com/docs/overview.
LanguageTool on GitHub [Електронний ресурс] – Режим доступу до ресурсу: https://github.com/languagetool-org/languagetool.
Google Colab [Електронний ресурс] – Режим доступу до ресурсу: https://colab.google/.
Документація PostgreSQL [Електронний ресурс] – Режим доступу до ресурсу: https://www.postgresql.org/docs/.
Довгополюк, Р. Р. Програмне забезпечення генерації текстів українською мовою : магістерська дис. : 121 Інженерія програмного забезпечення / Довгополюк Роман Русланович. - Київ, 2024. - 127 с. https://ela.kpi.ua/handle/123456789/72154.
Д. Галайко, Ю. Олійник. Застосування сховищ даних для виявлення плагіату в текстових документах / Адаптивні системи автоматичного управління. Том 2 № 45 (2024). – С. 100–108.
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
1.Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у нашому журналі.
2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована нашим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у нашому журналі.
3. Політика журналу дозволяє і заохочує розміщення рукопису роботи авторами в мережі Інтернет (наприклад, на arXiv.org або на особистих веб-сайтах). Причому рукописи статей можуть бути розміщенні у відкритих архівах як до подання рукопису до редакції, так і під час його редакційного опрацювання. Це сприяє виникненню продуктивної наукової дискусії, позитивно позначається на оперативності ознайомлення наукової спільноти з результатами Ваших досліджень і як наслідок на динаміці цитування вже опублікованої у журналі роботи. Детальніше про це: The Effect of Open Access.