Застосування сховищ даних для виявлення плагіату в текстових документах
DOI:
https://doi.org/10.20535/1560-8956.45.2024.313093Ключові слова:
виявлення плагіату, NLP, потік, Apache Hive, DynamoDB, сховища данихАнотація
Робота присвячена застосуванню сховищ даних для виявлення плагіату в текстових документах, в результаті якої побудовано масштабовану програмну архітектуру. Підготовлено датасет з бакалаврських і магістерських робіт та виконано його попередню обробку, зокрема очищення, лематизацію, видалення стоп-слів, видалення підміни символів, заміни на синоніми. Створено тестовий набір даних для аналізу продуктивності рішення Проведено дослідження ефективності застосованих сховищ даних, виконано їх порівняльний аналіз та проведено декілька прогонів для уникнення стохастичної помилки. За результатами тестування моделей виокремлено DynamoDB як найефективніше сховище даних для задачі виявлення запозичень.
Бібл. 14, іл. 8, табл. 3
Посилання
Yurii Oliinyk, Danylo Halaiko, Iryna Mukha, Kateryna Lishchuk, Oleksandr Ocheretianyi. Plagiarism Detecting Hash-Based Parallel Method Proceedings of the 7th International Conference, COLINS-2023. Kharkiv, Ukraine April, 2023, 20-21. Volume IV. p.131-143 [Електронний ресурс] – Режим доступу до ресурсу: https://colins.in.ua/wp-content/uploads/2023/10/StudentPoster_Section_new2023.pdf
Сайт магістерських та бакалаврських робіт [Електронний ресурс] – Режим доступу до ресурсу: https://ela.kpi.ua
Документація мови програмування Python. [Електронний ресурс] – Режим доступу до ресурсу: https://docs.python.org/3/
Документація мови програмування Go. [Електронний ресурс] – Режим доступу до ресурсу: https://go.dev/doc/effective_go
Документація бібліотеки spaCy. [Електронний ресурс] – Режим доступу до ресурсу: https://spacy.io/usage
Бібліотека synonymset [Електронний ресурс] – Режим доступу до ресурсу: https://pypi.org/project/synonymset/
Документація PostgreSQL [Електронний ресурс] – Режим доступу до ресурсу: https://www.postgresql.org/docs/
Документація DynamoDB [Електронний ресурс] – Режим доступу до ресурсу: https://docs.aws.amazon.com/dynamodb/
Документація Apache Hive [Електронний ресурс] – Режим доступу до ресурсу: https://cwiki.apache.org/confluence/display/Hive/LanguageManual
Martin Kleppmann, Designing Data-Intensive Applications – 2017
Документація Cassandra [Електронний ресурс] – Режим доступу до ресурсу: https://cassandra.apache.org/doc/latest/
Jeff Carpenter and Eben Hewitt Cassandra the definitive guide 3rd edition – 2020.
Nitin Kumar, Big Data Using Hadoop and Hive – 2021
Alex Xu, System Design Interview: An Insider’s Guide -2020
##submission.downloads##
Опубліковано
Версії
- 2024-10-31 (2)
- 2024-10-15 (1)
Номер
Розділ
Ліцензія
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у нашому журналі.
2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована нашим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у нашому журналі.
3. Політика журналу дозволяє і заохочує розміщення рукопису роботи авторами в мережі Інтернет (наприклад, на arXiv.org або на особистих веб-сайтах). Причому рукописи статей можуть бути розміщенні у відкритих архівах як до подання рукопису до редакції, так і під час його редакційного опрацювання. Це сприяє виникненню продуктивної наукової дискусії, позитивно позначається на оперативності ознайомлення наукової спільноти з результатами Ваших досліджень і як наслідок на динаміці цитування вже опублікованої у журналі роботи. Детальніше про це: The Effect of Open Access.