Застосування сховищ даних для виявлення плагіату в текстових документах

Автор(и)

  • Д. Галайко КПІ ім. Ігоря Сікорського, Україна
  • Ю. Олійник КПІ ім. Ігоря Сікорського, Україна

DOI:

https://doi.org/10.20535/1560-8956.45.2024.313093

Ключові слова:

виявлення плагіату, NLP, потік, Apache Hive, DynamoDB, сховища даних

Анотація

Робота присвячена застосуванню сховищ даних для виявлення плагіату в текстових документах, в результаті якої побудовано масштабовану програмну архітектуру. Підготовлено датасет з бакалаврських і магістерських робіт та виконано його попередню обробку, зокрема очищення, лематизацію, видалення стоп-слів, видалення підміни символів, заміни на синоніми. Створено тестовий набір даних для аналізу продуктивності рішення Проведено дослідження ефективності застосованих сховищ даних, виконано їх порівняльний аналіз та проведено декілька прогонів для уникнення стохастичної помилки. За результатами тестування моделей виокремлено DynamoDB як найефективніше сховище даних для задачі виявлення запозичень.

Бібл. 14, іл. 8, табл. 3

Посилання

Yurii Oliinyk, Danylo Halaiko, Iryna Mukha, Kateryna Lishchuk, Oleksandr Ocheretianyi. Plagiarism Detecting Hash-Based Parallel Method Proceedings of the 7th International Conference, COLINS-2023. Kharkiv, Ukraine April, 2023, 20-21. Volume IV. p.131-143 [Електронний ресурс] – Режим доступу до ресурсу: https://colins.in.ua/wp-content/uploads/2023/10/StudentPoster_Section_new2023.pdf

Сайт магістерських та бакалаврських робіт [Електронний ресурс] – Режим доступу до ресурсу: https://ela.kpi.ua

Документація мови програмування Python. [Електронний ресурс] – Режим доступу до ресурсу: https://docs.python.org/3/

Документація мови програмування Go. [Електронний ресурс] – Режим доступу до ресурсу: https://go.dev/doc/effective_go

Документація бібліотеки spaCy. [Електронний ресурс] – Режим доступу до ресурсу: https://spacy.io/usage

Бібліотека synonymset [Електронний ресурс] – Режим доступу до ресурсу: https://pypi.org/project/synonymset/

Документація PostgreSQL [Електронний ресурс] – Режим доступу до ресурсу: https://www.postgresql.org/docs/

Документація DynamoDB [Електронний ресурс] – Режим доступу до ресурсу: https://docs.aws.amazon.com/dynamodb/

Документація Apache Hive [Електронний ресурс] – Режим доступу до ресурсу: https://cwiki.apache.org/confluence/display/Hive/LanguageManual

Martin Kleppmann, Designing Data-Intensive Applications – 2017

Документація Cassandra [Електронний ресурс] – Режим доступу до ресурсу: https://cassandra.apache.org/doc/latest/

Jeff Carpenter and Eben Hewitt Cassandra the definitive guide 3rd edition – 2020.

Nitin Kumar, Big Data Using Hadoop and Hive – 2021

Alex Xu, System Design Interview: An Insider’s Guide -2020

##submission.downloads##

Опубліковано

2024-10-15 — Оновлено 2024-10-31

Версії