Моделі для аналізу складності англійських слів у тексті за шкалою від A1 до С2
DOI:
https://doi.org/10.20535/1560-8956.45.2024.313091Ключові слова:
інтелектуальний аналіз даних, аналіз текстів, задача класифікації, метрики точностіАнотація
На сучасному етапі глобалізації англійська мова відіграє ключову роль як мова міжнародного спілкування. Це веде до того, що все більше людей стають її носіями на різних рівнях. Робота присвячена аналізу англійських слів за шкалою від A1 до C2, що відповідає найнижчому та найвищому рівням володіння за стандартами CEFR. Модель, яка прогнозує складність слів у тексті, може бути використана для покращення освітнього процесу. Наприклад, можна знаходити список ймовірно невідомих та складних слів для кінцевого користувача в будь-якому тексті залежно від його рівня володіння англійською мовою. Такий підхід полегшить процес вивчення мови, надавши персоналізований список слів, на якому варто зосередитися. Також модель може бути корисною для аналізу складності текстів залежно від кількості слів кожного рівня складності в них. Це може допомогти вчителям підготувати матеріали, які відповідають рівню знань своїх учнів, а також ідентифікувати слова, які можуть бути складними для їх розуміння. Розроблено SQLite сховище даних англійських слів та їх частоти в англійських книжках з 1900 по 2019 роки. Функціонал реалізовано за допомогою SQL скриптів. Для написання ETL процесів, аналізу даних, створення, тренування та порівняння моделей прогнозування рівня складності слів використана мова програмування Python, використовувались бібліотеки Sqlite3, Lemminflect, NumPy, Seaborn, Matplotlib, SciPy, Sklearn, SpaCy та XGBoost. Запропоновано застосунок мовою програмування Python, що отримує вибірку даних зі створеного сховища, графічно їх відображає, проводить інтелектуальний аналіз, тренує та порівнює моделі за метриками accuracy, precision, recall та f1-score. Для аналізу даних та прогнозування рівня складності англійських слів за шкалою CEFR від А1 до С2 на основі їх частоти в англійській мові використані моделі: PchipInterpolator, логарифмічна модель, Gradient Boosting Regressor, Random Forest Regressor та XGB regressor. Результати кожної моделі оцінювались на тестовій вибірці, обрана найкраща модель для подальшого прогнозування рівня складності всіх інших слів англійської мови.
Бібл. 13, іл. 14
Посилання
Accuracy - LemmInflect. LemmInflect. URL: https://lemminflect.readthedocs.io/en/latest/accuracy/ (date of access: 25.05.2024).
Google Books Ngram Viewer. Google Books. URL: https://books.google.com/ngrams/info (date of access: 25.05.2024).
GradientBoostingRegressor. scikit-learn. URL: https://scikit-learn.org/stable/ modules/generated/sklearn.ensemble.GradientBoostingRegressor.html (date of access: 25.05.2024).
Navicat. Navicat DB Admin Tool for MySQL, Redis, PostgreSQL, MongoDB, MariaDB, SQL Server, Oracle & SQLite client. URL: https://www.navicat.com/en/products (date of access: 25.05.2024).
NLTK stem package. NLTK :: Natural Language Toolkit. URL: https://www.nltk.org/api/nltk.stem.html (date of access: 25.05.2024).
PchipInterpolator – SciPy v1.13.1. Numpy and Scipy documentation. URL: https://docs.scipy.org/doc/scipy/reference/generated/scipy.interpolate.PchipInterpolator.html (date of access: 25.05.2024).
Penn Treebank P.O.S. Tags. Department of Linguistics - Home | Department of Linguistics. URL: https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html (date of access: 25.05.2024).
Prefixes. Cambridge Dictionary | English Dictionary, Translations & Thesaurus. URL: https://dictionary.cambridge.org/grammar/british-grammar/prefixes (date of access: 27.05.2024).
RandomForestRegressor. scikit-learn. URL: https://scikitlearn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html (date of access: 25.05.2024).
SpaCy Models Documentation. spaCy. URL: https://spacy.io/models/en#en_core_web_md (date of access: 25.05.2024).
SQLite. SQLite Home Page. URL: https://www.sqlite.org/index.html (date of access: 25.05.2024).
The CEFR Levels - Common European Framework of Reference for Languages (CEFR). URL: https://www.coe.int/en/web/common-european-framework-referencelanguages/level-descriptions (date of access: 25.05.2024).
XGBoost Documentation. XGBoost Documentation. URL: https://xgboost.readthedocs.io/en/stable/index.html (date of access: 25.05.2024).
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у нашому журналі.
2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована нашим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у нашому журналі.
3. Політика журналу дозволяє і заохочує розміщення рукопису роботи авторами в мережі Інтернет (наприклад, на arXiv.org або на особистих веб-сайтах). Причому рукописи статей можуть бути розміщенні у відкритих архівах як до подання рукопису до редакції, так і під час його редакційного опрацювання. Це сприяє виникненню продуктивної наукової дискусії, позитивно позначається на оперативності ознайомлення наукової спільноти з результатами Ваших досліджень і як наслідок на динаміці цитування вже опублікованої у журналі роботи. Детальніше про це: The Effect of Open Access.