Models for analyzing the complexity of English words in the text on the scale from A1 to C2

М. Бєліков; Т. Ліхоузова; Ю. Олійник

doi:10.20535/1560-8956.45.2024.313091

Автор(и)

М. Бєліков КПІ ім. Ігоря Сікорського, Україна
Т. Ліхоузова КПІ ім. Ігоря Сікорського, Україна
Ю. Олійник КПІ ім. Ігоря Сікорського, Україна

DOI:

https://doi.org/10.20535/1560-8956.45.2024.313091

Ключові слова:

інтелектуальний аналіз даних, аналіз текстів, задача класифікації, метрики точності

Анотація

На сучасному етапі глобалізації англійська мова відіграє ключову роль як мова міжнародного спілкування. Це веде до того, що все більше людей стають її носіями на різних рівнях. Робота присвячена аналізу англійських слів за шкалою від A1 до C2, що відповідає найнижчому та найвищому рівням володіння за стандартами CEFR. Модель, яка прогнозує складність слів у тексті, може бути використана для покращення освітнього процесу. Наприклад, можна знаходити список ймовірно невідомих та складних слів для кінцевого користувача в будь-якому тексті залежно від його рівня володіння англійською мовою. Такий підхід полегшить процес вивчення мови, надавши персоналізований список слів, на якому варто зосередитися. Також модель може бути корисною для аналізу складності текстів залежно від кількості слів кожного рівня складності в них. Це може допомогти вчителям підготувати матеріали, які відповідають рівню знань своїх учнів, а також ідентифікувати слова, які можуть бути складними для їх розуміння. Розроблено SQLite сховище даних англійських слів та їх частоти в англійських книжках з 1900 по 2019 роки. Функціонал реалізовано за допомогою SQL скриптів. Для написання ETL процесів, аналізу даних, створення, тренування та порівняння моделей прогнозування рівня складності слів використана мова програмування Python, використовувались бібліотеки Sqlite3, Lemminflect, NumPy, Seaborn, Matplotlib, SciPy, Sklearn, SpaCy та XGBoost. Запропоновано застосунок мовою програмування Python, що отримує вибірку даних зі створеного сховища, графічно їх відображає, проводить інтелектуальний аналіз, тренує та порівнює моделі за метриками accuracy, precision, recall та f1-score. Для аналізу даних та прогнозування рівня складності англійських слів за шкалою CEFR від А1 до С2 на основі їх частоти в англійській мові використані моделі: PchipInterpolator, логарифмічна модель, Gradient Boosting Regressor, Random Forest Regressor та XGB regressor. Результати кожної моделі оцінювались на тестовій вибірці, обрана найкраща модель для подальшого прогнозування рівня складності всіх інших слів англійської мови.

Бібл. 13, іл. 14

Посилання

Accuracy - LemmInflect. LemmInflect. URL: https://lemminflect.readthedocs.io/en/latest/accuracy/ (date of access: 25.05.2024).

Google Books Ngram Viewer. Google Books. URL: https://books.google.com/ngrams/info (date of access: 25.05.2024).

GradientBoostingRegressor. scikit-learn. URL: https://scikit-learn.org/stable/ modules/generated/sklearn.ensemble.GradientBoostingRegressor.html (date of access: 25.05.2024).

Navicat. Navicat DB Admin Tool for MySQL, Redis, PostgreSQL, MongoDB, MariaDB, SQL Server, Oracle & SQLite client. URL: https://www.navicat.com/en/products (date of access: 25.05.2024).

NLTK stem package. NLTK :: Natural Language Toolkit. URL: https://www.nltk.org/api/nltk.stem.html (date of access: 25.05.2024).

PchipInterpolator – SciPy v1.13.1. Numpy and Scipy documentation. URL: https://docs.scipy.org/doc/scipy/reference/generated/scipy.interpolate.PchipInterpolator.html (date of access: 25.05.2024).

Penn Treebank P.O.S. Tags. Department of Linguistics - Home | Department of Linguistics. URL: https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html (date of access: 25.05.2024).

Prefixes. Cambridge Dictionary | English Dictionary, Translations & Thesaurus. URL: https://dictionary.cambridge.org/grammar/british-grammar/prefixes (date of access: 27.05.2024).

RandomForestRegressor. scikit-learn. URL: https://scikitlearn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html (date of access: 25.05.2024).

SpaCy Models Documentation. spaCy. URL: https://spacy.io/models/en#en_core_web_md (date of access: 25.05.2024).

SQLite. SQLite Home Page. URL: https://www.sqlite.org/index.html (date of access: 25.05.2024).

The CEFR Levels - Common European Framework of Reference for Languages (CEFR). URL: https://www.coe.int/en/web/common-european-framework-referencelanguages/level-descriptions (date of access: 25.05.2024).

XGBoost Documentation. XGBoost Documentation. URL: https://xgboost.readthedocs.io/en/stable/index.html (date of access: 25.05.2024).

Моделі для аналізу складності англійських слів у тексті за шкалою від A1 до С2

Автор(и)

DOI:

Ключові слова:

Анотація

Посилання

##submission.downloads##

Опубліковано

Номер

Розділ

Ліцензія

Мова

Подати статтю