Preprocessing of audio data for voice transcription systems

M. Драган; A. Писаренко

doi:10.20535/1560-8956.42.2023.278928

Попереднє оброблення аудіоданих для систем транскрибування голосу

Автор(и)

M. Драган КПІ ім. Ігоря Сікорського, Україна
A. Писаренко КПІ ім. Ігоря Сікорського, Україна

DOI:

https://doi.org/10.20535/1560-8956.42.2023.278928

Ключові слова:

аудіофайл, транскрибування, фільтр низьких частот, фільтр високих частот, смуговий фільтр

Анотація

Об’єктом дослідження є система транскрибування аудіофайлів. У статті зроблено дослідження впливу використання фільтру високих частот, фільтру низьких частот та смугового фільтру на процес транскрибування аудіофайлів.
Метою роботи є пришвидшення транскрибування груп аудіофайлiв. У дослідженні визначено декілька типів аудіоданих, для яких застосовується попередня фільтрація. Дослідження є частиною вирішення проблеми транскрибування
аудіофайлів за допомогою систем, заснованих на нейронних мережах. У статті виконано огляд робіт з попереднього оброблення голосових файлів, проаналізовано переваги та недоліки описаних підходів. Застостосування складних алгоритмів попереднього оброблення сприяє підвищенню якості розпізнавання але суттєво сповільнює його швидкість або потребує додаткових обчислювальних потужностей. Тому використана попередня фільтрація для підвищення якості розпізнавання мовлення без зниження швидкості розпізнавання системою в цілому. Стаття містить експериментальні дослідження впливу частот фільтрації на швидкодію системи автоматичного транскрибування голосу. Отримані результати дослідження дозволяють стверджувати, що використання смугового фільтра з нижньою частотою смуги
пропускання в діапазоні 150-200 Гц та верхньою частотою смуги пропускання в діапазоні 3500-7000 Гц, що дозволяє досягти збільшення швидкості транскрибування не тільки за рахунок використання відеокарт, але й використання центральних процесорів та попередньої фільтрації. Також запропоновано видалення пустих сегментів по енергетиці сигналу та прискорення голосу, що впливає на час його транскрибування, з використанням вищезазначених фільтрів.

Бібл. 5, іл. 2, табл. 7

Посилання

Banu, A., & Shahin, S. Effectiveness of filtering and transcription method on speech recognition performance. International Journal of Speech Technology, 2018.

Litvinov, A., Metze, F., & Schatz, J. Impact of noise reduction on the automatic transcription of spontaneous speech. Speech Communication, 106, 46-56, 2019.

Burkhardt, D., Duduch, A., & Fitch, L. The Effect of Audio Filtering on Speech Recognition in Noise for Listeners with Normal Hearing and Hearing Impairment. Journal of the American Academy of Audiology, 28(2), 140-149, 2017.

Hong, Y., Lee, J., Kim, M., & Lee, J. Speech enhancement and recognition using filter banks and noise reduction algorithms. Journal of Electrical Engineering and Technology, 13(3), 1328-1339, 2018.

Kwon, O., Lee, C., & Lee, S. The effect of speech enhancement on speech recognition: A comparison of spectral subtraction and Wiener filtering. Applied Sciences, 8(12), 2609, 2018.

##submission.downloads##

pdf (English)

Опубліковано

2023-05-01

Номер

Том 1 № 42 (2023): Адаптивні системи автоматичного управління

Розділ

Статті

Ліцензія

1.Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у нашому журналі.

2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована нашим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у нашому журналі.

3. Політика журналу дозволяє і заохочує розміщення рукопису роботи авторами в мережі Інтернет (наприклад, на arXiv.org або на особистих веб-сайтах). Причому рукописи статей можуть бути розміщенні у відкритих архівах як до подання рукопису до редакції, так і під час його редакційного опрацювання. Це сприяє виникненню продуктивної наукової дискусії, позитивно позначається на оперативності ознайомлення наукової спільноти з результатами Ваших досліджень і як наслідок на динаміці цитування вже опублікованої у журналі роботи. Детальніше про це: The Effect of Open Access.