Попереднє оброблення аудіоданих для систем транскрибування голосу

Автор(и)

  • M. Драган КПІ ім. Ігоря Сікорського, Україна
  • A. Писаренко КПІ ім. Ігоря Сікорського, Україна

DOI:

https://doi.org/10.20535/1560-8956.42.2023.278928

Ключові слова:

аудіофайл, транскрибування, фільтр низьких частот, фільтр високих частот, смуговий фільтр

Анотація

Об’єктом дослідження є система транскрибування аудіофайлів.  У статті зроблено дослідження впливу використання фільтру високих частот, фільтру низьких частот та смугового фільтру на процес транскрибування аудіофайлів.
Метою роботи є пришвидшення транскрибування груп аудіофайлiв. У дослідженні визначено декілька типів аудіоданих, для яких застосовується попередня фільтрація. Дослідження є частиною вирішення проблеми транскрибування
аудіофайлів за допомогою систем, заснованих на нейронних мережах. У статті виконано огляд робіт з попереднього оброблення голосових файлів, проаналізовано переваги та недоліки описаних підходів. Застостосування складних алгоритмів попереднього оброблення сприяє підвищенню якості розпізнавання але суттєво сповільнює його швидкість або потребує додаткових обчислювальних потужностей. Тому використана попередня фільтрація для підвищення якості розпізнавання мовлення без зниження швидкості розпізнавання системою в цілому. Стаття містить експериментальні дослідження впливу частот фільтрації на швидкодію системи автоматичного транскрибування голосу. Отримані результати дослідження дозволяють стверджувати, що використання смугового фільтра з нижньою частотою смуги
пропускання в діапазоні 150-200 Гц та верхньою частотою смуги пропускання в діапазоні 3500-7000 Гц, що дозволяє досягти збільшення швидкості транскрибування не тільки за рахунок використання відеокарт, але й використання центральних процесорів та попередньої фільтрації. Також запропоновано видалення пустих сегментів по енергетиці сигналу та прискорення голосу, що впливає на час його транскрибування, з використанням вищезазначених фільтрів.

Бібл. 5, іл. 2, табл. 7

Посилання

Banu, A., & Shahin, S. Effectiveness of filtering and transcription method on speech recognition performance. International Journal of Speech Technology, 2018.

Litvinov, A., Metze, F., & Schatz, J. Impact of noise reduction on the automatic transcription of spontaneous speech. Speech Communication, 106, 46-56, 2019.

Burkhardt, D., Duduch, A., & Fitch, L. The Effect of Audio Filtering on Speech Recognition in Noise for Listeners with Normal Hearing and Hearing Impairment. Journal of the American Academy of Audiology, 28(2), 140-149, 2017.

Hong, Y., Lee, J., Kim, M., & Lee, J. Speech enhancement and recognition using filter banks and noise reduction algorithms. Journal of Electrical Engineering and Technology, 13(3), 1328-1339, 2018.

Kwon, O., Lee, C., & Lee, S. The effect of speech enhancement on speech recognition: A comparison of spectral subtraction and Wiener filtering. Applied Sciences, 8(12), 2609, 2018.

##submission.downloads##

Опубліковано

2023-05-01