Публикации
Кипяткова И.С., Родионова А.П., Кагиров И.А., Крижановский А.А.
Подготовка речевых и текстовых данных для создания системы автоматического распознавания карельской речи
// Ученые записки Петрозаводского государственного университета. Т. 45. № 5. 2023. C. 89–98
Ключевые слова: карельский язык, ливвиковское наречие, автоматическая обработка естественного языка, обучение системы распознавания речи, наборы данных корпусная лингвистика
Описывается процесс сбора и подготовки языковых материалов по ливвиковскому наречию карельского языка, необходимых для обучения системы автоматического преобразования карельской речи в текстовую форму. Актуальность создания подобных технологий для карельского языка обусловлена его статусом малоресурсного языка, что является серьезным препятствием для изучения и сохранения. Основной задачей на текущем этапе исследования является первичный сбор и аннотация речевого и текстового корпусов, а также создание словаря транскрипций. В состав речевого корпуса вошли аудиозаписи 15 дикторов (6 мужчин и 9 женщин). Аудиозаписи расшифрованы и сегментированы на отдельные фразы. Объем речевого корпуса после удаления не подходящих для использования фрагментов составил 3,5 часа. Объем текстового корпуса после обработки и удаления повторяющихся предложений составил более 5 миллионов словоупотреблений. На базе собранного текстового корпуса был сформирован словарь для системы распознавания карельской речи. Для всех слов, вошедших в словарь, были автоматически созданы фонематические транскрипции. В дальнейшей работе собранные текстовые и речевые данные будут использоваться для обучения и тестирования системы автоматического распознавания речи на ливвиковском наречии карельского языка.
Индексируется в РИНЦ
Последние изменения: 20 июля 2023