На мастер-классе ОЦРВ РЖД студенты проверили, сможет ли прототип решения по транскрипции речи с отраслевой железнодорожной тематикой правильно распознать фрагменты популярных фильмов и песен. В будущем такие сервисы облегчат рабочие процессы.
В первую неделю весны на Федеральной территории «Сириус» студенты в рамках Всемирного Фестиваля молодежи (ВФМ) посетили лекции и приняли участие во встречах с учеными и наставниками из крупных компаний. На мастер-классе Отраслевого центра разработки и внедрения информационных систем РЖД (ОЦРВ) студенты «поработали» тестировщиками – испытали прототип сервиса на основе ASR- и NLP-технологий.
«Мастер-класс состоял из двух частей. В первой мы рассказали о РЖД и нашем филиале, презентовали цифровые проекты. Вторая часть была посвящена тестированию прототипа. В мастер-классе приняли участие порядка 90 студентов со всего мира. Половина слушателей наших мастер-классов были иностранцы, и мы дублировали материал на английском языке», – рассказала специалист по коммуникациям ОЦРВ Лия Соломонова.
Лаборатория искусственного интеллекта ОЦРВ разработала прототип сервиса для автоматического стенографирования совещаний. Сервис создан на основе технологии ASR и NLP-моделей и умеет не только обрабатывать аудио- и видеозаписи, но и разделять говорящих и проставлять временные метки по репликам. В первую очередь прототип нацелен на обработку речи и текста с железнодорожной тематикой.
ASR – automatic speech recognition – технология автоматического преобразования речевого сигнала в текст.
NLP – это область искусственного интеллекта, изучающая методы и алгоритмы, которые могут научить компьютеры понимать и обрабатывать естественный язык, используемый человеком для коммуникации
На ВФМ мастер-класс по тестированию прототипа состоял из трех этапов: подготовительного, собственно тестирования и завершающего.
Подготовительный этап
Студенты готовили исходные данные по двум тематикам ― железнодорожной и произвольной. Файлы искали в интернете, самостоятельно или в команде.
Этап тестирования
Ребята загружали файлы в сервис и получали обработанный текст на основе исходных данных. Потом готовили эталонные транскрипты, исправляя ошибки машины.
Завершающий этап
Студенты вместе со своими наставниками подвели итоги и оценили метрики качества. Ребята выявили, что прототип лучше распознает железнодорожную тематику, чем фрагменты из фильмов или дружеские диалоги.
Метрики качества для оценки:
• WER ― частота ошибок в словах;
• CER ― частота ошибок в символах;
• ошибки по говорящему.
«Главная задача мастер-класса ― познакомить ребят с работой испытательной лаборатории и показать методологию тестирования. Они прошли все этапы испытания прототипа и на практике увидели все сложности и нюансы работы тестировщика», ― отметил заведующий испытательной лабораторией Михаил Лобачев.
Эксперты ОЦРВ уже не первый раз используют игровые форматы в образовательных проектах. Благодаря геймификации студенты не просто слушают лекции, а могут «прочувствовать» все этапы обучения. И, конечно, такие форматы вызывают повышенный интерес ребят к цифровым профессиям холдинга «РЖД».
Результаты проекта позволят обеспечить принципиально новый уровень защиты передачи данных для широкого круга пользователей
Проекты направлены на решение реальных задач цифровой трансформации холдинга РЖД
Всего пользователям доступно семь маршрутов
Цель сотрудничества – повышение качества подготовки будущих специалистов.