Технология распознавания голоса, разработанная компанией Microsoft, впервые достигла уровня точности, сопоставимого с человеком. Инженеры Microsoft Research смогли снизить долю ошибок, совершаемых компьютерными алгоритмами, до 5,1%, в то время как у человека этот показатель варьируется от 5 до 6%.
Еще в октябре прошлого года в Microsoft заявляли об "историческом" достижении "паритета с человеком" в области распознавания речи. Тем не менее, на тот момент технология расшифровывала речь с точностью до 5,9%. Меньше чем за год, благодаря сочетанию сверточной нейронной сети (CNN) и модели долгой краткосрочной памяти (LSTM), ученые сумели снизить показатель погрешности до 5,1%.
Компания проверяла алгоритмы на Switchboard ("Коммутатор") — общепринятом в индустрии тесте, испытывающим работу машинного распознавания английской речи. Эта проверка состоит из записей разговоров нескольких человек на определенные темы.
Разработка может быть использована для улучшения качества распознавания речи Cortana — голосовой ассистентки на Windows-устройствах и игровых консолях Xbox One, — а также в софте, преобразовывающим речь в текст. Улучшения компания обещает внедрить в течение ближайших месяцев. В России Cortana, к сожалению, пока все еще недоступна.
Источник: пресс-служба Microsoft