Инженеры Google разработали технологию на основе машинного обучения, которая позволяет идентифицировать голоса отдельных людей на фоне посторонних шумов. Система воспроизводит "эффект вечеринки" — способность человека, находящегося в людной комнате, слышать только своего собеседника, отфильтровывая ненужные звуки.
Технология Google работает схожим образом. Анализируя движения лицевых мышц, она выделяет голоса говорящих людей в отдельные аудиодорожки, что позволяет фокусироваться на одном источнике звука. Чтобы построить аудиовизуальную модель, инженеры поисковика обработали свыше 100 тысяч видеолекций и разговоров на YouTube, смешав их с искусственным фоновым шумом.
Далее в Google натренировали искусственный интеллект таким образом, чтобы он мог считывать лица людей, изолировать их голоса и подавлять посторонние шумы. В результате была создана система, способная улавливать голоса отдельных людей в режиме реального времени, сообщается в блоге Google Research Blog.
В компании уже заняты встраиванием технологии "в различные продукты Google". Новая разработка, например, может быть применена для улучшения качества видеозвонков. Во время сеанса группового чата пользователь сможет сосредоточиться на одном человеке, заглушив голоса других людей.