Ежедневно тысячи сотрудников Amazon прослушивают аудиозаписи общения пользователей с голосовым помощником Alexa на "умных" колонках Echo. Делается это ради совершенствования алгоритмов искусственного интеллекта: ассистента учат лучше распознавать речь и выдавать более точные ответы на запросы.
Согласно журналистскому расследованию Bloomberg, сотрудники Amazon слушают частные разговоры со смарт-колонок, установленных в домах и офисах. Голос с записей расшифровывается, аннотируется и отсылается обратно в программу Alexa.
По данным агентства, этим занимаются "тысячи" рецензентов компании по всему миру, включая США, Коста-Рику, Индию и Румынию, как контрактных, так и штатных. За 9-часовую смену каждый сотрудник обрабатывает примерно тысячу аудиофайлов
Как рассказал один из собеседников издания, время от времени им попадаются приватные записи вроде пения женщины в душе и крика ребенка о помощи. У команд есть внутренние чаты, в которых они обращаются к коллегам за помощью в расшифровке слов и обмениваются забавными разговорами. За пределы Amazon эта информация не выходит.
При этом ни в соглашении о конфиденциальности, ни в маркетинговых материалах явно не прописано, что собранные Echo аудиозаписи могут быть прослушаны другими людьми. Кроме того, на полученном Bloomberg скриншоте видно, что вместе с разговором передаются первое имя пользователя и серийный номер устройства — этих данных может быть вполне достаточно, чтобы установить личность человека.
"Мы серьезно относимся к безопасности и конфиденциальности личной информации наших клиентов, — сообщили агентству в Amazon. — Мы аннотируем только очень малую выборку голосовых записей Alexa, чтобы улучшить качество обслуживания клиентов".
Некоторые аудиофайлы, собранные помощницей Siri на устройствах Apple, тоже помогают расшифровывать сотрудники. В компании говорят, что эти записи не содержат персональной информации — им присваивается только случайный идентификатор. Спустя полгода эти данные, как правило, удаляются, хотя и могут храниться в течение более долгого срока.
Рецензенты в Google тоже имеют доступ к некоторым аудиофрагментам, записанным "Ассистентом". По словам представителей поисковика, в этих файлах нет данных, позволяющих идентифицировать человека, а голос людей намеренно искажается.