Facebook (запрещена в РФ) объявила о разработке новой системы машинного перевода, которая способна выполнять перевод публикации с одного языка на другой напрямую, без английского в качестве промежуточного этапа. Ежедневно, говорят в компании, только в "Хронике" функцией автоматического перевода пользуются свыше 20 миллиардов раз.
Ранее система Facebook использовала в качестве посредника английский язык — то есть предложение, написанное на китайском, сначала переводилось на английский, а потом уже на русский, что снижало общую точность перевода. Делалось так из-за широкой доступности и большого количества наборов данных переводов на и с английского языка.
В компании говорят, что новая система — M2M-100, — это первая многоязычная модель машинного перевода, которая способна выполнять прямой двусторонний перевод между парами из ста языков. По метрикам BLEU новая модель превосходит англоцентричную на 10 баллов, пишет Engadget.
Для обучения M2M-100 был накоплен огромный набор данных из более чем 7,5 миллиарда предложений. Тексты брались как из самого Facebook, так и всего интернета.
По словам представителей компании, новая модель пригодится не только для функции машинного перевода, но и для изучения самих языков. Набор данных обучения и оценки модели в Facebook пообещали сделать общедоступным для ученых.