Google разработала современный синтезатор речи нового поколения - Tacotron 2. Технологию, скорее всего, сразу начнут использовать в продуктах компании.
Система преобразования текста в голосовое вещание справляется с задачами значительно качественнее предшественников - Tacotron и WaveNet. Последние имели ряд недостатков: WaveNet выдавала очень резкие звуки, а Tacotron лучше справлялся с интонациями, но не мог производить качественный "языковой продукт".
Алгоритм Tacotron 2 работает благодаря двум нейронным сетям. Печатная версия трансформируется в специальную Tacotron-спектрограмму, в которой правильно распределяют ритм и ударения в словах.
Аудиозапись действительно напоминает язык живого человека, а не машины. Темп, интонация и ударения звучат убедительно. Основные запинки происходят на словах с нетрадиционным произношением.