Google DeepMind сообщает о прогрессе в синтезе речи
5-10-2016, 22:45 Новости, Information technology (IT) »
Google DeepMind сообщает о прогрессе в синтезе речи
Команда Google DeepMind сообщила о разработке нового способа синтеза речи, который уже демонстрирует превосходные результаты. В отличие от «консервативных TTS», использующих традиционные методы, система DeepMind полагается на технику, названную WaveNet. В то время, как консервативный подход полагается на рекомбинацию коротких фрагментов записанной речи, DeepMind разбивает входящее аудио на тысячи сэмплов в секунду, а затем использует полученные сырые данные для генерации речи. Результат, по сравнению с обычным генераторами, получился превосходным. Алгоритм WaveNet способен анализировать сэмплы и определять, какой из них лучше всего использовать для генерации крошечного участка речи. И для этого у него есть масса данных, поскольку исходный звук разбивается с дискретизацией чуть больше 16 000 семплов в секунду. Первоначальные тесты, проведённые командой DeepMind, показали, что при слепой проверке 50% людей называют сгенерированную WaveNet речь близкой к человеческой. В будущем, по мере улучшения методов, речь станет более реалистичной, а DeepMind позволит добавить в речь больше эмоций и акцентов.
Также читайте: