Разработчики Baidu представили систему скоростного синтеза речи

Руководство китайской интернет-компании Baidu крайне неохотно афиширует сведения о своих проектах, реализуемых специалистами Центра исследования искусственного интеллекта в Кремниевой долине. Но, не так давно компания все же раскрыла сведения об одном из таких проектов. Речь идет о технологии Deep Voice, позволяющей преобразовывать текст в человеческую речь. По словам китайских разработчиков, созданная ими технология является гораздо более эффективной WaveNet от североамериканской корпорации Google.

Новая разработка Baidu способна освоить человеческую речь на протяжении всего нескольких, причем без посторонней помощи. И поскольку специалистам компании доступна возможность контроля над передаваемыми системой эмоциями, технология может быстро синтезировать человеческую речь, звучащую реалистично и качественно.

Стоит отметить, что в отличие от решения Baidu, технология WaveNet также способна синтезировать реалистичную речь, однако для этого ей необходимо использовать большие вычислительные мощности. Наряду с этим, технологию от Google крайне сложно использовать в паре с представленными на рынке приложениями.

Суть новой разработки Baidu сводится к тому, что в ее основу положена технология глубокого обучения, что дает системе возможность самостоятельно изучать язык без вмешательства человека. Специалисты китайской IT-компании утверждают, что им фактически удалось решить проблему технологии WaveNet, однако созданная ими система по-прежнему далека от совершенства.

Впрочем, инженеры Baidu не сомневаются в том, что в скором времени им удастся добиться синтеза человеческой речи в реальном масштабе времени. Не так давно они обнародовали несколько примеров работы Deep Voice в сервисе Mechanical Turk, принадлежащем североамериканскому ритейлеру Amazon. Судя по пользовательским отзывам, новая технология преобразует текст в человеческую речь на довольно высоком уровне.