Платиновый партнер

07 марта 2023

SpeechKit Brand Voice: развитие технологии и новая версия Call Center

В Yandex Cloud мы развиваем технологии индивидуального синтеза речи под брендом SpeechKit Brand Voice и помогаем компаниям любого размера говорить со своими клиентами уникальными голосами. Различные исследования и разработки нашей команды позволяют сервису синтезировать голоса, максимально приближённые к звучанию человеческой речи. Благодаря этому появляется возможность выделиться на фоне конкурентов и повысить лояльность клиентов.

Сейчас мы выводим обновление SpeechKit Brand Voice, которое поможет подобрать подходящий формат работы с сервисом, а также ускорит и упростит получение полнотекстового синтеза. Пользователи платформы могут выбрать среди трёх версий SpeechKit Brand Voice: Premium, Self Service и Call Center. Расскажем про них подробнее.

Brand Voice Premium

Brand Voice Premium — это вариант синтеза, который позволит создать максимально качественный голос для сложных задач: голосовых ассистентов, озвучки текстового контента, маркетинговых целей, полнотекстового синтеза речи с различными характеристиками в нескольких амплуа. Наши специалисты помогут подготовить данные, необходимые для обучения модели Brand Voice Premium: подберут студию и диктора и будут сопровождать на всех этапах создания голоса. Также доступна интеграция голоса в навыки Алисы.

Brand Voice Self Service

Если вы желаете записать диктора самостоятельно, то получить полнотекстовый синтез поможет Brand Voice Self Service. С помощью этой версии можно озвучивать тексты любой длины, создавать роботов для колл-центра, озвучивать новости и многое другое. А разнообразить эмоциональную окраску голоса поможет синтез по аудиошаблону, из которого будут копироваться интонации.

Brand Voice Call Center

Мы создали абсолютно новую технологию Brand Voice — Call Center. Если раньше для создания нового голоса в синтезе речи нужны были часы записей в студии и недели обучения ML-модели, то теперь с помощью Brand Voice Call Center компании могут создать новые голоса для виртуальных операторов колл-центра за считаные минуты.

Пример оригинальной записи оператора

Пример записи, синтезированной Brand Voice Call Center

Алгоритм позволяет компаниям практически в режиме реального времени синтезировать голос, которым можно озвучивать персонализированные ответы для клиентов. Он обрабатывает один аудиошаблон и на его основе синтезирует сотни таких же фраз, но при этом по скрипту может менять в них отдельные слова. Синтезированная речь в Brand Voice Call Center звучит естественно и передаёт все детали речи живого человека из шаблона: эмоции, интонации, изменения громкости. В качестве шаблонов компании могут использовать фрагменты телефонных записей реальных операторов своих колл-центров.

Робота в колл-центре можно быстрее научить, например, обращаться к клиентам по именам или согласовывать адреса и названия товаров в заказе. Это первый подобный сервис на русском языке, выпущенный для коммерческого использования. Brand Voice Call Center уже доступен для компаний и предоставляется по запросу.

Для обучения Brand Voice Call Center специалисты Yandex Cloud использовали датасет с тысячами часов записей различных дикторов на русском языке. Подобный опыт позволяет работать практически с любым голосом без предварительной подготовки. Чтобы речь звучала более естественно, для обучения моделей в сервисе использовали трансформерную архитектуру. В отличие от других нейронных сетей, трансформеры позволяют обучать ML-модели параллельно на современных видеокартах (GPU) и концентрироваться на важных частях текста, что повышает качество синтеза.

Компания МТТ, которая использует Brand Voice Call Center для общения с клиентами, увеличила конверсию продаж на 20% в голосовых каналах. А по данным другой компании-партнера — АТС, которая внедрила технологию в проект по медицине, персонализированная речь помогает в разы повысить лояльность клиентов к виртуальным операторам.