Microsoft представила ИИ VibeVoice - IT Speaker, новости информационных технологий

Microsoft представила ИИ VibeVoice

Редакция

18:20 / 26 августа 2025

Microsoft Research разработала новую ИИ-модель VibeVoice, которая может генерировать длительные аудиозаписи, например, подкасты или аудиокниги. За раз нейросеть может создать контент продолжительностью до 90 минут. Модель может воспроизводить речь с участием до четырех разных спикеров, сохраняя при этом естественность обычного разговора. 

Фотография unsplash

Существующие системы синтеза речи (TTS) могут лишь создавать короткие фразы, а не многоголосые диалоги, поэтому VibeVoice считается прорывной разработкой. VibeVoice создает длинные аудиозаписи новой архитектуры, основанной на диффузионной модели, предсказывающей каждый следующий токен, и усовершенствованном токенизаторе речи. 

Главным нововведением стал новый токенизатор, который сжимает аудиоданные в 80 раз эффективнее, чем популярная модель Encodec, при этом без потери качества. Это значительно повышает вычислительную эффективность при обработке длинных аудиопоследовательностей. Благодаря этому VibeVoice может работать с контекстным окном в 64 тыс. токенов, что и позволяет генерировать 90-минутные записи. 

Ранее компания Google начала тестировать новую функцию на базе Gemini, которая будет озвучивать результаты пользователей в поиске. Она получила название «аудиообзоры».



Поделиться новостью