15:40 / 22 апреля 2025
«Яндекс» работает над единой нейросетью для речи и текста - IT Speaker, новости информационных технологий
«Яндекс» активно работает над ранее не анонсированной нейросетевой моделью SpeechGPT и нанимает в соответствующую команду инженера в области машинного обучения, говорится в разделе вакансий компании, пишет «Коммерсанть».
Работа ведется над мультимодальной моделью. Иными словами, это модель, способная обрабатывать разные виды вводных данных, или «умеет воспринимать текст и звук, отвечать текстом и звуком, решать разные задачи на стыке текста и звука».
Отметим, что некоторые нейросетевые сервисы «Яндекса» уже позволяют принимать вводные данные разных видов. Так, с ассистентом «Алиса» можно общаться как голосом, так и текстом; в декабре 2023 года компания сделала отдельный подраздел сайта с текстовым чатом.
В последних числах мая «Яндекс» схожим образом расширил функциональность сервиса Yandex SpeechSense: изначально созданный для анализа работы колл‑центров сервис получил возможность обрабатывать и текстовые сообщения. Возможность обрабатывать одновременно текст и картинки есть в сервисе «Нейро».
Но между мультимодальным пользовательским опытом и мультимодальностью самой модели есть разница, объясняет сооснователь Just AI Кирилл Петров. В первом случае зачастую происходит перевод данных из одного вида в другой. Так, например, в случае с голосовым ассистентом речь сначала одной моделью преобразовывается в текст, этот текст анализируется другой моделью, а третья модель преобразовывает текст ответа в речь. На каждом шаге происходит упрощение, а еще вся обработка занимает больше времени. Мультимодальные же модели вроде GPT-4o от OpenAI позволяют учитывать весь контент, причем без задержек.
Мультимодальные модели с поддержкой аудио, по словам гендиректора группы компаний ЦРТ Дмитрия Дырмовского, способны «распознавать речь на нескольких языках, разделять реплики дикторов, определять эмоции и сложные невербальные приемы, такие как ирония и сарказм».
MVP (минимально жизнеспособный продукт) SpeechGPT, вероятно, появится в ближайшие месяцы, «дальше пойдет процесс непрерывных улучшений», предполагает эксперт в области искусственного интеллекта и продвинутой аналитики компании Axenix Владимир Кравцев.
В «Яндексе» заявили, что работают над мультимодальностью в ассистенте «Алиса» и других сервисах. На вопрос о модели SpeechGPT в компании не ответили.
Ранее редакция IT Speaker писала, что компания «Яндекс» хочет внедрить свою нейросеть YandexGPT во все сервисы, в которых есть текст. На данный момент сеть уже присутствует в «Яндекс Маркете», «Авто.ру», «Картах» и «Практикуме».
Поделиться новостью
15:40 / 22 апреля 2025
15:20 / 22 апреля 2025
15:00 / 22 апреля 2025
14:40 / 22 апреля 2025
15:40 / 22 апреля 2025
15:20 / 22 апреля 2025
14:40 / 22 апреля 2025
14:20 / 22 апреля 2025