Пользователи могут позвонить чат-боту Qwen - IT Speaker, новости информационных технологий

Пользователи могут позвонить чат-боту Qwen

Редакция

18:20 / 27 марта 2025

Разработчики Qwen (принадлежит Alibaba) выпустили мультимодальную модель Qwen2.5-Omni, которой можно «позвонить» по аудио или видео. Также алгоритм способен работать одновременно над текстом, изображениями, аудио и видео файлами. Новая нейросеть уже доступна в интерфейсе Qwen Chat.

Фотография unsplash

Сообщается, что модель использует уникальную архитектуру Thinker-Talker. Thinker  функционирует как мозг, обрабатывает и анализирует входные данные. Talker работает как человеческий рот. Он принимает информацию от Thinker и выводит дискретные токены речи.

Ключевой особенностью новой модели является возможность синхронизации временных меток видео и аудио с помощью технологии TMRoPE. Разработчики утверждают, что Qwen2.5-Omni превосходит аналогичные одномодальные модели.

Ожидается, что теперь разработчики сосредоточатся на улучшении понимания нейросетью голосовых команд, а также аудио и видео. Кроме того, команда Qwen собирается внедрить в интерфейс своего чата ИИ-агентов, работающих по протоколу MCP. 

Ранее компания «Яндекс» научила свою умную камеру при помощи нейросетей делать комплименты пользователям. Отмечается, что камера сможет распознать даже самые мелкие детали на фотографии.

Вас может заинтересовать: 

ChatGPT заговорил голосом пользователей


Поделиться новостью