11:30 / 24 апреля 2025
Пользователи могут позвонить чат-боту Qwen - IT Speaker, новости информационных технологий
Разработчики Qwen (принадлежит Alibaba) выпустили мультимодальную модель Qwen2.5-Omni, которой можно «позвонить» по аудио или видео. Также алгоритм способен работать одновременно над текстом, изображениями, аудио и видео файлами. Новая нейросеть уже доступна в интерфейсе Qwen Chat.
Сообщается, что модель использует уникальную архитектуру Thinker-Talker. Thinker функционирует как мозг, обрабатывает и анализирует входные данные. Talker работает как человеческий рот. Он принимает информацию от Thinker и выводит дискретные токены речи.
Ключевой особенностью новой модели является возможность синхронизации временных меток видео и аудио с помощью технологии TMRoPE. Разработчики утверждают, что Qwen2.5-Omni превосходит аналогичные одномодальные модели.
Ожидается, что теперь разработчики сосредоточатся на улучшении понимания нейросетью голосовых команд, а также аудио и видео. Кроме того, команда Qwen собирается внедрить в интерфейс своего чата ИИ-агентов, работающих по протоколу MCP.
Ранее компания «Яндекс» научила свою умную камеру при помощи нейросетей делать комплименты пользователям. Отмечается, что камера сможет распознать даже самые мелкие детали на фотографии.
Поделиться новостью
11:30 / 24 апреля 2025
11:00 / 24 апреля 2025
10:30 / 24 апреля 2025
10:00 / 24 апреля 2025
11:30 / 24 апреля 2025
11:00 / 24 апреля 2025
10:00 / 24 апреля 2025
09:30 / 24 апреля 2025