13:40 / 24 марта 2025
ИИ тестируют на игре Super Mario - IT Speaker, новости информационных технологий
Исследовательская группа Калифорнийского университета, известная как Hao AI Lab, начала использовать классическую игру Super Mario Bros. для проверки моделей искусственного интеллекта. Наилучшие результаты показали Claude 3.7 и Claude 3.5 от Anthropic, в то время как Gemini 1.5 Pro от Google и GPT-4o от OpenAI столкнулись с проблемами.
Игра была запущена на эмуляторе и интегрирована с GamingAgent, фреймворком, созданным Hao AI Lab, который предоставляет ИИ базовые инструкции, такие как уклонение от препятствий. ИИ затем генерирует команды в коде Python для управления игровым процессом.
Лаборатория отметила, что модели рассуждений, такие как o1 от OpenAI, продемонстрировали худшие результаты в сравнении с их обычными аналогами, что связано с задержками в принятии решений, поскольку в Super Mario Bros. каждая секунда имеет значение.
Хотя игры использовались для оценки ИИ на протяжении многих лет, некоторые эксперты выражают сомнения относительно возможности сопоставления игровых навыков с технологическим прогрессом. Игры часто абстрактны и предлагают бесконечные данные для обучения, что может затруднить оценку.
Недавние тестирования моделей привели к тому, что Андрей Карпаты, научный сотрудник и основатель OpenAI, назвал это «кризисом оценки». В своем посте в соцсети X (бывш. Twitter) он признал, что не знает, какие метрики использовать для определения качества современных моделей ИИ.
Ранее американская технологическая компания Anthropic, которая разработала чат-бот Claude, запустила на стриминговом сервисе Twitch экспериментальную трансляцию, на которой ИИ пытается пройти игру Pokemon Red.
Поделиться новостью
13:40 / 24 марта 2025
13:20 / 24 марта 2025
13:00 / 24 марта 2025
12:50 / 24 марта 2025
12:50 / 24 марта 2025
13:00 / 22 марта 2025
16:40 / 21 марта 2025
12:30 / 21 марта 2025