Alibaba включила датасет россиян для обучения ИИ - IT Speaker, новости информационных технологий

Alibaba включила датасет россиян для обучения ИИ

Редакция

16:30 / 09 февраля 2024

Китайские инженеры из компании Alibaba включили датасет библиотеки Aniemore от российских разработчиков в тестирование нового метода обучения искусственного интеллекта (ИИ). Набор данных команды «Социальный код» использовался для сравнения производительности авторской модели emotion2vec. 

Alibaba совместно с научными сотрудниками трех ведущих университетов Китая создали авторскую модель для распознавания эмоций emotion2vec. Для сравнения производительности и метрик зарубежные коллеги включили в исследование и использовали сравнительный набор данных Russian Emotional Speech Dialogues (RESD), подготовленный для открытой библиотеки Aniemore командой «Социального кода». 

При разработке искусственного интеллекта важно иметь наборы данных (датасеты) для сравнения производительности модели с уже существующими моделями. Для этого берут хорошо известные и проверенные датасеты, имеющие определенное качество, описание и содержание. 

«Инженеры университетов Китая и Alibaba взяли RESD, как одну из метрик, на которой тестировали свою разработку и определяли качество ее работы. Приятно, что для этих целей они воспользовались именно нашей базой, не включая в тесты даже такие известные датасеты, как Dusha (Сбер). Это победа и международное признание нашей работы», – прокомментировал публикацию Артем Аментес, лидер разработки библиотеки Aniemore. 

Набор данных Russian Emotional Speech Dialogues содержит более 3 тыс. аудиофрагментов от 200 различных людей, модель способна распознавать эмоции в зашумленных аудиофайлах длительностью до трех секунд. В датасете также содержатся реальные диалоги высокого качества и разного эмоционального окраса. Для подготовки этих материалов «Социальный код» привлек к работе профессиональных актеров, чтобы выборка была максимально приближена к реальности. Библиотека Aniemore (Artem Nikita Ilya EMOtion REcognition) разработана коллективом авторов на базе «Социального кода» при поддержке Фонда содействия развитию малых форм предприятий в научно-технической сфере в 2023 году.  

Синтезированные материалы на основе голосов актеров и дикторов используются для автоматизации работы колл-центров, создания голосовых ассистентов и других бизнес-процессов. Как правило, компании нанимают подрядчиков для выполнения работ по озвучиванию текстов с последующей передачей исключительных прав в полном объеме, включая права на переработку, внесение любых изменений, сокращений и дополнений. Однако даже соблюдение юридических норм не спасает компании от судебных исков. Подробнее читайте в материале IT Speaker «ИИ украл голос актрисы: как ей выиграть суд?».   



Поделиться новостью