Говорящие головы. Какими бывают дипфейки? - IT Speaker, новости информационных технологий

Говорящие головы. Какими бывают дипфейки?

Наташа Аксенова

12:20 / 25 сентября 2023

Фотография freepik

Искусственный интеллект (ИИ) совершенствуется каждый день, открывая новые возможности для создания разноформатного контента. Дипфейки используют в рекламе, кинематографе, музыкальной индустрии, для развлечения или обмана, ими «оживляют» картины и «воскрешают» умерших на экране. Однако само название говорит о том, что перед нами сложная «глубокая» подделка, которую зачастую нелегко отличить от реальности. IT Speaker поговорил с экспертами в области ИТ о видах и областях применения стремительно развивающихся технологий. 

Для создания дипфейков обычно используются нейросети и атрибуты идентичности (личные данные) существующего человека – например, внешность, голос или даже отпечатки пальцев. Возможный результат таких фейков включает среди прочего материалы, воспроизводящие то, что люди никогда не делали или не говорили в действительности. 

Но иногда для создания фейковых продуктов могут использоваться синтетические данные, сгенерированные нейросетями с нуля. 

Как отметил руководитель группы защиты инфраструктурных ИТ-решений компании «Газинформсервис» Сергей Полунин, можно выделить множество типов и классификаций дипфейков, но основными среди них являются подделки видео, изображений, аудио, а также текста

Исследователи Европейского института телекоммуникационных стандартов (ETSI) в своем отчете, а также ученые Университета Таксилы (Пакистан), а также Оклендского и Мичиганского университетов в совместном исследовании выделяют следующие методы создания дипфейков. 

Замена лица (face swapping). Технология приобрела популярность в 2017-м году, когда пользователь платформы Reddit с псевдонимом «deepfakes», используя нейронную сеть, подставлял лица голливудских знаменитостей в видеоконтент эротического содержания.

Другой пользователь Reddit по имени Deepfakeapp воспользовался популярной идеей и объявил о запуске приложения под названием FakeApp, позволяющей менять лица в видео. С тех пор популярность дипфейков среди общественности стала космической.

Иногда целью использования данной функции являются гнусные действия, шантаж или дискредитация персоны. Однако чаще технологию замены лица используют для ускорения видеомонтажа или простой шутки. Например, чтобы посмотреть на себя в роли Джона Сноу из «Игры престолов», достаточно загрузить свое фото в приложении Morphin. А если вы хотите примерить на себя или друга образ супергероя из фильмов Marvel, можно скачать сервис FaceHub-Ai или MSQRD.

Техника замены лица используется и в кинематографе. Так, еще в 2015-м году авторы «Форсажа 7» сделали цифровую копию актера Пола Уокера, который погиб в автокатастрофе. В четвертом сезоне сериала «Диверсант» 2022-го года появляется актер Владислав Галкин, ушедший из жизни 13 лет назад. А в этом году зрители отечественного сериала «Контакт» заметили, что дипфейком заменили лицо актера Максима Виторгана. 

Реконструкция лица (face reenactment). Метод сохраняет практически полностью черты индивидуальности человека, внося лишь незначительные изменения в выражение его лица, мимику или речь. 

Для иллюстрации ETSI использует кейс 2018 года, когда режиссер Джордан Пил смонтировал в приложении FakeApp видео, в котором экс-президент США Барак Обама якобы оскорбляет действующего в то время американского лидера Дональда Трампа. 

Другой громкий случай, связанный с политикой, произошел в 2020-м году. В соцсетях завирусилось фейковое видео, где спикер Палаты представителей США Нэнси Пелоси выступила перед публикой якобы в нетрезвом виде. Только анализ экспертов помог доказать, что оригинальное видео замедлено на 75%. Это обязало Facebook (принадлежит компании Meta, признана экстремистской и запрещена в РФ) прикрепить к публикации ярлык «частично ложная информация».

В магазинах приложений можно найти множество сервисов, использующих подобные технологии. Например, программа Face2Face переносит мимику с одного лица на другое, а в Face Warp можно просто изменить гримасу на фото.

Синтез лиц и редактирование атрибутов (face synthesis and attribute editing). В данном методе происходит работа только с лицом. Его можно состарить, омолодить, изменить цвет кожи, прическу, дорисовать очки или кепку. 

С помощью таких дипфейков режиссеры способны и омолаживать своих актеров на экране. Например, в пятой части боевика «Индиана Джонс и колесо судьбы» Спилберга 79-летний Харрисон Форд скинул пару десятков лет и предстал в образе 35-летнего авантюриста.

Подобные функции можно найти в фоторедакторе Lensa, Snapchat и некоторых фильтрах Instagram (принадлежит Meta, запрещена в РФ).

Синхронизация губ (lip syncing). Технология оставляет исходный кадр практически без изменений, меняя только движение губ, которые начинают двигаться синхронно с подмененной аудиодорожкой. 

Примером усовершенствованной версии этого метода можно назвать нейросеть HeyGen. Она способна переводить текст из видеороликов на другие языки и озвучивать их оригинальными голосами героев с имитацией движений губ. В сентябре 2023 года пользователи обработали (перевели на английский) при помощи этой нейросети популярные российские мемы, включая интервью Никиты Литвинкова, монологи женщины с кандибобером и «Идущего к реке». Итог – каждый ролик вновь завирусился в интернете. 

«Кукловод» (puppet master). Технология обеспечивает полную передачу характеристик лица и движений «донора» на тело «жертвы». Пример – представители племени Нави в «Аватаре» Джеймса Кэмерона.

Синтетические лица. Используя такие нейросети, как StyleGAN2, можно создавать 2D-изображения людей, которых не существует в реальности. ИИ способен преобразовать несколько лиц в одно лицо, содержащее биометрические характеристики реальных персон.

Аудиофейки. Этот класс методов манипуляции аналитики разделяют на две подкатегории: преобразование текста в речь и преобразование голоса. Может изменяться тембр, интонация, темп речи, эмоциональная окраска. Кроме того, нейросети способны полностью воспроизводить чужой голос. 

Аудиодипфейки помимо развлекательной функции, предоставляют широкие возможности для мошенников и интернет-провокаторов. Злоумышленники регулярно звонят жертвам и синтезом голосов их родственников или директоров выманивают деньги. 

А в начале текущего года пользователи форума 4chan использовали ИИ-синтезатор речи от стартапа ElevenLabs для создания оскорбительных аудиодипфейков с голосами знаменитостей. Большинство из сгенерированных записей содержали расистские и гомофобные высказывания. Среди прочего, на 4chan появились аудиозаписи с имитацией голосов Джо Байдена, Марго Робби, Джо Рогана и других знаменитостей. В одной из записей голос актрисы Эммы Уотсон зачитывал отрывок из книги Адольфа Гитлера «Майн кампф» (входит в федеральный список экстремистских материалов), в другой – голос Джеймса Кэмерона оскорблял сотрудников Marvel.

Текст. ИИ могут отвечать на вопросы, переводить материал, обобщать, сокращать, а также генерировать его. В контексте дипфейков текст направлен на подделку какой-либо информации о человеке, компании или организации. К текстовым дипфейкам можно отнести фишинг, спам, фальшивый контент, документы и фейковые новости, сгенерированные ИИ. Жертва текстового дипфейка может столкнуться с клеветой, мошенничеством, кибератаками, ущербом репутации и последующими юридическими разбирательствами. 

Среди недавних примеров последствий от создания текстовых дипфейков – майский случай, произошедший в Китае. В этом году мужчину арестовали за использование чат-бота ChatGPT для генерации фейковых новостей. Он генерировал разные вариации вымышленных историй, публиковал их в медиа и зарабатывал на кликах. В частности, в конце апреля он написал около 20 новостей о крушении поезда, где якобы погибли девять человек. Новость получила общественный резонанс, после которого полицейские начали расследование. 

А еще в 2017-м году ученые обучили нейросеть писать положительные отзывы о кафе и ресторанах, опубликовав об этом подробное исследование. Разработку использовали для генерации поддельных обзоров на общепит, салоны красоты и другие заведения для платформы Yelp, которые было трудно отличить от реальных отзывов. За качественный обзор в этой рекомендательной можно заработать до $10, что позволяет перевести нейросеть на коммерческую основу и зарабатывать деньги.

Современные нейросети, обученные на произведениях людей, включая ChatGPT, Sparrow и GopherCite, могут генерировать литературные тексты или научно-исследовательские работы. Такие продукты уже поднимают вопросы юридической ответственности за содержание с точки зрения авторства и авторских прав.

Комбинации – дипфейки с заменой лица, генерацией текста и синтезом речи. Чаще всего – это «говорящая голова», сгенерированная на основе изображения посредством GAN (генеративно-состязательные сети – это модель машинного обучения, в которой две нейронные сети соревнуются друг с другом). Существует и другой подход – создание анимированной трехмерной модели лица на основе текста или звука.

По словам техноброкера Центра интеллектуальных аналитических и робототехнических систем (ЦИАРС) Сергея Гатауллина, появившиеся более десяти лет назад GAN были созданы учеными для совершенно конкретных дополнений недостаточных выборок данных. Однако техника получила широкое распространение и известность среди обывателей именно благодаря дипфейкам. 

«И если первые поколения дипфейков могли вызвать разве что смех, то та технологическая гонка, которая развернута сейчас между кибермошенниками и специалистами в области обеспечения кибербезопасности по генерации фейкового аудио и видео контента и его обнаружения соответственно, вызывает опасения», – рассуждает эксперт. 

В дополнение к вышеописанным методам создания дипфейков можно отнести биометрические технологии. Как отметил руководитель направления синтеза и распознавания речи «Наносемантики» Григорий Шершуков, они представляют собой наибольшую опасность в системе безопасности данных и ресурсов пользователей. С помощью них можно создать поддельный отпечаток пальца или изображение радужки глаза, которые могут использоваться злоумышленниками для обхода систем аутентификации.

Как отметил преподаватель МГУ и психолог Алексей Сапкин, ИИ оказался приспособлен к вполне творческим задачам, в том числе – к созданию контента для медиа и индустрии развлечений. В этой области дипфейки немедленно нашли коммерческое применение, инвестиции потекли рекой. А значит, считает эксперт, что для повышения эффективности ИИ-творчества в сфере медиа и развлечений его начнут щедро обучать еще и на каналах обратной связи, характерных сейчас для нейромаркетинга, включая данные МРТ и кардиограммы. Нейросеть уже может по голосу и мимике определять эмоциональное состояние человека. 

«В результате ИИ научится выдавать именно такой контент, который оказывает максимальное влияние на аудиторию — и на массовую, и на состоящую из одного конкретного человека. Главный риск этого в том, что ИИ может начать настолько хорошо «просчитывать» свою цель, что разовьет навык суперубедительности, которому практически невозможно будет противостоять <...> В итоге, слабым звеном снова окажется именно человек», – опасается специалист.

По словам Сапкина, в будущем человек приспособится и к такому контенту, ведь еще в начале двухтысячных стали фиксировать падение эффективности рекламы, так как зрители научились «закрываться» от нее и развили навыки критического мышления, но какой ценой и сколько на это уйдет времени — неизвестно.

Поделиться новостью