Мы уже писали о персонажах, созданных ИИ, которые могут быть использованы как ассистенты учителя или даже его цифровые дневники. На днях сотрудники Sber AR/VR Lab опубликовали статью https://habr.com/ru/company/sberbank/blog/664174/ (которая в тот же день стала недоступной) об опыте создания цифровых аватаров. Привожу некоторые положения статьи:
В один момент нам стало понятно, что для них (цифровых аватаров) нам нужен датасет липсинка — то есть набор всех возможных положений лицевых мышц, которые используются при говорении и выражении эмоций. Такие датасеты позволили бы автоматизировать липсинк у цифровых аватаров. Для этого используют установку из 18 камер машинного зрения. Вот как это выглядит:
Про технику съемки подробнее в первоисточнике. Вначале снимаются все положения мимических мышц (FACS) актёра, с которого мы создаём 3D-двойника. Использовать заранее заготовленные шаблоны не получится: мышцы у всех работают по-разному, а нам важна присущая конкретному человеку мимика. Когда все положения будут зафиксированы, получится полный датасет для создания цифрового аватара. Также у нас есть много часов съёмок актёра, наговаривающего различный текст. На этом большом датасете наша нейронка обучается липсинку.
Что
получается – можно посмотреть здесь:
Вся лицевая анимация и липсинк сделаны автоматически. На вход поступает только аудиодорожка с речью, фонемы распознаются нейронкой, и в соответствии с датасетом строится лицевая анимация. Причём наша нейросеть уже умеет говорить на разных языках. Понятно, что актёру нужно создавать отдельные датасеты под каждый язык — наборы фонем различаются. Сейчас мы продолжаем снимать датасеты на разных языках, чтобы повысить качество липсинка. Как итог — теперь с помощью нейросети можно автоматически создавать лицевую анимацию только на базе голоса. Больше никакой кропотливой работы 3D-аниматора, который вручную двигает губы под речь актёра.
Итак, эта технология позволяет создать цифрового аватара преподавателя. Точнее «говорящую голову» преподавателя, которой можно задать для озвучивания любой текст. При этом этот аватар индивидуализированный, настроенный на особенности мимики и речи конкретного человека, то есть цифровая модель-двойник более точная и реалистичная, чем применение к фото или видео некоей «общей мимической модели» (см. эксперименты MyHeritage и др.). При этом, очевидно, что пусть и не столь точну не 3D, а 2D, но все же индивидуализированную модель можно получить при обработке по схожей технологии достаточно больших видеофрагментов речи и мимики конкретных преподавателей.
Для чего может использоваться:
1. Создание учебных видеороликов
конкретного преподавателя без его
участия. Недостатки: говорящей головы явно недостаточно для реалистичного
полноценного видео даже на 8-10 минут ролика.
2. После записи видеоролика и монтажа
онлайн-курса где-то через год или чуть позже возникает потребность добавления нового материала, исправления старого. Переснимать
дорого и нетехнологично. Добавленные письменные материалы неадекватны по
статусу видеоматериалам. Вот здесь можно
применить цифрового дневника преподавателя для записи корректирующего ролика.
Можно установить в вузе регламент изменений, скажем раз в год присылается файл
с коррекционным текстом
3. Можно вложить «в уста преподавателя»,
скажем ОмГУ, лекцию другого преподавателя в шутку или для других целей
4. Можно двойником озвучивать задания,
вопросы тестов и т.п.
Sber AR/VR Lab сообщает дальнейшие перспективы технологии: Анимация лица — не единственное, что мы сейчас можем сделать. Мы можем записывать и full-body-аватар — не только лицо, а всё тело. Получается полноценный цифровой двойник, которого можно переносить в метавселенные.
Но есть ограничения... Да и дорого.
Дальнейшее использование планируют в индустрии развлечений
Комментариев нет:
Отправить комментарий