четверг, 5 мая 2022 г.

Технология от Sbera, которая м.б. использована для создания цифрового двойника учителя

 Мы уже писали о персонажах, созданных ИИ, которые могут быть использованы как ассистенты учителя или даже его цифровые дневники. На днях сотрудники Sber AR/VR Lab опубликовали статью https://habr.com/ru/company/sberbank/blog/664174/  (которая в тот же день стала недоступной) об опыте создания цифровых аватаров. Привожу некоторые положения статьи:

В один момент нам стало понятно, что для них  (цифровых аватаров) нам нужен датасет липсинка — то есть набор всех возможных положений лицевых мышц, которые используются при говорении и выражении эмоций. Такие датасеты позволили бы автоматизировать липсинк у цифровых аватаров. Для этого используют установку из 18 камер машинного зрения. Вот как это выглядит:

Про технику съемки подробнее в первоисточнике. Вначале снимаются все положения мимических мышц (FACS) актёра, с которого мы создаём 3D-двойника. Использовать заранее заготовленные шаблоны не получится: мышцы у всех работают по-разному, а нам важна присущая конкретному человеку мимика. Когда все положения будут зафиксированы, получится полный датасет для создания цифрового аватара. Также у нас есть много часов съёмок актёра, наговаривающего различный текст. На этом большом датасете наша нейронка обучается липсинку.

Что получается – можно посмотреть здесь:

Вся лицевая анимация и липсинк сделаны автоматически. На вход поступает только аудиодорожка с речью, фонемы распознаются нейронкой, и в соответствии с датасетом строится лицевая анимация. Причём наша нейросеть уже умеет говорить на разных языках. Понятно, что актёру нужно создавать отдельные датасеты под каждый язык — наборы фонем различаются. Сейчас мы продолжаем снимать датасеты на разных языках, чтобы повысить качество липсинка. Как итог — теперь с помощью нейросети можно автоматически создавать лицевую анимацию только на базе голоса. Больше никакой кропотливой работы 3D-аниматора, который вручную двигает губы под речь актёра.

От себя:

Итак, эта технология позволяет создать цифрового аватара преподавателя. Точнее «говорящую голову» преподавателя, которой можно задать для озвучивания любой текст. При этом этот аватар индивидуализированный, настроенный на особенности мимики и речи конкретного человека, то есть цифровая модель-двойник более точная и реалистичная, чем применение к фото или видео некоей «общей мимической модели» (см. эксперименты MyHeritage и др.). При этом, очевидно, что пусть и не столь точну не 3D, а 2D, но все же индивидуализированную модель можно получить при обработке по схожей технологии достаточно больших видеофрагментов речи и мимики конкретных преподавателей.

Для чего может использоваться:

1. Создание учебных видеороликов конкретного  преподавателя без его участия. Недостатки: говорящей головы явно недостаточно для реалистичного полноценного видео даже на 8-10 минут ролика.    

2. После записи видеоролика и монтажа онлайн-курса где-то через год или чуть позже  возникает потребность добавления нового  материала, исправления старого. Переснимать дорого и нетехнологично. Добавленные письменные материалы неадекватны по статусу  видеоматериалам. Вот здесь можно применить цифрового дневника преподавателя для записи корректирующего ролика. Можно установить в вузе регламент изменений, скажем раз в год присылается файл с коррекционным текстом

3. Можно вложить «в уста преподавателя», скажем ОмГУ, лекцию другого преподавателя в шутку или для других  целей         

4. Можно двойником озвучивать задания, вопросы тестов и т.п.

Sber AR/VR Lab сообщает дальнейшие перспективы технологии: Анимация лица — не единственное, что мы сейчас можем сделать. Мы можем записывать и full-body-аватар — не только лицо, а всё тело. Получается полноценный цифровой двойник, которого можно переносить в метавселенные.

Но есть ограничения... Да и дорого. Дальнейшее использование планируют в индустрии развлечений


Комментариев нет:

Отправить комментарий