суббота, 7 мая 2022 г.

«Гонка» больших языковых моделей (Large language models, LLM)

 В связи с апрельскими сообщениями о запуске Google AI Research новой языковой модели Pathways Language Model (PaLM) как, возможно, прообраза нового поколения LLM (см.  https://seo-aspirant.ru/algoritm-google-palm, https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html) свел в таблицу из новостных статей некоторые данные про наиболее известные за последние 2 года новинки в этой области, начиная с GPT-3

Год, месяц

Название, компания

Технические характеристики:

Количество параметров модели/объем обучающего массива

Возможности, отличия и т.п.

Май, 2020

GPT3, Open AI

175 млрд/570 ГБ

Сочиняет стихи и прозу, разгадывать анаграммы, выполняет переводы, ведёт диалоги, даёт ответы на вопросы по введенному тексту

Вероятность различения сгенерированного моделью текста от текста «человеческого» близка к 50% (вероятность угадывания)

GPT-3 впервые показал, что большие языковые модели (LLM) могут использоваться для обучения за несколько шагов и могут достигать впечатляющих результатов без крупномасштабного сбора данных для конкретных задач или обновления параметров модели.

Октябрь 2020 г.

RuGPT-3-XL, Сбер

1,3 млрд/600 ГБ

 

См. демо https://russiannlp.github.io/rugpt-demo/

Январь 2021

Google Switch Transformers, Google

1,6 трлн

Включает несколько моделей, специализирующихся на различных задачах, и «стробирующую сеть», выбирающую, к какой из этих моделей обращаться в конкретном случае.

Июнь 2021

YaLM (Yet another Language Model), 

Яндекс

13 млрд

См. демо https://yandex.ru/lab/yalm

(сейчас Балабоба временно не работает)

Июнь 2021

Wu Dao 2.0, Пекинская академия искусственного интеллекта, BAAI

1,75 трлн/ 4.9 ТБ

Задачи по обработке речи, генерации текста, распознаванию и созданию изображений, способна создавать текст на основе статического изображения и генерировать почти фотореалистичные изображения на основе словесных описаний. Т.е. Wu Dao 2.0 мультимодальна, объединяет CV&IP и NLP (см. DALL-E)

Октябрь 2021 г.

Megatron-Turing NLG,

Microsoft и NVIDIA

530 млрд/1.5 ТБ

Предсказание текста по смыслу;

Понимание прочитанного;

Генерация логических выводов;

Создание заключений на естественном языке;

Различение смысла слов с несколькими значениями.

Декабрь 2021 г.

Generalist Language Model (GLaM), Google

1,2 трлн./

Является более эффективной моделью, чем предшествующие монолитные плотные аналоги типа GPT-3.

Декабрь 2021 г.

Gopher, DeepMind

280 млрд./10.5 ТБ

Почти вдвое сокращает разрыв в точности от GPT-3 до производительности человека-эксперта. Особенно хорошо работает в наукоемких областях, таких как проверка фактов и общие знания.

Апрель 2022 г.

Pathways Language Model (PaLM), Google AI Research

540 млрд

Модель может объяснять шутки, логически рассуждать, пояснять свои действия и писать код.

В 28 из 29 случаев новая модель показала себя лучше, чем системы Google  GLaM и LaMDA, OpenAI GPT-3, DeepMind Chinchilla и Gopher, а также NVIDIA и Microsoft Megatron-Turing NLG.

 

Ну и в конце несколько примеров возможностей, показывающих способность PaLM к рассуждениям и объяснениям:

1. Пример арифметической задачи.

Вопрос:  У Роджера есть 5 теннисных мячей. Он покупает еще 2 банки теннисных мячей. В каждой банке по 3 теннисных мяча. Сколько теннисных мячей у него теперь?

Ответ: 11.

 2. Пример логических рассуждений

Вопрос: Шон торопился домой, но свет переключился на жёлтый, и он был вынужден сделать что? Варианты ответа: (a) требовать времени (b) бездельничать (c) идти медленно (d) океан (e) притормозить.

Ответ: (e) притормозить.

3. Объяснение шуток

Шутка: Я собирался лететь в гости к своей семье 6 апреля. Моя мама сказала: «О, здорово, у твоего отчима поэтические чтения в этот вечер!». Так что теперь я прилетаю 7 апреля.

 

Объяснение PaLM: Шутка заключается в том, что мать говорящего пытается уговорить его пойти на поэтические чтения отчима, но говорящий не хочет идти, поэтому он меняет свой рейс на следующий, после поэтических чтений, день. Генерирование объяснений

4. Цепочка умозаключений 1.

Гвидо пишет программу на языке Python. Он постоянно путается в области видимости переменных и ищет её на StackOverflow. Возможно ли, что под Гвидо подразумевается Гвидо ван Россум?

Вывод PaLM: Гвидо ван Россум является создателем Python. Ему не нужно искать область видимости переменной на StackOverflow.

Ответ: «Нет».

5. Цепочка умозаключений 2.

Вводные данные: Дженнифер выглянула в окно и видит под собой очень классное облако. Она отстегивает ремень безопасности и направляется в туалет. Возможно ли, что Дженнифер движется со скоростью более 300 миль в час относительно Земли?

Вывод PaLM: 300 миль в час – это около 480 км/ч. Это, примерно, скорость коммерческого самолёта. Облака обычно находятся ниже самолётов, поэтому Дженнифер, вероятно, летит на самолёте.

Ответ: «Да».

четверг, 5 мая 2022 г.

Технология от Sbera, которая м.б. использована для создания цифрового двойника учителя

 Мы уже писали о персонажах, созданных ИИ, которые могут быть использованы как ассистенты учителя или даже его цифровые дневники. На днях сотрудники Sber AR/VR Lab опубликовали статью https://habr.com/ru/company/sberbank/blog/664174/  (которая в тот же день стала недоступной) об опыте создания цифровых аватаров. Привожу некоторые положения статьи:

В один момент нам стало понятно, что для них  (цифровых аватаров) нам нужен датасет липсинка — то есть набор всех возможных положений лицевых мышц, которые используются при говорении и выражении эмоций. Такие датасеты позволили бы автоматизировать липсинк у цифровых аватаров. Для этого используют установку из 18 камер машинного зрения. Вот как это выглядит:

Про технику съемки подробнее в первоисточнике. Вначале снимаются все положения мимических мышц (FACS) актёра, с которого мы создаём 3D-двойника. Использовать заранее заготовленные шаблоны не получится: мышцы у всех работают по-разному, а нам важна присущая конкретному человеку мимика. Когда все положения будут зафиксированы, получится полный датасет для создания цифрового аватара. Также у нас есть много часов съёмок актёра, наговаривающего различный текст. На этом большом датасете наша нейронка обучается липсинку.

Что получается – можно посмотреть здесь:

Вся лицевая анимация и липсинк сделаны автоматически. На вход поступает только аудиодорожка с речью, фонемы распознаются нейронкой, и в соответствии с датасетом строится лицевая анимация. Причём наша нейросеть уже умеет говорить на разных языках. Понятно, что актёру нужно создавать отдельные датасеты под каждый язык — наборы фонем различаются. Сейчас мы продолжаем снимать датасеты на разных языках, чтобы повысить качество липсинка. Как итог — теперь с помощью нейросети можно автоматически создавать лицевую анимацию только на базе голоса. Больше никакой кропотливой работы 3D-аниматора, который вручную двигает губы под речь актёра.

От себя:

Итак, эта технология позволяет создать цифрового аватара преподавателя. Точнее «говорящую голову» преподавателя, которой можно задать для озвучивания любой текст. При этом этот аватар индивидуализированный, настроенный на особенности мимики и речи конкретного человека, то есть цифровая модель-двойник более точная и реалистичная, чем применение к фото или видео некоей «общей мимической модели» (см. эксперименты MyHeritage и др.). При этом, очевидно, что пусть и не столь точну не 3D, а 2D, но все же индивидуализированную модель можно получить при обработке по схожей технологии достаточно больших видеофрагментов речи и мимики конкретных преподавателей.

Для чего может использоваться:

1. Создание учебных видеороликов конкретного  преподавателя без его участия. Недостатки: говорящей головы явно недостаточно для реалистичного полноценного видео даже на 8-10 минут ролика.    

2. После записи видеоролика и монтажа онлайн-курса где-то через год или чуть позже  возникает потребность добавления нового  материала, исправления старого. Переснимать дорого и нетехнологично. Добавленные письменные материалы неадекватны по статусу  видеоматериалам. Вот здесь можно применить цифрового дневника преподавателя для записи корректирующего ролика. Можно установить в вузе регламент изменений, скажем раз в год присылается файл с коррекционным текстом

3. Можно вложить «в уста преподавателя», скажем ОмГУ, лекцию другого преподавателя в шутку или для других  целей         

4. Можно двойником озвучивать задания, вопросы тестов и т.п.

Sber AR/VR Lab сообщает дальнейшие перспективы технологии: Анимация лица — не единственное, что мы сейчас можем сделать. Мы можем записывать и full-body-аватар — не только лицо, а всё тело. Получается полноценный цифровой двойник, которого можно переносить в метавселенные.

Но есть ограничения... Да и дорого. Дальнейшее использование планируют в индустрии развлечений