суббота, 7 мая 2022 г.

«Гонка» больших языковых моделей (Large language models, LLM)

 В связи с апрельскими сообщениями о запуске Google AI Research новой языковой модели Pathways Language Model (PaLM) как, возможно, прообраза нового поколения LLM (см.  https://seo-aspirant.ru/algoritm-google-palm, https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html) свел в таблицу из новостных статей некоторые данные про наиболее известные за последние 2 года новинки в этой области, начиная с GPT-3

Год, месяц

Название, компания

Технические характеристики:

Количество параметров модели/объем обучающего массива

Возможности, отличия и т.п.

Май, 2020

GPT3, Open AI

175 млрд/570 ГБ

Сочиняет стихи и прозу, разгадывать анаграммы, выполняет переводы, ведёт диалоги, даёт ответы на вопросы по введенному тексту

Вероятность различения сгенерированного моделью текста от текста «человеческого» близка к 50% (вероятность угадывания)

GPT-3 впервые показал, что большие языковые модели (LLM) могут использоваться для обучения за несколько шагов и могут достигать впечатляющих результатов без крупномасштабного сбора данных для конкретных задач или обновления параметров модели.

Октябрь 2020 г.

RuGPT-3-XL, Сбер

1,3 млрд/600 ГБ

 

См. демо https://russiannlp.github.io/rugpt-demo/

Январь 2021

Google Switch Transformers, Google

1,6 трлн

Включает несколько моделей, специализирующихся на различных задачах, и «стробирующую сеть», выбирающую, к какой из этих моделей обращаться в конкретном случае.

Июнь 2021

YaLM (Yet another Language Model), 

Яндекс

13 млрд

См. демо https://yandex.ru/lab/yalm

(сейчас Балабоба временно не работает)

Июнь 2021

Wu Dao 2.0, Пекинская академия искусственного интеллекта, BAAI

1,75 трлн/ 4.9 ТБ

Задачи по обработке речи, генерации текста, распознаванию и созданию изображений, способна создавать текст на основе статического изображения и генерировать почти фотореалистичные изображения на основе словесных описаний. Т.е. Wu Dao 2.0 мультимодальна, объединяет CV&IP и NLP (см. DALL-E)

Октябрь 2021 г.

Megatron-Turing NLG,

Microsoft и NVIDIA

530 млрд/1.5 ТБ

Предсказание текста по смыслу;

Понимание прочитанного;

Генерация логических выводов;

Создание заключений на естественном языке;

Различение смысла слов с несколькими значениями.

Декабрь 2021 г.

Generalist Language Model (GLaM), Google

1,2 трлн./

Является более эффективной моделью, чем предшествующие монолитные плотные аналоги типа GPT-3.

Декабрь 2021 г.

Gopher, DeepMind

280 млрд./10.5 ТБ

Почти вдвое сокращает разрыв в точности от GPT-3 до производительности человека-эксперта. Особенно хорошо работает в наукоемких областях, таких как проверка фактов и общие знания.

Апрель 2022 г.

Pathways Language Model (PaLM), Google AI Research

540 млрд

Модель может объяснять шутки, логически рассуждать, пояснять свои действия и писать код.

В 28 из 29 случаев новая модель показала себя лучше, чем системы Google  GLaM и LaMDA, OpenAI GPT-3, DeepMind Chinchilla и Gopher, а также NVIDIA и Microsoft Megatron-Turing NLG.

 

Ну и в конце несколько примеров возможностей, показывающих способность PaLM к рассуждениям и объяснениям:

1. Пример арифметической задачи.

Вопрос:  У Роджера есть 5 теннисных мячей. Он покупает еще 2 банки теннисных мячей. В каждой банке по 3 теннисных мяча. Сколько теннисных мячей у него теперь?

Ответ: 11.

 2. Пример логических рассуждений

Вопрос: Шон торопился домой, но свет переключился на жёлтый, и он был вынужден сделать что? Варианты ответа: (a) требовать времени (b) бездельничать (c) идти медленно (d) океан (e) притормозить.

Ответ: (e) притормозить.

3. Объяснение шуток

Шутка: Я собирался лететь в гости к своей семье 6 апреля. Моя мама сказала: «О, здорово, у твоего отчима поэтические чтения в этот вечер!». Так что теперь я прилетаю 7 апреля.

 

Объяснение PaLM: Шутка заключается в том, что мать говорящего пытается уговорить его пойти на поэтические чтения отчима, но говорящий не хочет идти, поэтому он меняет свой рейс на следующий, после поэтических чтений, день. Генерирование объяснений

4. Цепочка умозаключений 1.

Гвидо пишет программу на языке Python. Он постоянно путается в области видимости переменных и ищет её на StackOverflow. Возможно ли, что под Гвидо подразумевается Гвидо ван Россум?

Вывод PaLM: Гвидо ван Россум является создателем Python. Ему не нужно искать область видимости переменной на StackOverflow.

Ответ: «Нет».

5. Цепочка умозаключений 2.

Вводные данные: Дженнифер выглянула в окно и видит под собой очень классное облако. Она отстегивает ремень безопасности и направляется в туалет. Возможно ли, что Дженнифер движется со скоростью более 300 миль в час относительно Земли?

Вывод PaLM: 300 миль в час – это около 480 км/ч. Это, примерно, скорость коммерческого самолёта. Облака обычно находятся ниже самолётов, поэтому Дженнифер, вероятно, летит на самолёте.

Ответ: «Да».

Комментариев нет:

Отправить комментарий