timkin.blog: 2021

среда, 7 июля 2021 г.

Интерактивный персонаж с искусственным интеллектом. Пример создания

Уже сейчас компьютерные модели могут оживлять изображения, создавать несуществующие изображения. А языковые модели способны понимать текст, создавать новые тексты, организовать диалог и работать с речью.

Разработчики многопользовательской VR-песочницы Modbox объединили платформу распознавания голоса Windows Speech Recognition, нейросеть от компании OpenAI - GPT-3 и систему синтеза естественной речи Replica. Всё ради уникального демо первых NPC (Non-Player Character – неигровые персонажи в компьютерных играх) с искусственным интеллектом.

Этот пример (с переводом на русский) и мои рассуждения привожу в формате видеоролика из курса ПК "Искусственный интеллект в образовании: реальность и перспективы":

вторник, 6 июля 2021 г.

Создание изображений из текста. DALL•E: связь компьютерного зрения с технологиями обработки естественного языка.

Новинка разработана специалистами из компании OpenAI. Они добавили к своей прославленной нейронной сети GPT-3 новый модуль под названием DALL·E.

Возможности:

1) управление свойствами объекта

2) одновременное управление несколькими объектами, их атрибутами и их пространственными отношениями представляет собой новую проблему.

3) визуализация перспективы и трехмерности;

4) визуализация внутренней структуры с помощью видов в разрезе и внешней структуры с помощью макроснимков;

5) устранять неполные спецификации в трех случаях: изменение стиля, обстановки и времени; рисование одного и того же объекта в самых разных ситуациях; создание изображения объекта с написанным на нем конкретным текстом;

6) способность комбинировать разрозненные идеи для синтеза объектов, некоторые из которых вряд ли существуют в реальном мире;

7) и многое другое.

Образцы можно посмотреть и поманипулировать возможностями нейросети здесь https://openai.com/blog/dall-e/.

Мое видео о DALL·E из курса повышения квалификации "Искусственный интеллект в образовании: реальность и перспективы":

Обратная операция: семантически развернутое текстовое описание сложного изображения похоже более сложная задача. Пару лет назад пропагандировали сервис CaptionBot от Microsoft, который делал аннотации фотографий.Но довольно неудачно. Возможно поэтому в настоящее время сервис https://www.captionbot.ai/ недоступен.

пятница, 2 июля 2021 г.

edX продают за $800 млн.

29.06.2021 г.The Wall Street Journal сообщил, что образовательно-технологическая компания 2U Inc., которая реализует программы для выпускников десятков ведущих университетов, покупает некоммерческую организацию edX, провайдера веб-курсов, основанную Гарвардским университетом и Массачусетским технологическим институтом, за 800 миллионов долларов.

2U работает как онлайн-менеджер программ . Он не присваивает степени. Скорее, он предоставляет своим клиентам технологии и другие ресурсы для создания онлайн-курсов и программ на получение степени, преподаваемых инструкторами учреждения-клиента с живым видео и записанными уроками с мультимедийными презентациями. 2U заключает долгосрочные контракты, обычно на срок от 10 до 15 лет, со своими учреждениями-клиентами.

четверг, 1 июля 2021 г.

К проблеме самообновляющегося учебника

Прогресс технологий идет настолько быстро, что становятся бессмысленными статические источники информации, например, статические учебники и онлайн-курсы. Содержание должно непрерывно обновляться и изменяться. Конечно, есть методы и инструменты более динамичные: блоги, агрегаторы контента типа scoop.it и многое тому подобное. Но все же привычный академический формат, рассчитанный не на исследователей, а именно школяров – это учебник, к которому очень близок автоматизированный онлайн-курс. Их непрерывное обновление не под силу человеку - здесь должен быть привлечен ИИ и продвинутые NLP-модели. То есть адекватные прогрессу учебные материалы должны самообновляться, обладать функциями парсера новостей по теме и функциями переформатирования старых и компиляции новых текстов.

Например, при подготовке главы о Больших генеративных моделях (БГМ) в онлайн-курсе и учебном пособии «Искусственный интеллект в образовании», автор столкнулся с тем, что текст и видео за время их подготовки к публикации в онлайн-курсе стабильно устаревает. Только было подготовлено и записано видео о GPT-3, как появилась необходимость дополнить главу информацией о модели Сбера ruGPT-3 Large (ноябрь 2020). Следом появилась информация о новой модели Google на 1.6 трлн. параметров. АК в июне 2021 г., когда весь курс был окончательно подготовлен к реализации «как назло» появляется не только информация о китайской модели Wu Dao, но и отечественной, пусть и более скромной YaLM от Яндекса, да еще и с демонстрационным интерфейсом «Балабоба».

Решаема ли эта проблема – создание «умного» динамического учебника? Попробуем порассуждать.

Новая информация может противоречить существующему содержанию учебника, а может дополнять его.

1. Предположим, что дополняет. Каков может быть подход?

В первом приближении, при условии, что текст был написан добросовестным автором, можно предположить, что дополнения могут поступать только от источников, которые появились позже окончания работы над текстом.

В этом случае алгоритм может быть таким:

1) Система анализирует текст (возможно происходит предварительная суммаризация-реферирование), выделяя ключевые понятия, слова, термины

2) При этом должны быть исключены n-граммы, «заужающие» и затемняющие поиск, например, разного рода именованные сущности – но универсального подхода здесь нет. Например, для поиска информации о новых БГМ, д.б. исключены фирменные, географические названия и прочие наименования. А для учебника по истории Южной Америки нет.

3) Далее м.б. осуществлен поиск-парсинг новой информации, причем поисковая модель должна уметь определять первоисточник информации и его дату публикации. По аналогии как tineye ищет оригинал картинки, где и когда она была впервые опубликована.

4) Все эти этапы в принципе решаемы и не новы: агрегация новостей дело не новое. Это вопросы источников информации, релевантности поиска. Наверное, можно обойтись стандартными и полуавтоматическими решениями.

5) Затем система должна решить: содержит ли найденный контент что-либо новое по сравнению с имеющемся в тексте. То есть должна научиться определять «степень новизны». Непростой вопрос, связанный с задачами поиска плагиата только в самом первом приближении.

6) И далее, если на предыдущем шаге получено значение «да», новизна имеется - информация должна быть очищена от несущественных, повторяющихся частей, возможно сжата. А затем должно быть определено куда она должна быть вставлена и, что совсем не тривиально, стилизована под общий текст.

Итак, перечислим еще раз задачи, которые необходимо решить:

· Анализ исходного текста для целей поиска тематической информации

· Отбор источников информации, парсинг информации с них, тайм-селекция

· Определение новизны информации по отношению к исходному тексту

· Стилизация информации и ее объединение с исходными текстом

2. Исправление содержания

Мне неизвестны решения такого комплексного характера. Хотя, очевидно, что по частям решения есть. Не секрет, что определенной моделью глобального динамического учебника является Википедия. Правда, изменения в ней генерируются множеством людей-редакторов, в том числе на волонтерской основе. Не чужда Википедия и использованию ИИ. Однако до последнего времени его применение ограничивалось несколькими простыми задачами:

· Препятствие вандализму (когда кто-то намеренно добавляет в энциклопедию неправдивую информацию), например, программа ClueBot NG;

· Создание заготовок статей, вставка сведений в заранее определенные шаблоны и т.п.;

· Создании и исправлении ссылок, проверке правописания, определение нарушения копирайта

Более продвинутый вариант предлагают исследователи из Массачусетского технологического института (см. популярное изложение в Офисе новостей MIT за 12.02.2021 г. https://news.mit.edu/2020/automated-rewrite-wikipedia-articles-0212). В статье «Automatic Fact-Guided Sentence Modification»// Darsh J Shah, Tal Schuster, Regina Barzilay Computer Science and Artificial Intelligence Lab Massachusetts Institute of Technology. https://arxiv.org/pdf/1909.13838.pdf авторы ставят задачу исправления и изменений в статьях Википедии. При этом основной задачей является именно исправление, а не добавление – через выделение противоречий между старой и новой информацией и изменение старой. Это сложная задача ограниченной генерации, поскольку вывод должен быть согласован с новой информацией и вписываться в остальную часть существующего документа.

В статье, представленной на конференции AAAI по искусственному интеллекту, исследователи описывают систему генерации текста, которая определяет и заменяет конкретную информацию в соответствующих предложениях Википедии, сохраняя язык, похожий на то, как люди пишут и редактируют. Идея состоит в том, что люди будут вводить в интерфейс неструктурированное предложение с обновленной информацией, не беспокоясь о стиле или грамматике. Затем система выполнит поиск в Википедии, найдет соответствующую страницу и устаревшее предложение и перепишет их по-человечески. Исследователи говорят, что в будущем есть потенциал для создания полностью автоматизированной системы, которая определяет и использует самую свежую информацию из Интернета для создания переписанных предложений в соответствующих статьях Википедии, отражающих обновленную информацию.

Согласитесь, это предложение наиболее близко к идее самообновляющегося учебника. Но давайте посмотрим как действует эта технология. Что следует учитывать и при каких условиях задача может быть достижимой.

Во-первых назначением системы является не изменение всей статьи, а только «точных частей статей». В качестве входных данных система принимает «устаревшее» предложение из статьи в Википедии, а также отдельное «утверждение», содержащее обновленную и противоречивую информацию. Она должна автоматически удалять и сохранять определенные слова в устаревшем предложении на основе информации в заявлении, чтобы обновить факты, но сохранить стиль и грамматику. Это простая задача для людей, но новая в машинном обучении.

Например, предположим, что это предложение (выделено жирным шрифтом) необходимо обновить: «Фонд A считает 28 из своих 42 миноритарных пакетов акций в операционно активных компаниях особенно важными для группы». Предложение с обновленной информацией может гласить: «Фонд А считает 23 из 43 миноритарных долей участия значительными». Система найдет соответствующий текст в Википедии для «Фонда А» на основе заявления. Затем он автоматически удаляет устаревшие числа (28 и 42) и заменяет их новыми числами (23 и 43), сохраняя при этом предложение точно таким же и грамматически правильным.

Как это работает:

Система была обучена на популярном наборе данных, который содержит пары предложений, в которых одно предложение является утверждением, а другое - соответствующим предложением Википедии. Каждая пара помечается одним из трех способов: «согласен», что означает, что предложения содержат совпадающую фактическую информацию; «Не согласен», что означает, что они содержат противоречивую информацию; или «нейтральный», если для любого ярлыка недостаточно информации. Система должна заставить все несогласные пары согласиться, изменив устаревшее предложение, чтобы оно соответствовало утверждению. Это требует использования двух отдельных моделей для получения желаемого результата.

Первая модель - это классификатор для проверки фактов, предварительно обученный маркировать каждую пару предложений как «согласен», «не согласен» или «нейтральный», - который фокусируется на несогласных парах.

Вместе с классификатором работает настраиваемый модуль «маскировки нейтралитета», который определяет, какие слова в устаревшем предложении противоречат утверждению. Модуль удаляет минимальное количество слов, необходимых для «максимизации нейтралитета» - это означает, что пара может быть помечена как нейтральная. Это отправная точка: хотя предложения не совпадают, они больше не содержат явно противоречивой информации. Модуль создает двоичную «маску» над устаревшим предложением, где 0 ставится над словами, которые, скорее всего, требуют удаления, а 1 ставится поверх хранителей.

После маскирования для генерации окончательного выходного предложения используется новая структура с двумя кодировщиками и декодерами. Эта модель изучает сжатые представления утверждения и устаревшего предложения. Работая совместно, два кодировщика-декодера объединяют несходные слова из заявки, перемещая их в места, оставшиеся свободными после удаленных слов (тех, которые покрыты нулями) в устаревшем предложении.

Результат:

В одном тесте модель получила более высокие оценки, чем все традиционные методы, с использованием метода под названием «SARI», который измеряет, насколько хорошо машины удаляют, добавляют и сохраняют слова по сравнению с тем, как люди изменяют предложения. Они использовали набор данных с вручную отредактированными предложениями Википедии, которых модель раньше не видела. По сравнению с несколькими традиционными методами создания текста, новая модель была более точной в обновлении фактов, а ее результаты более напоминали человеческое письмо. В другом тесте краудсорсинговые люди оценили модель (по шкале от 1 до 5) на основе того, насколько хорошо ее выходные предложения содержали фактические обновления и соответствовали грамматике человека. Модель получила средний балл 4 за фактическое обновление и 3,85 за соответствие грамматике.

№	Старый текст	Новая информация	Результат исправления
1	Родившись в Лоутоне , штат Оклахома , и выросший в Анахайме , штат Калифорния, Хилленбург в детстве увлекся небом, а также развил интерес к искусству	Стивен Хилленбург в детстве был очарован океаном	Родившись в Лоутоне , штат Оклахома , и выросший в Анахайме , штат Калифорния, Хилленбург в детстве увлекся океаном, а также проявил интерес к искусству .
2	Немецкая Startups Group считает, что 28 из 42 миноритарных акционеров в действующих компаниях имеют особое значение для группы.	Он считает значимыми 23 из 43 миноритарных акционеров	Немецкая Startups Group считает, что 23 из 43 миноритарных акционеров в действующих компаниях имеют особое значение для группы.
3	Сиквел Rio 2, был выпущено 11 апреля 2012 года	Сиквел Rio вышел 11 апреля 2014 года	Сиквел Rio 2, было выпущено 11 апреля 2014 года
4	Альберт С. Редди родился 28 марта 1940 года - канадский кино - и телевизионный продюсер	1930 году родился Альберт С. Редди	Альберт С. Редди родился 18 декабря 1930 года -китайский кино - и телевизионный продюсер*

*В последнем примере, несмотря на то, что модель выдает правильный 1930 год, она изменяет месяц и национальность на выдуманные, неправильные значения. Это результат слишком агрессивного удаления.

Итак, что можно сказать о предложенном методе и о возможности его применения для решения задачи саморедактирующегося учебника

1. Очевидно, что его использование позволяет достичь только частичного самообновления, а именно: изменения на основе выделения противоречия между старой и новой информацией
2. Как понятно из примеров пока работают лишь простые и в основном количественные различия и изменения
3. Для обучения модели необходимо сформировать достаточное количество размеченных пар предложений
4. Проблема парсинга необходимых изменений в учебник здесь не ставится: новый фрагмент должен находить и «скармливать» системе человек

Тем не менее мы видим здесь определенный шаг в направлении создания самообновляющегося учебника.

вторник, 29 июня 2021 г.

Пробую возобновить работу в блоге. При этом ставлю следующие цели:

1. Репост статей и сообщений, имеющих отношение к использованию искусственного интеллекта в образовании. Такая себе новостная лента событий и публикаций, которые ты не успеваешь анализировать, но не хочешь, чтобы эта информация затерялась

2. Собственные сообщения частного характера, в которых представлен предварительный анализ тенденций, сервисов и прочего, имеющего отношение к ИИ в образовании (типа сравнений сервисов, соображений о перспективах использования и т.п.)

Связь компьютерного зрения с технологией обработки естественного языка. Создание изображений из текста. Strolling Cities - кейс конца мая 2021 г.

Strolling Cities - «Прогуливающиеся города» - новый видеопроект из лаборатории искусственного интеллекта MIT-IBM Watson AI Lab

Подробнее здесь: https://www.fastcompany.com/90640772/these-locations-may-look-eerily-familiar-but-none-actually-exist

Визуальной базой были более 2 млн. фото итальянских городов сделанных студентами из Миланского политехнического университета. Во время изоляции они прогуливались по улицам девяти разных итальянских городов, сделав 2 миллиона фотографий этих городских пейзажей, не сверху или на машине, а близко пешком. (Bergamo, Bologna, Catania, Como, Firenze, Genova, Milano, Palermo, Roma, Venezia)
Затем изображения были помечены (такими словами, как «небо» или «окно») с помощью автоматизации, в то время как ИИ был обучен представлять города только из этих изображений.
Отобраны 9 текстов (стихи), посвященные этим городам. Стихи читаются (очевидно, профессиональными чтецами) и накладываются на непрерывные «плавающий» видеоряд, который создается нейросетью на основе банка изображений.
Легко следовать тому, как мыслит ИИ. Упоминание об океане вызывает появление океана, а на тротуарах - пешеходные дорожки. Рассказчик, говоря «воздушная вертикальность», заставляет здания простираться в небо. И иногда, когда нет достаточно четкого итальянского ориентира, такого как упоминание «рисовых полей», система, кажется, делает все возможное, предлагая поле чего-то, что не совсем похоже на траву, но не совсем похоже на рис или что-то еще. То есть эта нейросеть ведет себя не глупее DALL·E.
Получается весьма своеобразный арт-продукт (см. рис. и видео на сайте проекта https://strollingcities.com/index.html#Poems)

Как указывает руководитель проекта Мауро Мартино, мы уже видели всевозможные технически совершенные системы искусственного интеллекта для создания изображений, от воображаемых Google Street View до тюльпанов. Но для построения этих систем требуются груды исходных данных изображений, поэтому большинство ИИ узнают, как выглядят вещи, из общедоступных изображений в Интернете. Это означает, что вы получаете ИИ, который может создавать что-то реалистичное, но эстетически не привлекательное. Это технически точный, скучный средний показатель.

Легко представить педагогические аналогии данного арт-проекта. Ученик читает «Бородино» Лермонтова, а на экране возникают визуальные образы, формирующиеся на основе базы картинок батального, пейзажного, исторического характера. Или ученик отвечает урок по историческому событию, а ИИ создает визуальный образ события, зависящий от полноты и точности ответа. Мыслимы и игровые загадки-тесты, автоматически формируемые нейросетью на основе введенных учителем текстов.

среда, 7 июля 2021 г.