Новинка разработана специалистами из компании OpenAI. Они добавили к своей прославленной нейронной сети GPT-3 новый модуль под названием DALL·E.
Возможности:
1) управление
свойствами объекта
2) одновременное
управление несколькими объектами, их атрибутами и их пространственными
отношениями представляет собой новую проблему.
3) визуализация
перспективы и трехмерности;
4) визуализация
внутренней структуры с помощью видов в разрезе и внешней структуры с помощью
макроснимков;
5) устранять
неполные спецификации в трех случаях: изменение стиля, обстановки и времени;
рисование одного и того же объекта в самых разных ситуациях; создание
изображения объекта с написанным на нем конкретным текстом;
6) способность
комбинировать разрозненные идеи для синтеза объектов, некоторые из которых вряд
ли существуют в реальном мире;
7) и
многое другое.
Образцы
можно посмотреть и поманипулировать возможностями нейросети здесь https://openai.com/blog/dall-e/.
Мое видео о DALL·E из курса повышения квалификации "Искусственный интеллект в образовании: реальность и перспективы":
Обратная операция: семантически развернутое текстовое описание сложного изображения похоже более сложная задача. Пару лет назад пропагандировали сервис CaptionBot от Microsoft, который делал аннотации фотографий.Но довольно неудачно. Возможно поэтому в настоящее время сервис https://www.captionbot.ai/ недоступен.
Комментариев нет:
Отправить комментарий