вторник, 6 июля 2021 г.

Создание изображений из текста. DALL•E: связь компьютерного зрения с технологиями обработки естественного языка.

 Новинка разработана специалистами из компании OpenAI. Они добавили к своей прославленной нейронной сети GPT-3 новый модуль под названием DALL·E.

Возможности:

1)      управление свойствами объекта

2)      одновременное управление несколькими объектами, их атрибутами и их пространственными отношениями представляет собой новую проблему.

3)      визуализация перспективы и трехмерности;

4)      визуализация внутренней структуры с помощью видов в разрезе и внешней структуры с помощью макроснимков;

5)      устранять неполные спецификации в трех случаях: изменение стиля, обстановки и времени; рисование одного и того же объекта в самых разных ситуациях; создание изображения объекта с написанным на нем конкретным текстом;

6)      способность комбинировать разрозненные идеи для синтеза объектов, некоторые из которых вряд ли существуют в реальном мире;

7)      и многое другое.

Образцы можно посмотреть и поманипулировать возможностями нейросети здесь https://openai.com/blog/dall-e/.

Мое видео о DALL·E из курса повышения квалификации "Искусственный интеллект в образовании: реальность и перспективы":


Обратная операция: семантически развернутое текстовое описание сложного изображения похоже более сложная задача. Пару лет назад пропагандировали сервис CaptionBot от Microsoft, который делал аннотации фотографий.Но довольно неудачно. Возможно поэтому в настоящее время сервис https://www.captionbot.ai/  недоступен. 

Комментариев нет:

Отправить комментарий