timkin.blog: Создание изображений из текста. DALL•E: связь компьютерного зрения с технологиями обработки естественного языка.

Новинка разработана специалистами из компании OpenAI. Они добавили к своей прославленной нейронной сети GPT-3 новый модуль под названием DALL·E.

Возможности:

1) управление свойствами объекта

2) одновременное управление несколькими объектами, их атрибутами и их пространственными отношениями представляет собой новую проблему.

3) визуализация перспективы и трехмерности;

4) визуализация внутренней структуры с помощью видов в разрезе и внешней структуры с помощью макроснимков;

5) устранять неполные спецификации в трех случаях: изменение стиля, обстановки и времени; рисование одного и того же объекта в самых разных ситуациях; создание изображения объекта с написанным на нем конкретным текстом;

6) способность комбинировать разрозненные идеи для синтеза объектов, некоторые из которых вряд ли существуют в реальном мире;

7) и многое другое.

Образцы можно посмотреть и поманипулировать возможностями нейросети здесь https://openai.com/blog/dall-e/.

Мое видео о DALL·E из курса повышения квалификации "Искусственный интеллект в образовании: реальность и перспективы":

Обратная операция: семантически развернутое текстовое описание сложного изображения похоже более сложная задача. Пару лет назад пропагандировали сервис CaptionBot от Microsoft, который делал аннотации фотографий.Но довольно неудачно. Возможно поэтому в настоящее время сервис https://www.captionbot.ai/ недоступен.

timkin.blog

вторник, 6 июля 2021 г.

Создание изображений из текста. DALL•E: связь компьютерного зрения с технологиями обработки естественного языка.

Комментариев нет:

Отправить комментарий

вторник, 6 июля 2021 г.

Создание изображений из текста. DALL•E: связь компьютерного зрения с технологиями обработки естественного языка.

Комментариев нет:

Отправить комментарий

вторник, 6 июля 2021 г.