Лаборатория OpenAI разработала сразу две новые нейросети: DALL-E и CLIP. Первый отвечает за создание новый изображений, используя в качестве основы простое описание. Второй же определяет объекты и классифицирует их, также опираясь на текстовое описание.
DALL-E
Картинки, которые генерирует DALL-E, «придумываются» нейросетью самостоятельно, пишет TechCrunch. Логика, по которой работает технология, схожа с таковой в GPT-3. В данном случае применяется пара текст-изображение, представленные как последовательность «токенов» из определенного алфавита.
GPT-3 показал нам, что язык можно использовать для обучения большой нейросети выполнять различные задачи по генерации текста. Image GPT показал, что тот же тип нейронной сети можно использовать и для генерации изображений с высокой точностью. Мы расширили эти выводы, чтобы продемонстрировать, что манипулирование визуальными концепциями с помощью языка уже в пределах досягаемости.
OpenAI
DALL-E умеет создавать изображения животных, интерьера и экстерьера, еды и т.д. При этом пользователю лишь достаточно написать что-то типа «фотография бюста Гомера».
CLIP
Представила OpenAI и вторую свою разработку — нейросеть CLIP. Она, в отличие от предыдущей технологии, наоборот занимается распознаванием объектов на изображении. Для этого ИИ обращается к описанию предмета, причём ко всему тексту, а не тегу из одного слова.
Эксперты TechCruch назвали представленные новинки «сказочно интересными и мощными работами». По их мнению, DALL-E и CLIP повторят судьбу прочих проектов OpenAI и превратятся во что-то ещё более удивительное.
Источник: TechCrunch
Источник: