Нейросеть DALL-E, которая "переводит" слова в изображения, неотличимые от реальности

Компания Open AI представила новую версию своего DALL-E, искусственного интеллекта, который способен превратить текст в образы. Эта технология является свидетельством поразительных возможностей, которых сегодня достиг ИИ, но также и напоминанием о том, что изображениям и видео больше не следует доверять на 100%.

Open AI — это некоммерческая организация, целью которой является развитие ИИ на благо человечества. Компания была основана в Сан-Франциско в конце 2015 года Илоном Маском и Сэмом Альтманом, пионерами в разработке языковых моделей. Эти языковые модели называются авторегрессивными, т.е. они учатся на основе прошлых значений (например, текстов, опубликованных автором), чтобы предсказать будущие значения (каким будет новый текст, написанный в стиле того же человека). Но этот тип ИИ подходит не только для генерации текстов. Компания Open AI также использовала его для разработки DALL-E, инструмента для перевода слов в изображения.

DALL- E происходит от имени каталонского художника-сюрреалиста Сальвадора Дали и главного героя диснеевского фильма WALL-E. Первая версия этой нейросети была запущена в январе 2021 года, и хотя она была ограничена заданными комбинациями слов, ее удивительные результаты попали в заголовки международных газет. Теперь Open AI представила DALL-E 2, версию, которая, по словам ее создателей, является гораздо более продвинутой и позволяет преобразовывать мысли в фотореалистичные изображения.

Как работает DALL-E 2

Open AI еще не поделилась своим продуктом с общественностью, но, согласно презентации компании, вы можете попросить DALL-E2 создать изображения астронавтов на лошадях, плюшевых медведей, проводящих химические опыты в лаборатории, или миску супа, которая на самом деле является порталом в другое измерение. Вы также можете выбрать стиль — от полностью фотореалистичного изображения до картин в стиле таких художников, как Вермеер, Уорхол или Баския.

Программа DALL-E 2 больше не основана на GPT-3, как ее предыдущая версия, а это значит, что ее не нужно ограничивать комбинацией заранее установленных концепций. Теперь этот искусственный мозг работает в два этапа: на первом используется языковая модель Open AI под названием CLIP, которая переводит текстовые описания в изображения. Затем она запускает нейронную сеть (диффузионная модель), чтобы генерируемое изображение было похоже на то, что хочет CLIP.

Прощай фотошоп?

Еще одним важным преимуществом новой версии является возможность изменять существующие изображения с помощью текстовых надписей. Вы можете попросить DALL-E 2 надеть гребень на Мону Лизу, сделать ваш портрет похожим на «Девушку с жемчужной сережкой» Вермеера и др. Кроме того, вы можете удалять, изменять и заменять элементы изображения другими, как это делают ретушеры фотографий с помощью Photoshop. Например, можно убрать собаку, сидящую на стуле и заменить ее кошкой, сохранив при этом реалистичность теней, текстур и отражений.

Одним словом, технология показывает удивительные результаты, которые значительно лучше версии, выпущенной чуть более года назад. Если прогрессия продолжится, то пройдет совсем немного времени, как на свет появятся DALL-E 3 или DALL-E 4, способные создавать невероятные фотографии и картины. В результате, многие фотографы, ретушеры и банки изображений останутся без работы.

Нейросеть DALL-E, которая «переводит» слова в изображения, неотличимые от реальности

Как работает DALL-E 2

Прощай фотошоп?