O que é DALL·E 2?

O DALL·E 2 é um programa de inteligência artificial que cria imagens a partir de descrições textuais, revelado na quinta-feira pela OpenAI, uma empresa de pesquisa.

Ele usa uma versão de treinamento de 12 bilhões de parâmetros do modelo de transformador GPT-3 para interpretar as entradas de linguagem natural e gerar as imagens correspondentes. Por exemplo, quando recebeu a frase 'uma foto em preto e branco de um cachorro pequeno', produziu uma imagem em preto e branco renderizada corretamente de um Chihuahua.

O sistema não é perfeito - às vezes produz imagens difíceis de interpretar ou completamente erradas. Por exemplo, quando solicitado a gerar uma imagem de 'uma pessoa andando de monociclo em uma corda bamba sobre um vulcão', produziu uma imagem (bonita, na minha opinião), mas completamente não relacionada, de um pôr do sol sobre a água com uma pequena figura em primeiro plano .

Ainda assim, os resultados são impressionantes, e a OpenAI diz que o DALL·E 2 'é o primeiro modelo de IA a gerar imagens a partir de descrições textuais que podem rivalizar com a qualidade dos artistas humanos profissionais'.

O sistema foi treinado em um conjunto de dados de pares texto-imagem, consistindo em cerca de 1,3 milhão de imagens e legendas da Internet que foram extraídas e selecionadas pelo OpenAI. Os dados de treinamento foram então usados para ajustar o modelo GPT-3 para que ele pudesse gerar imagens a partir de descrições textuais.

A OpenAI diz que o sistema pode gerar imagens de 'alta qualidade' a partir de uma ampla gama de descrições textuais, incluindo aquelas que são abstratas, concretas ou mesmo poéticas.

Além do exemplo de Chihuahua, outros exemplos de imagens produzidas por DALL·E 2 incluem um retrato corretamente renderizado de Adolf Hitler, uma imagem de um dragão feito de vegetais e uma imagem da Mona Lisa feita de torrada.

O sistema também é capaz de gerar imagens de coisas que não existem, como um 'floof' (um animal inventado) ou um 'tulpa' (uma forma de pensamento).

No geral, os resultados são impressionantes, e a OpenAI diz que o sistema 'abre novas possibilidades para gerar imagens a partir de descrições textuais'.

A PARTIR DE E 2 Esse sistema CLIP converte informações de texto em informações visuais. Este é um paradigma de codificador-decodificador, o que significa que quando o texto de entrada é fornecido, ele é primeiro convertido em entrada de máquina, depois processado pelo sistema e finalmente passado para o decodificador, que converte os dados codificados em uma imagem.

O que é DALL E 2

O que é DALL·E 2?

Esta é a última geração do DALL·E, um modelo de linguagem generativa que usa frases para criar efeitos visuais completamente novos. O DALL E 2 é um enorme modelo de 3,5 V, embora não seja tão grande quanto o GPT-3. Curiosamente, também é mais leve que seu antecessor (12B). Em termos de alinhamento de descrição e fotorrealismo, DALL·E 2 é 70% melhor que DALL·E 2, apesar de seu tamanho maior.

DALL.E 2- explicação para iniciantes com exemplos

Especificamente, DALL·E 2 é um modelo hierárquico de síntese de imagem de texto condicional que combina aprendizado profundo para processamento de linguagem natural com visão computacional para geração de imagens. Seu objetivo é treinar dois modelos, e o conjunto de treinamento consiste em imagens e descrições pareadas. O primeiro é um a priori que, dado um título escrito, pode ser treinado para gerar uma incorporação de imagem CLIP. Temos então um decodificador que, ao incorporar uma imagem CLIP (e legenda, se houver), pode gerar uma imagem treinada.

DALLE 2 é treinado usando centenas de milhões de fotos com legendas da internet, e algumas dessas imagens são removidas e reordenadas para mudar o que o modelo aprende. Ele recupera várias opções de imagem anexos CLIP e então usá-lo decodificador passar por cada um deles. Em seguida, ele cria uma mistura interessante de todas as informações fornecidas pelo usuário.

Exemplo DALL É 2

Vamos jogar um joguinho para entender DALL·E. Vamos dividi-lo nas próximas três etapas.

Imagine arco-íris, nuvens e unicórnios voando no céu azul. Imagine como uma imagem poderia ser em sua imaginação. As pessoas são a coisa mais próxima que temos do analógico perfeito de uma imagem incorporada, e a imagem que acabou de surgir em sua cabeça é um exemplo perfeito disso. Você só pode adivinhar sobre o produto final, mas tem uma boa ideia do que deve ser incluído. O modelo a priori leva o leitor das palavras de uma frase para uma cena em sua imaginação.
Agora você pode começar a desenhar. O que unCLIP faz é converter sua imagem mental em um esboço real. Agora você pode recriar com precisão outro personagem da mesma descrição, com as mesmas estatísticas básicas, mas com um estilo visual completamente novo. O DALL·E 2 também pode gerar imagens exclusivas a partir de uma imagem existente incorporada dessa maneira.
Preste atenção no esboço que você fez. Isso é o que acontece quando você esboça a descrição de 'um unicórnio no meio das nuvens, e um arco-íris surge no céu'. Agora examine a imagem e o texto para determinar o que melhor ilustra o outro (sol, casa, árvore, etc.) e o que melhor ilustra o assunto, estilo, cores, etc. O que o CLIP faz é codificar características. texto e imagens.

Agora que sabemos o que é DALL-E, vamos passar para a próxima seção e entender seus recursos.

Dica: Como criar imagens realistas com o serviço DALL-E-2 AI

Características DALL E 2

Abaixo estão as especificações do DALL·E 2.

variações
Coloração
Diferenças de texto

Vamos falar sobre eles em detalhes.

como fazer cartões de visita no word 2010

1] variações

DALL·E 2 vai além de simplesmente traduzir uma frase em uma imagem. O OpenAI pode experimentar o processo generativo, produzindo resultados diferentes para uma determinada assinatura, graças aos robustos embeddings CLIP. O que o CLIP 'vê' em sua 'mente' é o que considera importante da entrada (permanece o mesmo para todas as imagens) e o que pode ser substituído (que muda para diferentes imagens). Sempre que possível, DALL·E 2 manterá 'informações significativas... e aspectos estéticos'.

2] Coloração

DALL·E 2 pode modificar fotos existentes com preenchimento automático. No exemplo a seguir, a imagem da esquerda é a imagem original e as fotos do centro e da direita têm o elemento desenhado em lugares diferentes. DALL·E 2 corresponde a um elemento adicional ao Picture Style. Ele também atualiza texturas e reflexos para refletir o novo elemento.

Ler : O que você pode fazer com o ChatGPT

3] Diferenças de texto

DALL·E 2 converte imagens usando diferenças de texto. O DALL·E 2 também possui recursos avançados de interpolação que permitem modificar objetos. Um usuário do Twitter conseguiu 'desmordenizar' seu iPhone. twitter.com para conferir.

Se você gosta desses recursos, tudo o que você precisa fazer é acessar openai.com e depois registre-se. Você pode criar uma nova conta ou usar suas contas existentes da Microsoft ou do Google para se inscrever. Depois de fazer isso, você receberá alguns créditos gratuitos, se quiser mais, terá que pagar por isso.

Esses são alguns dos recursos do DALL·E 2, ele tem muitos casos de uso excelentes, mas é sempre recomendável não confiar muito nas ferramentas de IA. Afinal, eles não passam de ferramentas usadas para fazer o trabalho, nunca poderão substituir a inteligência emocional de uma pessoa.

Leia também: Os melhores aplicativos, softwares e sites de deepfake.