Geradores de IA de texto para imagem, explicados

Os geradores de IA de texto para imagem são uma nova tecnologia poderosa para a qual o mundo pode não estar pronto.

Fonte: Google via The Verge

Imagine que houvesse uma máquina que pudesse pegar qualquer sequência de palavras que você digitasse e transformá-la em uma imagem. Por exemplo:

“Um polvo alienígena flutua por um portal lendo um jornal” ou “um casal de robôs jantando com a Torre Eiffel ao fundo”.



Bem, você pode parar de imaginar porque esse recurso existe com geradores de IA de texto para imagem .

Para que esses geradores funcionem…

… eles precisam ingerir grandes quantidades de dados. Os pesquisadores treinam os programas em conjuntos de dados que incluem imagens com legendas e, após bastante prática, podem identificar padrões e começar a cuspir resultados.

Os principais jogadores são:

  • DALL-E da OpenAI , lançado em 2021 e lançado DALL-E 2, em abril
  • Imagem do Google , lançado na segunda-feira

Além de emparelhar imagens com texto, ambos os sistemas podem renderizar imagens em uma ampla variedade de estilos visuais (por exemplo, fotorrealismo versus desenho a lápis).

O potencial criativo é enorme…

… mas as preocupações também. DALL-E e Imagen estão sujeitos aos mesmos vieses subjacentes dos dados que estão ingerindo. Os críticos argumentam que, nas mãos erradas, essas ferramentas podem alimentar desinformação perigosa.

Em outras palavras, pode demorar um pouco até que você possa colocar as mãos em qualquer um dos sistemas. A OpenAI abriu recentemente o DALL-E 2 para selecionar testadores beta, enquanto o Google diz que o Imagen ainda não está pronto para uso público.