Así funciona InstantID, la nueva solución de generación de imágenes basadas en IA

Ana Cano Barrera

Conversational Designer & Communications

19 de marzo de 2024

La generación de imágenes mediante tecnologías basadas en Inteligencia Artificial está suponiendo una gran revolución. La oleada de modelos de difusión de texto a imagen que está surgiendo en los últimos meses es imparable, como también lo es su enorme potencial en múltiples sectores como el audiovisual, la publicidad, servicios de ocio y entretenimiento, etc. Son muchas las industrias que están poniendo el foco en este tipo de tecnologías para marcar la diferencia. Recientemente se ha dado a conocer una nueva solución basada en modelos de difusión que está despertando gran interés por su facilidad de uso, rendimiento y calidad en los resultados.

Estamos hablando de InstantID. Una innovadora herramienta de código abierto con la que divertirse y explorar nuevas realidades creando imágenes con una coherencia y precisión sorprendentes.

En esta nueva tecnología, una sola foto facial basta para generar nuevas imágenes con alta fidelidad en unos pocos segundos, sin necesidad de entrenamiento previo. Solo tienes que cargar la imagen de la persona que quieras clonar, añadir unas indicaciones de texto y elegir un estilo. Sus posibilidades son infinitas y queremos animarte a que pruebes todo lo que InstantID te ofrece. ¿Empezamos?

Si es tu primera vez generando imágenes con IA y no sabes por dónde empezar, esta solución es un buen punto de partida porque manejarla te resultará mucho más fácil de lo que parece. Te contamos en cinco sencillos pasos cómo sacar el máximo partido a InstantID:

1. Accede a la demo y sube la imagen

Puedes probar InstantID mediante la demo alojada en la nube: https://huggingface.co/spaces/InstantX/InstantID. Verás que es una interfaz muy intuitiva y en pocos segundos lo tendrás todo listo para recibir los primeros resultados.

En la caja de la izquierda, carga la foto en la que quieres que se base la nueva imagen que vamos a generar. Usa solo imágenes de solo una persona, en lugar de un grupo (si reconoce varias caras, tomará como referencia el rostro que ocupe más espacio en la foto). Asegúrate de que el rostro está claramente visible y la imagen tiene nitidez suficiente.

Si quieres conseguir una pose determinada, puedes servirte de alguna imagen de referencia, aunque se trata de un paso completamente opcional. Puedes cargar esta segunda imagen a través de la caja de la derecha.

En ocasiones esta imagen secundaria puede generar ruido o interferir ligeramente en la semejanza de la imagen generada, así que valora si deseas utilizar esta opción o no. En muchos casos es preferible hacer uso solo del prompt para que el texto sea la única instrucción que enviemos a la herramienta. No obstante, hay quienes optan por utilizar esta imagen de referencia porque les resulta difícil describir por escrito lo que desean obtener.

Si tienes muy claro lo que estás buscando pero te resulta complicado definirlo a través del texto, esta segunda imagen de referencia puede ser muy útil. Haz pruebas y aprovecha o descarta esta posibilidad según los resultados generados.

2. Construye un prompt efectivo

Redacta un prompt sencillo, pero rico en detalles. Incluye instrucciones específicas para que el resultado sea lo más preciso posible. Recuerda evitar frases complejas y ambiguas que puedan dar lugar a confusión. Utiliza un lenguaje natural y fácilmente comprensible. Aunque puedes insertarlo en cualquier idioma, sugerimos hacerlo en inglés para garantizar un mejor entendimiento.

Ya sabes que la inteligencia artificial tiene que ser capaz de interpretar correctamente estas indicaciones textuales para entender lo que estamos buscando; en la composición del prompt está la clave para dirigir la generación de imágenes correctamente y que el resultado se acerque a nuestras expectativas.

Evalúa el resultado generado por la IA y si no te convence, ajusta el prompt para mejorarlo: enriquece tus instrucciones con más detalles o sustituye algunas palabras por otros términos más concisos.

Veamos un ejemplo sencillo con un prompt muy básico: A businesswoman in London.

Imagen real de la cantante Rihanna. Fuente imagen original: Rich Fury//Getty Images

A continuación, mostramos algunos ejemplos de prompts más sofisticados:

A businesswoman, dressed in a professional and elegant outfit, exuding confidence and determination, on a bustling avenue in a modern city filled with skyscrapers.

An image of a casually dressed woman enjoying outdoor activities in a rural and picturesque setting surrounded by trees and mountains.

A blond-haired child with brown eyes is playing in a playground. In the background, there are colorful swings, trees, and wooden benches.

Foto de Andrew Lancaster en Unsplash.

3. Elige un estilo

Si estás buscando un resultado más artístico, te gustará probar alguno de los estilos que vienen por defecto en la herramienta. Hay nueve modalidades diferentes, nueve ambientes que te harán viajar a un mundo nuevo de fantasía. ¡InstantID desafía los límites de tu imaginación!

Mismo ejemplo que la imagen anterior, pero aplicando el estilo Watercolor. Original image source: Rich Fury//Getty Images.

Mismo ejemplo que la imagen anterior, pero aplicando el estilo Film Noir. Original image source: Rich Fury//Getty Images.

Si quieres conseguir una imagen más realista, no selecciones ningún estilo.

4. Ajusta los parámetros

Si quieres tener un mayor control sobre la imagen generada, puedes explorar los diferentes parámetros que encontrarás en la herramienta. Los primeros que aparecen son ‘IdentityNet strength’ (¿cuánto queremos que se parezca a la imagen original?) y ‘Image adapter strength’ (¿cuánto queremos que se adapte a la segunda imagen de referencia?).

Aunque ambas variables pueden oscilar entre 0 y 1,5, por defecto están marcadas en 0,8. Presta atención a estos consejos para saber cómo experimentar con ellas:

Aumentarlas te ayudará a obtener un mayor grado de semejanza con la imagen original.
Sin embargo, es posible que obtengas una imagen con demasiada saturación. En ese caso deberás reducir el parámetro ‘Image adapter strength’.
La posibilidad de utilizar imágenes en los modelos mejora notablemente las indicaciones textuales, sobre todo en los contenidos difíciles de describir. El ‘Image adapter strength’ te resultará muy útil en estos casos, pero ojo, si aprecias que el resultado no es lo suficientemente fiel a las instrucciones del texto, prueba a disminuirlo.

Además, InstantID ofrece parámetros de control net para ajustar aún más la petición que hacemos a la IA. Se trata de tres opciones regulables que también oscilan entre 0 y 1,5, aunque su valor predeterminado es el 0,4. Estas opciones son pose, canny y depth. Utiliza ‘pose’ para la afinación del esqueleto, ‘canny’ para la detección de bordes y depth para jugar con elementos de profundidad.

Por último, podemos hacer uso de las opciones avanzadas para especificar el número de pasos de la muestra, o lo que es lo mismo, el número de veces que la IA intenta afinar la imagen (en este punto hay que tener en cuenta que no siempre obtendremos cambios porque pudiera ser que la calidad de la imagen haya alcanzado su límite), mejorar alguna región no facial de la imagen, o jugar con otros parámetros más complejos como el prompt negativo.

5. Genera la nueva imagen

Clica el botón Submit para iniciar el proceso de generación de imagen. En unos segundos aparecerá el resultado en la caja de la izquierda (la de mayor tamaño).

Sorprendente, ¿verdad? Aunque los resultados son impresionantes, es posible que quieras seguir con más intentos. Descarga la imagen resultante y sigue probando.

Observa la imagen generada y piensa en qué aspectos podría mejorar. ¿No se asemeja lo suficiente a la foto original? ¿Estás conforme con la similitud pero te gustaría modificar la pose? ¿El estilo elegido te genera dudas? ¿Te gustaría mantener el fondo de la primera imagen? Experimenta con los parámetros y el prompt, la versatilidad de esta solución es alucinante.

¡Importante! Ten en cuenta que esta versión tiene ciertas restricciones y no podrás hacer pruebas de forma ilimitada debido a la capacidad de la GPU del dispositivo. Con una misma IP podrás generar en torno a 20 imágenes diarias, aproximadamente.

Como te adelantamos al comienzo de este post, estamos ante una solución revolucionaria que pone al alcance de todos la posibilidad de clonar imágenes de cualquier persona en cuestión de segundos. Si te apasiona la Inteligencia Artificial y quieres explorar la creación de imágenes, ¡sumérgete en InstantID y descubre todas sus posibilidades!

InstantID: Zero-shot Identity-Preserving Generation in Seconds

Ana Cano Barrera

Conversational Designer & Communications

Licenciada en Comunicación Audiovisual. Creo en la fuerza de los equipos multidisciplinares y, sobre todo, en el papel fundamental que juegan los perfiles humanistas para el buen entendimiento humano-máquina. Ante la innovación tecnológica, la comunicación siempre como estrategia.