ITCooky Recetas

Vamos a cocinar it cositas

¡Generamos nuestras imágenes mediante la red neuronal Stable Diffusion con la descripción textual!

дата marzo 8, 2023

Hoy en día las redes neuronales han hecho mucho quilombo, en una provincia dicen que la red neuronal le hizo a una freelancer la imagen de su difunto esposo, tan real que lo sentios y dicen que hasta esta embarazada.

El entusiasmo por las redes neuronales es comprensible: asusta la calidad del resultado … a los artistas y otros autores. Y para nosotros, que no somos artistas, la red neuronal simplemente brinda una herramienta lista para la realización de nuestras ideas: la cámara también es una herramienta para la realización de nuestras ideas, pero los artistas no piden prohibirla o limitarla!(ya no, al principio quizas si)!

Hoy estoy instalando la red neuronal Stable Diffusion de stablediffusionweb.com versión 2.1 en Ubuntu, resulta que el contenido de NSWF es deshabilitado en él, no me fije en eso, en versiones anteriores aun esta, por si lo nesecite alguien!(tras usar lo unpoco creo que esta limitacion se debe solo a los modelos pre hechas, no el app total, modelos de otoros tienen de todo)

Esta red neuronal genera imágenes de acuerdo con la descripción. Cómo describir es muy importante, la foto de arriba no salio del primer intenro, al principio salia eso:

Todo es importante, la elección de las palabras, su posición en el texto, ¡y aún así es una lotería, sale aproximadamente 2 de 10 de lo que se imaginaba!

Y la imagen al comienzo del artículo no es exactamente lo que pretendía obtener, me gustó cómo la red neuronal la dibujó, ordené: «Pintura medieval detallada de una mujer desnuda con un casco de soldado de asalto de Star Wars en la cabeza, armada con un sable de luz, montada a caballo por naturaleza de fondo», en inglés, por supuesto. Es todo un pasatiempo selecciónando palabras que la redneuro entienda, ¡resulta un juego mas para tu tarjeta de video moderna!

La tarjeta de video cabe desde 8 Gb de memoria y con CUDA, ¡más memoria se pueden ejecutar más subprocesos para el procesamiento!

Instalar Stable Diffusion
Todo se hace con Python, y por ese dpende mucho de la versiones de todo, por lo que hay que instalarlo en un ambiento controloada para que un upgrade no l o rompa todo. Uso Conda para esto en Ubuntu, algunos instalan Anaconda, pero Conda es más pequeño!

Descargando una versión minimalista de Conda
wget https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-Linux-x86_64.sh
e iniciar la instalación
bash Miniforge3-Linux-x86_64.sh
Respondemos afirmativamente a todas las preguntas durante la instalación.

Cerrar abrir ventana de consola en Ubuntu y ejecutar
conda config --show
Algo muestra significa que funciona

Creación de un entorno para la difusión estable
conda create -n SD python=3.10
activalo
conda activate SD

Necesitamos instaladores automáticos y una interfaz web, aquí está github.com/AUTOMATIC1111
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
Ir a la carpeta y ejecutar
cd ./stable-diffusion-webui
bash ./webui.sh

El terminar pidira modelo, hay que darle el modelo.

Vamos aquí huggingface.co/stabilityai/stable-diffusion-2-1/tree/main y bajamos v2-1_768-ema-pruned.ckpt hay cuatro opciones, y probablemente algo diferente.

Puede descargarlo con un comando
wget https://huggingface.co/stabilityai/stable-diffusion-2-1/resolve/main/v2-1_768-ema-pruned.ckpt
y ponerlo en una carpeta ./models/Stable-diffusion/

Lanzamos de nuevo
bash ./webui.sh

Y en el navegador abre la URL
http://127.0.0.1:7860/

Nuestro modelo no funcionará de inmediato, tienes que ir a Settings y en Quicksettings list escribit:

sd_model_checkpoint, upcast_attn

Para encontrar esta configuración, haga clic en la pagina Settings eso Show all pages. Luego click Apply settings y Reload UI y la configuración aparecerá en la pantalla principal Upcast cross attention layer to float32 debe estar checkeada para los modelos 768, y no para 512.

Y tome un texto simple y genere una imagen con la configuración predeterminada
texto

Dragon flying on winter sky

ajustes y resultados

Salio fatal hay que cambiar el texto y la configuración Sampling steps ponemos 99 e CFG Scale ponemos 11.5

Detailed paint Dragon flying on winter sky


¡La imagen resultó completamente diferente pero más detallada y adecuada!

También se puede probar diferentes métodos aquí Sampling method y podemos poner en Batch count como 20 y no hay que espererar hasta el final Skip si la red neuronal empieza a dibujar algun morbo, eso ahorra algo de tiempo.

Estas no son todas las funciones de Stable Diffusion en img2img puede dar una imagen con un texto a la entrada de la red neuronal, pero el resultado está lejos de la imagen, me gustaría que se conservaran las características faciales … no se puede hacer eso aun! o no se como hacerlo!

Genero las imagenes en txt2img uso el texto

detailed medieval painting of a naked woman  wearing star wars trooper helmet on her head and armed with light saber riding a horse on nature landscape 

Settings

Aquí están los resultados exitosos, si, por ejemplo, no te molestas en contar la cantidad de ombligos. Y sí, sigue el texto: todos usan casco, pero no siempre desnudos y no siempre a caballo, ¡pero hay un caballo!












¡Y malas, hay problemas con la cantidad de extremidades o un casco literalmente en la cabeza y, a veces, en un caballo! Un caballo convirtiéndose en jinete!!!









Los diferentes modelos dan, por supuesto, diferentes resultados, ¡segun de lo que ha aprendido!

¡Aquí está el resultado de anything-v4.5 – modelo entrenado sin censura, con énfasis en Anime! E inmediatamente queda claro que no está censurado, ¡pero él realmente no sabe cómo es el casco de un soldado imperial!

¡Me gustó especialmente este trabajo de anything-v4.5! Todo tiene su significado y con una calidad tan alta que incluso la cola del caballo parese que crece de un lugar equivocado pero no es, un enfoque puramente de Anime!

O existe un modelo URPM: cómo describirlo, no es que no esté censurado, ¡es que solo estudió imagenes que han de ser censuradas! Por lo tanto, yo describo a una persona, pero paracen dos (y la tersera esta mirando), y sobresale una cara de cada tarsero, probablemente de allí tambien, y todos está en completa protección, esto es comprensible – la protección es importante cuando haces esas cosas!

Pero basta quitar la palabra medieval, aparentemente, los videos y las fotos medievales eran pocos para la educacion de este modelo, ¡y comienza a dar hermosas imágenes épicas tal como las concebí y visualicé pero no pude dibujar!

P.S.


One Response to “¡Generamos nuestras imágenes mediante la red neuronal Stable Diffusion con la descripción textual!”

  1. […] « ¡Generamos nuestras imágenes mediante la red neuronal Stable Diffusion con la descripción textual… […]

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *