En el primer lanzamiento del modelo oficial para Stable Diffusion, se olvidaron de eliminar a las personas reales allí, por supuesto que nosotros no estábamos allí, pero estaban celebridades. Posteriormente las quitaron, aunque pareció que nadio presento quejas… Pero quedó la oportunidad de agregar su propia cara y poses de lo cual hay un gran beneficio para los domisillios, para crear sus propios avatares con cualquier estado de la cara o el fondo elegante, y para los fans de todos tipos y tipas: como para poner a su actor favorito en cualquier papel, nunca visto, hasta imposible.
Supongo que ya tienen Stable Diffusion instalado a través de AUTOMATIC1111 web, en alguna plataforma, si no, así es como lo instalé en Ubuntu¡Generamos nuestras imágenes mediante la red neuronal Stable Diffusion con la descripción textual!
Por cierto, dependiendo de la fecha de instalación, tendrás diferentes problemas, ahora, por ejemplo, ese es el problema masivo 9341 al tratar de usar la con xfarmers, y es una cosa essencial: ¡usa de manera más económica la memoria GPU! ¡Pero no es eso el tema de esta articulo! Ya tienes todo instalado y funcionando, pasaste por el navegador para http://127.0.0.1:7860/ aya vamos!
Añadimos una pose a Stable Diffusion
Necesitamos instalar la extensión en AUTOMATIC1111sd-webui-controlnet manipulations
En Extentions\Available press Load from: encuéntralo en la lista que aparece y haz clic a la derecha Install
Al final de la instalación, aparecerá en Extentions\Installed
Ahora necesita reiniciar AUTOMATIC1111 en Settings press Reload UI y despues de eso aparece en la pestaña txt2img abajo a la izquierda ControlNet v1.1.181
ControlNet necesita sus propios modelos, descárgalos, creo que de aquí: https://huggingface.co/lllyasviel/ControlNet/tree/main/models
Descargando archivos
control_sd15_depth.pth
control_sd15_openpose.pth
Estos son mis principales modelos.
openpose – dibuja una pose de linias del esqueleto, y ahora también captura la expresión facial
depth -dibuja la profundidad de toda la imagen
Poneos en una carpeta /stable-diffusion-webui/models/ControlNet
En los settings activamos para que se puedan usar tres modelos a la vez
en Settings buscamosControlNet y ponemos 3 en
Multi ControlNet: Max models amount (requires restart)
Guardar y reiniciar Settings press Applay settings y Reload UI
Intentemos usar lo, en la pestañatxt2img empujando aparte ControlNet v1.1.181 ahora estamos en la ficha ControlNet Unit 0
Marcó la casilla Enabled
Press Image subí una foto
En Preprocessor elijo openpose-face
En Model elijo control_sd15_openpose.pth
Press en una bomba, para hacer la vista previa, ¡y vemos la vista previa!
Bueno, escribimos en la parte de arriba, el text promt.
Young woman
Press Generate
En total, ¡todo resultó bien a nivel de los huesos! Pero no hay suficiente volumen para esto y necesitamos depth
En la pestaña ControlNet Unit 0 dejar todo como estaba, vamoms a ControlNet Unit 1 y aquí
marcó la casilla Enabled
Press Image subí una foto
En Preprocessor elijo depth_leres
En Model elijo control_sd15_depth.pth
Y así aparecieron los volúmenes. ¡Los huesos estan posisionados correctamente con los volúmenes correctos sobre ellos!
Añadimos propia cara a Stable Diffusion
Ahora tengo un buen resultado usando Embedding. Embedding modelo es compatible con todos los modelos entrenados en el mismo base modelo, ahora casi todos están en v1-5-pruned-emaonly.safetensors.
Para empezar, encontramos 25-40 fotos, de tamaño más de 512 píxeles de alto y ancho, de alta calidad con una pose de rostro neutral, esta pose será dibujada por la red neuronal. Varios tamaño de la cara b posision: muy grandes, hasta el cofre, hasta el ombligo. Tomo Ana de Armas, porque soy su fan, eso me permite adorarla.
Estas son las fotos que elegí.
En Train\Create embedding
Aquí establecemos el nombre, cualquier krakozyabka, lo principal es que no tiene otro significado para la red neuronal, excepto apuntar a ese modelo Embedding
Y enNumber of vectors per token ponemos 5 – así se aconseja hacer para 30-40 fotos.
A continuación vamos a Train\Preprocess images
Aquí ponemos carpetas,Source directory con las fotos y Destination directory y fotos preparadas para neuro.
Marco la casilla Auto focal point crop antes tambien marcaba Use BLIP for caption, porque se aconseja hacerlo, pero esta función ha dejado de funcionar y realmente no afecta en nada.
Tenga en cuenta que todos nuestras imagenes estaban en todas partes a 512 píxeles.
Y ahora estamos todos listos para empezar a aprender.
Vamos a Train\Train
En Embedding seleccione el nombre creado anteriormente
En Embedding Learning rate yo pongo
0.05:10, 0.02:20, 0.01:60, 0.005:150, 0.002:500, 0.001:3000, 0.0005:10000, 0.0001
En Dataset directory es Destination directory del paso anterior
En Max steps pongo 30000
En Drop out tags when creating prompts. cndk. 0.1
Y en Choose latent sampling method pongo Random
El resto es por default
Y es importante que el modelo base se seleccione desde arriba. v1-5-pruned-emaonly.safetensors
Lanzamos el proceso, press Train Embedding,nos vemos todos en 2 horas (tiempo que dura enun GPU con 7168 cuda cores Review de la tarjeta gráfica profesional NVIDIA PNY RTX A4500 20Gb con tests en video juegos!, que según los estándares modernos ya es mediocre)! Cada 500 pasos se crea una vista previa para el control visual
Bueno, el resultado ya es reconocible, pero en realidad lo dejo para estudiar toda la noche, resulta en algún lugar alrededor de 150000-200000 … y esto no siempre da un resultado, a veces cuanto más tiempo peor, no hay números fijos, debe ver cómo resulta, para esta configuración Save a copy of embedding to log directory every N steps, 0 to disable debemos grabar cada 500 pasos en carpeta /stable-diffusion-webui/textual_inversion/fecha_de_creacion/nombre_de_su__embedding/embeddings todas las opciones están escritas, las tomamos, las ponemos en /stable-diffusion-webui/embeddings comenzamos a procesar y vemos si ya estaba bien desde el principio. Por cierto, el modelo en sí es sospechosamente pequeño, no más de 16 kilobytes, ¡por mucho que lo enseñes!
Bueno, lo hacemos, agrego una consulta de texto.
female posing, wearing elegant dress, art by Ana_de_Armas881
Ana_de_Armas881 – es el nombre del Embedding press Generate
Reconocible sí, pero terriblemente pocos pixels, esto se puede solucionar marcando Hires. fix dejamos todo por default y se duplica la superficie de trabajo, y de ahí el resultado
En realidad ya es bueno!
Puedes probar otros modelos no de fábrica v1-5-pruned-emaonly.safetensors
Buen realismo dan:
realisticVisionV20_v20.safetensors
cyberrealistic_v30BETA.safetensors
La cara es claramente mejor, pero debe tenerse en cuenta que estos modelos no están entrenados en fábrica en condiciones esteriles, ¡pero dan alrededor del 30% -50% de imágenes decentes!
Bueno, ya es todo ahora solo hay que jugar con distintas con la configuraciónes, prueba en diferentes modelos, y tesxt promt también es muy importante. En el sitio openart.ai puede mirar las solicitudes, ¡se publican allí con la configuración completa!
Deja una respuesta