Pero me refiero, por qué no usas las imágenes originales directamente para el vídeo? Que entiendo que es para lo que lo quieres.
En cuanto al prompt, tienes que tener en cuenta que cuanto más al inicio están las palabras, más peso tienen, y que funciona mejor usar lenguaje más natural y "descriptivo" y menos "abstracto" (me refiero a cosas como "preparing for the next round" y similares). Y especificarle photography si no quieres que te haga dibujos.
Te recomiendo también que pongas el --s 50 como base que es el más "neutro" o el que mejor funciona en general, y pruebes --style raw y --s 0 cuando quieras que algo se ciña más al prompt.
Luego para saber si conoce algunas referencias, puedes probar a tirar el prompt directamente con eso (en este caso flak 88). Parece que sabe que es algo asociado a la guerra pero no tiene muy claro qué es. Algo muy útil es usar el /describe para ver cómo entiende la imagen. Se fuma muchos porros con esto y luego los resultados muchas veces ni se parecen, pero sí que te da ciertas palabras clave para entender qué y cómo entiende ciertas cosas:
Ver el archivo adjunto 4170
Ahí se fuma tremendo petardo pero te puede servir para encontrar KWs como "anti-aircraft gun" y similares. No hagas mucho caso al texto en sí sino a palabras o frases que puedan ayudarte a generar el resultado.
Y otra más, si tienes una imagen donde sale en este caso el cañón, prueba a tirarle prompts más cortos, estilo "documentary photography of [link] 1943" y similares.
¡Suerte con la batalla contra MJ!
A ver si encuentras las KWs adecuadas pronto