Hacia una mejor alineación de generación de texto a imagen mediante modulación de atención