通过注意力调制实现更好的文本与图像生成对齐